
Python自然言語ライブラリ作者「AIのせいでネットの言語データが歪んで使えなくなった。もうネットから学習するのは無理」

- 1
フィリピンで日本人2人撃たれる1 名前:押しボタン式の匿名希望者 投稿日時:2025/08/17(日) 17:46:26.20 ID:F2iUshOJ0 フィリピンの首都マニラで15日夜、日本人2人が拳銃で撃たれ死亡した。在フィ...
- 2
「ずんだもん」の相方って四国めたん派と春日部つむぎ派で派閥があるよな1 : 2025/08/17(日) 15:41:22.15 ID:e+3cLBJj0 スイッチ2版STGや不労所得を狙うずんだもん、『ローション侍』アクスタにオタク向けマッサージまで!?会場で大声も...
- 3
ケモホモ向けソシャゲのオンラインくじ、始まる 1 : 2025/08/17(日) 14:47:46.83 ID:JasLEYKa0 販売期間開始 2025年08月14日 (木) 18:00終了 2025年09月18日 (木) 23:59 販売価...
- 4
林家木久扇「日本はどこかの国に乗っ取られちゃうんじゃ」既に韓国カルト統一教会に乗っ取られてたよね1 : 2025/08/17(日) 10:20:35.76 ID:qHg9zAmo0 キャスターの長野美郷から「平和というものを守るためには何が必要なんでしょう」と聞かれると、木久扇は「平和、平和と...
- 5
最盛期には月670万部…懐かしの「科学」と「学習」付録300点 北九州市科学館で展示1 名前:押しボタン式の匿名希望者 投稿日時:2025/08/17(日) 16:56:21.14 ID:hzSYc+OT9 最盛期には月670万部を発行した学研の学習誌「科学」と「学習」の付録が大集...
- 6
滝川クリステル、報道の仕方で気になること 結婚報道で「”女性は妊娠していません”って‥そんな時代じゃないと思いますよ?」1 名前:押しボタン式の匿名希望者 投稿日時:2025/08/17(日) 16:50:10.22 ID:j3jTszhE9 https://news.yahoo.co.jp/articles/766...
- 7
加藤登紀子、石破茂首相に「日本は敗戦国だけど戦争を始めた加害国でもある」1 : 2025/08/17(日) 17:26:36.59 ID:TTArAMRT0 加藤登紀子、石破茂首相に「『反省』どう表現するか、ぜひ踏み込んで」戦後80年「見解」に期待 歌手加藤登紀子(81...
- 8
【広島】ウェットスーツで海に繰り返し潜る男3人…クーラーボックスを開けず車で立ち去ろうとし現行犯逮捕 サザエを密漁した疑いで広島県の男3人を送検1 : 2025/08/17 15:57:03 ??? 島根県浜田市の浜田海上保安部は17日、市内の海岸でサザエを密漁したとして現行犯逮捕した男3人の身柄を浜田区検察庁に送りました。 送検されたのは...
- 9
現役高校生に聞いた「サザンオールスターズ」人気曲ランキング発表 3位「勝手にシンドバッド」2位「TSUNAMI」1 名前:匿名のゴリラ 投稿日時:2025/08/17(日) 17:07:37.34 ID:j3jTszhE9 https://news.yahoo.co.jp/articles/55b2dc6ad...
- 10
【酒】米国人の飲酒率、過去最低に 過半数が「アルコールは健康に悪い」と回答1 : 2025/08/17(日) 16:35:07.48 ID:YL7a0j/w9 (CNN) 今週発表された米ギャラップの最新の世論調査で、米国人の飲酒率が過去最低になったことが分かった。アルコ...
- 11
【事案】「迷子??困ったね、横浜まで一緒に行ってあげようか?」1 : 2025/08/17(日) 16:33:13.76 ID:F2iUshOJ0 【速報】「迷子?横浜まで行こうか」 大阪府警淀川署によりますと、8月16日午後7時40分ごろ、JR新大阪駅の東海...
- 12
【キムタク】木村拓哉”人生初”家系ラーメンを完食「うまっ!」店主感激「本当に全部食べるんですね」1 : 2025/08/17(日) 16:47:01.86 ID:gDWrh6Z09 2025年8月17日15時14分 木村拓哉(52)が17日までに、自身のYouTubeチャンネルを更新。人生初の...
- 13
今年の新米、5kgで7800円!貧乏人死亡へ1 : 2025/08/17(日) 16:53:29.87 ID:/JLS8PsQM スーパーなどで今年の新米の販売がスタートしました。待望の入荷となりましたが、5キロ7800円と、売る側も頭を抱え...
- 14
さっき名古屋から新宿まで中央線で行こうと思うと言った者です1 : 2025/08/17(日) 16:21:22.12 ID:feROG+dv0 乗り換え3回 金額6732円 時間8時間10分 経路 名古屋→中津川 中津川→塩尻 塩尻→大月 大月→新宿 帰り...
- 15
山上の乱を民主主義への挑戦ていう人いるでしょ?あれどう見ても政治的意図はなくただの私怨による殺人だよね?そうでしょさや姉?1 : 2025/08/17(日) 17:07:11.05 ID:7e0xDpqya ただの私怨による殺人を民主主義の挑戦とするなら毎日挑戦されてるけどマスコミさんも報道してないのはなぜ? 安倍元首...
- 16
「都心がガラガラ」は昔の話? 変わるお盆の風景に溶け込む”外国人” インバウンドで浮かび上がる人手不足1 : 2025/08/17(日) 16:40:02.95 ID:EKXlO3E89 ※8/17(日) 14:30 TBS NEWS DIG お盆といえば、都心から人がいなくなる光景がおなじみでした...
- 1 : 2024/09/19(木) 23:21:06.215 ID:mgvlDGD7C
- Why wordfreq will not be updated
https://github.com/rspeer/wordfreq/blob/master/SUNSET.md - 2 : 2024/09/19(木) 23:21:42.244 ID:w5WM45Gjc
- よくわからんけどうんこ食えば?
- 3 : 2024/09/19(木) 23:21:43.604 ID:mgvlDGD7C
- wordfreqデータは、2021年までの様々なオンラインソースに見られる言語のスナップショットである。更新されなくなる理由はいくつかある。
2021年以降の人間による言語使用について、信頼できる情報を持っている人はいないと思う。
オープンウェブ(OSCAR経由)はwordfreqのデータソースのひとつだった。今、ウェブ全体は大規模な言語モデルによって生成されたドロドロしたものであふれている。このドロドロしたものをデータに含めると、単語頻度がゆがんでしまう。
確かにワードフリークのデータソースにはスパムがあったが、それは管理可能で、しばしば識別可能だった。大規模な言語モデルは、意図がないにもかかわらず、その背後にある本当の言語のように見せかけるテキストを生成し、その出力はいたるところに現れる。
その一例として、フィリップ・シャピラは、ChatGPT(2024年頃のOpenAIの一般的な生成言語モデルのブランド)は、人々がしたことのないような方法で「delve」という単語に取りつかれ、その全体的な頻度を一桁増加させたと報告している。
- 5 : 2024/09/19(木) 23:22:07.190 ID:VTGpt4V8S
- シャチゲェジとは、特有の毛色を持つスレを建てる1個人を指す名称である。
少なくとも2018年から活動しており、2019年には既に「シャチゲェジ」として認知されている。当初はシャチに関するスレであったが、その後は職業、勤務先の人間関係、家庭状況などシャチ以外の話題を好み、それを用いてマジレスゲェジの自己顕示欲を刺激して、執拗なレス乞食を繰り返している。
- 6 : 2024/09/19(木) 23:22:40.716 ID:ZlfskN46B
- pythonのライブラリじゃなくてデータベースやん
こんなことも知らないとかゲェジかな
- 10 : 2024/09/19(木) 23:23:42.864 ID:mgvlDGD7C
- >>6
頻度DBにアクセスするライブラリも含まれるけど…もしかしてアホなん?🥺 - 15 : 2024/09/19(木) 23:25:19.976 ID:ZlfskN46B
- >>10
データベースとライブラリの違いすらわからんクソゲェジがなんか言ってて草 - 19 : 2024/09/19(木) 23:26:14.799 ID:mgvlDGD7C
- >>15
アセットライブラリを含むライブラリを見たらアセットって呼べと強要する派閥なの?
知能に問題あるじゃん - 22 : 2024/09/19(木) 23:26:48.328 ID:ZlfskN46B
- >>19
ライブラリが本体なんだから当たり前じゃん
ゲェジ極めてて草 - 23 : 2024/09/19(木) 23:27:28.123 ID:mgvlDGD7C
- >>22
About
Access a database of word frequencies, in various natural languages.このAccessって言う動詞が意味するもの解釈できまちゅか?
- 31 : 2024/09/19(木) 23:29:31.889 ID:ZlfskN46B
- >>23
ゲェジイライラw - 32 : 2024/09/19(木) 23:29:53.517 ID:mgvlDGD7C
- >>31
あ〜あ言い返せなくなっちゃった
死んだほうがいいよキミ - 35 : 2024/09/19(木) 23:30:21.617 ID:ZlfskN46B
- >>32
お前の論理が破綻してるし言い返さなくてもお前の負けは自明じゃん - 11 : 2024/09/19(木) 23:24:23.231 ID:mgvlDGD7C
- >>6
この物体何が言いたかったの? - 16 : 2024/09/19(木) 23:25:35.435 ID:ZlfskN46B
- >>11
バカ発狂w - 7 : 2024/09/19(木) 23:22:40.826 ID:2nnmLcp1S
- すまんどゆ事?
自然言語ライブラリって何?
Pythonって何? - 12 : 2024/09/19(木) 23:24:57.235 ID:mgvlDGD7C
- >>7
ワイも分かんない…🥺 - 13 : 2024/09/19(木) 23:25:08.855 ID:yW79KyC5V
- >>7
じゃあなんでこのスレ開いたの?
煽りたいんだろうが - 17 : 2024/09/19(木) 23:25:39.930 ID:tuoin8rhl
- >>7
Pythonという言語の自然言語ライブラリ(パーツ)=AIと言われているもの - 20 : 2024/09/19(木) 23:26:22.739 ID:ZlfskN46B
- >>17
これデータベースだぞ
ID:mgvlDGD7Cがゲェジだからライブラリとか意味不明なこと言ってるけど - 30 : 2024/09/19(木) 23:29:21.590 ID:mgvlDGD7C
- >>20
ゲェジくんCPU100%で動いてるのかなw - 33 : 2024/09/19(木) 23:29:54.997 ID:ZlfskN46B
- >>30
ゲェジはお前だろw - 8 : 2024/09/19(木) 23:22:40.841 ID:mgvlDGD7C
- wordfreqは正式な印刷された単語だけを対象にしているわけではない。特に2つのソースから、より会話的な言葉遣いを収集している:TwitterとRedditだ。
ツイッターのデータは常に砂の上に構築されていた。wordfreqは、そのデータを入力として構築された頻度を持っているが、収集されたデータは私のものではなく、もう持っていない。
今はTwitterはなくなり、その公開APIは閉鎖され、サイトはオリガルヒのおもちゃ、Xと呼ばれるスパムまみれの右翼の巣窟に取って代わられた。たとえXが生のデータフィードを公開したとしても(していないが)、そこに価値ある情報はないだろう。
Redditも公開データ・アーカイブの提供を停止し、現在はOpenAIだけが支払う価格でアーカイブを販売している。
この分野で起きていることを考えると、彼らを責める気にはならない。
- 9 : 2024/09/19(木) 23:23:23.218 ID:VTGpt4V8S
- 最近のシャチゲェジはプログラミングやAIなどに傾倒しているのが特徴
スレタイもネットソース直張りなのが特徴的で見分けやすい - 14 : 2024/09/19(木) 23:25:15.232 ID:VTGpt4V8S
- ピキッて自我出してて草
- 18 : 2024/09/19(木) 23:26:05.916 ID:glaCmvQXn
- AIが共食いを始めたってことか?
- 24 : 2024/09/19(木) 23:27:37.015 ID:yW79KyC5V
- これデータセットとかデータベース
- 25 : 2024/09/19(木) 23:27:46.457 ID:mgvlDGD7C
- ゲェジが食い下がってて草生える
- 26 : 2024/09/19(木) 23:27:54.006 ID:0OnpJ/t5P
- いかがでしたかサイトで溢れて糞化したみたいな感じか
- 27 : 2024/09/19(木) 23:28:33.685 ID:Ur2RrMP9G
- 引くに引けなくなって発狂してるの草もうすぐ日跨ぐからがんばれよ
- 28 : 2024/09/19(木) 23:28:49.199 ID:mgvlDGD7C
- お〜い低知能レス止まってるぞ?
テンポよくこっちの言ってることに答えてよ - 29 : 2024/09/19(木) 23:29:02.533 ID:NMPm9s78/
- だから言ってんじゃん
生成AIは界隈汚染するから創造系に接続するなって
現行AIは己の生成物から学習できないんやぞ - 34 : 2024/09/19(木) 23:30:00.175 ID:0MsmpX98P
- どういうこと?ネット上でAIがクソみたいな文生成してるから、それらが含まれる場所から学習しようとすると精度が落ちてもう禄に学習させられないみたいな話か?
コメント