
Python自然言語ライブラリ作者「AIのせいでネットの言語データが歪んで使えなくなった。もうネットから学習するのは無理」

- 1
【動画】アメリカの暴動、ガチで面白すぎるwwwwwwwwwww1 : 2025/06/11(水) 17:20:24.38 ID:cEa81ANq0 https://video.twimg.com/amplify_video/193263008356438835...
- 2
斎藤知事追及スレ民の神戸市在住61歳無職、斎藤派県議への誹謗中傷、殺人予告で逮捕(´・ω・`)1 : 2025/06/11(水) 17:27:20.71 ID:lGhF7htk0 兵庫県の増山誠県議の画像などをSNSに公開し、名誉を棄損した疑いで、61歳の男が逮捕されました。 名誉棄損の疑い...
- 3
韓国年金基金、1月からのドル売りを停止-ウォン上昇で下支え不要に1 : 2025/06/11(水) 12:50:19.75 ID:hfjHzrXv ウォン、数週間で急上昇―昨年10月以来の高値水準に 10日のウォンやアジアリスク資産は下落―米中通商協議への懸念影...
- 4
日本軍、輸送船が沈没するもボートに縋って助けを求める仲間の腕を斬り落とす1 : 2025/06/11(水) 16:36:12.07 ID:SXyqpdvz0 「大誠丸の悲劇」 昭和20年4月19日、千島列島北部から本土決戦に備え、海上機動第三旅団などが乗船し北海道を経由...
- 5
米のカビ毒検査 任意になっていた 小泉進次郎 1 名前:押しボタン式の匿名希望者 投稿日時:2025/06/11(水) 16:13:14.67 ID:GZoaFy/20 コメの大手卸関係者が明かす。 「備蓄米を出荷する際にはカビ毒が発生していな...
- 6
フリーアナ・内田恭子「カレーをつくるときは、インド米を使っている」米問題で「輸入米でもいいんじゃないかな」1 : 2025/06/11(水) 16:16:25.72 ID:7B24Cbyt9 https://news.yahoo.co.jp/articles/0ac0d85c9d7689bca9cab1...
- 7
民放連 民放各社にフジ同様の「性暴力」による重大な人権侵害の事案はなかったと報告1 : 2025/06/11(水) 16:17:05.11 ID:7B24Cbyt9 https://news.yahoo.co.jp/articles/e1338f02acb082431a8d45...
- 8
【東京地裁】スーパーサラリーマン清水に懲役2年、執行猶予3年の判決 無許可で住宅工事をした罪1 : 2025/06/11(水) 16:28:04.77 ID:0utSWdMq9 6/11(水) 16:22配信 共同通信 https://news.yahoo.co.jp/articles/8...
- 9
【文春】三山凌輝の「1億円貢がせ & 水谷豊の娘・趣里と結婚」報道で『相棒』制作が遅れていた テレ朝「お答えすることはありません」1 名前:匿名のゴリラ 投稿日時:2025/06/11(水) 16:23:30.94 ID:AzYpUqKT9 〈「BE:FIRST」三山凌輝(26)懺悔告白に初反論! 1億円を貢いだRちゃん“39...
- 10
【正論】維新吉村はん、現金給.付に大反対「現金給.付は絶対だめだ。ギャンブルや遊びにつかられるだけ1 名前:匿名のゴリラ 投稿日時:2025/06/11(水) 16:35:19.43 ID:EjyX1r460 【速報】維新・吉村代表「現金給付やるべきではない」 参院選公約に自公調整も「ギャンブル...
- 11
【考察】林原めぐみブログ、原文を読んでいくと問題の本質が見えてくる【陰謀論】【考察】林原めぐみブログ、原文を読んでいくと問題の本質が見えてくる【陰謀論】 なんJ政治ネタまとめ
- 12
元国税調査官 「こども家庭庁は解体すべき」「子供を産んだら300万円あげても2兆円、こども家庭庁はその3倍以上使って効果上げず」1 : 2025/06/11(水) 16:23:22.84 ID:26EM4ikw9 日本よ「こども家庭庁」をぶっ潰せ。知れば誰もが激怒する血税7.2兆円「中抜きし放題」の実態!省庁廃止で少子化が解...
- 13
【悲報】たちんぼ女子さん、太ましすぎて警察に連行される【2ch】【悲報】たちんぼ女子さん、太ましすぎて警察に連行される【2ch】 とまとニュースまとめ速報
- 14
高校無償化 在日外国人も対象へ 自民公明と維新いしん 合意 1 : 2025/06/11(水) 14:31:43.67 ID:GZoaFy/20 自民・公明両党が 日本維新の会と 合意した高校の授業料無償化。 3日に開かれた衆議院予算委員会で 自民党・山田賢...
- 15
英国航空機のCA、コカインを吸って機内のトイレで裸踊り 関係者「飛行機よりハイな所にいたようだ」1 : 2025/06/11(水) 16:06:25.32 ID:/ij8GkHe0 客室乗務員がトイレで裸踊り 飛行中の英国機内で発覚、薬物使用か ロンドン到着後に逮捕 https://www.s...
- 16
東京ディズニーで白雪姫のアトラクションに乗ろうとしてキャストに怒鳴られた=中国人が不満投稿も逆に袋だたきに東京ディズニーで白雪姫のアトラクションに乗ろうとしてキャストに怒鳴られた=中国人が不満投稿も逆に袋だたきに 大東亜速報
- 1 : 2024/09/19(木) 23:21:06.215 ID:mgvlDGD7C
- Why wordfreq will not be updated
https://github.com/rspeer/wordfreq/blob/master/SUNSET.md - 2 : 2024/09/19(木) 23:21:42.244 ID:w5WM45Gjc
- よくわからんけどうんこ食えば?
- 3 : 2024/09/19(木) 23:21:43.604 ID:mgvlDGD7C
- wordfreqデータは、2021年までの様々なオンラインソースに見られる言語のスナップショットである。更新されなくなる理由はいくつかある。
2021年以降の人間による言語使用について、信頼できる情報を持っている人はいないと思う。
オープンウェブ(OSCAR経由)はwordfreqのデータソースのひとつだった。今、ウェブ全体は大規模な言語モデルによって生成されたドロドロしたものであふれている。このドロドロしたものをデータに含めると、単語頻度がゆがんでしまう。
確かにワードフリークのデータソースにはスパムがあったが、それは管理可能で、しばしば識別可能だった。大規模な言語モデルは、意図がないにもかかわらず、その背後にある本当の言語のように見せかけるテキストを生成し、その出力はいたるところに現れる。
その一例として、フィリップ・シャピラは、ChatGPT(2024年頃のOpenAIの一般的な生成言語モデルのブランド)は、人々がしたことのないような方法で「delve」という単語に取りつかれ、その全体的な頻度を一桁増加させたと報告している。
- 5 : 2024/09/19(木) 23:22:07.190 ID:VTGpt4V8S
- シャチゲェジとは、特有の毛色を持つスレを建てる1個人を指す名称である。
少なくとも2018年から活動しており、2019年には既に「シャチゲェジ」として認知されている。当初はシャチに関するスレであったが、その後は職業、勤務先の人間関係、家庭状況などシャチ以外の話題を好み、それを用いてマジレスゲェジの自己顕示欲を刺激して、執拗なレス乞食を繰り返している。
- 6 : 2024/09/19(木) 23:22:40.716 ID:ZlfskN46B
- pythonのライブラリじゃなくてデータベースやん
こんなことも知らないとかゲェジかな
- 10 : 2024/09/19(木) 23:23:42.864 ID:mgvlDGD7C
- >>6
頻度DBにアクセスするライブラリも含まれるけど…もしかしてアホなん?🥺 - 15 : 2024/09/19(木) 23:25:19.976 ID:ZlfskN46B
- >>10
データベースとライブラリの違いすらわからんクソゲェジがなんか言ってて草 - 19 : 2024/09/19(木) 23:26:14.799 ID:mgvlDGD7C
- >>15
アセットライブラリを含むライブラリを見たらアセットって呼べと強要する派閥なの?
知能に問題あるじゃん - 22 : 2024/09/19(木) 23:26:48.328 ID:ZlfskN46B
- >>19
ライブラリが本体なんだから当たり前じゃん
ゲェジ極めてて草 - 23 : 2024/09/19(木) 23:27:28.123 ID:mgvlDGD7C
- >>22
About
Access a database of word frequencies, in various natural languages.このAccessって言う動詞が意味するもの解釈できまちゅか?
- 31 : 2024/09/19(木) 23:29:31.889 ID:ZlfskN46B
- >>23
ゲェジイライラw - 32 : 2024/09/19(木) 23:29:53.517 ID:mgvlDGD7C
- >>31
あ〜あ言い返せなくなっちゃった
死んだほうがいいよキミ - 35 : 2024/09/19(木) 23:30:21.617 ID:ZlfskN46B
- >>32
お前の論理が破綻してるし言い返さなくてもお前の負けは自明じゃん - 11 : 2024/09/19(木) 23:24:23.231 ID:mgvlDGD7C
- >>6
この物体何が言いたかったの? - 16 : 2024/09/19(木) 23:25:35.435 ID:ZlfskN46B
- >>11
バカ発狂w - 7 : 2024/09/19(木) 23:22:40.826 ID:2nnmLcp1S
- すまんどゆ事?
自然言語ライブラリって何?
Pythonって何? - 12 : 2024/09/19(木) 23:24:57.235 ID:mgvlDGD7C
- >>7
ワイも分かんない…🥺 - 13 : 2024/09/19(木) 23:25:08.855 ID:yW79KyC5V
- >>7
じゃあなんでこのスレ開いたの?
煽りたいんだろうが - 17 : 2024/09/19(木) 23:25:39.930 ID:tuoin8rhl
- >>7
Pythonという言語の自然言語ライブラリ(パーツ)=AIと言われているもの - 20 : 2024/09/19(木) 23:26:22.739 ID:ZlfskN46B
- >>17
これデータベースだぞ
ID:mgvlDGD7Cがゲェジだからライブラリとか意味不明なこと言ってるけど - 30 : 2024/09/19(木) 23:29:21.590 ID:mgvlDGD7C
- >>20
ゲェジくんCPU100%で動いてるのかなw - 33 : 2024/09/19(木) 23:29:54.997 ID:ZlfskN46B
- >>30
ゲェジはお前だろw - 8 : 2024/09/19(木) 23:22:40.841 ID:mgvlDGD7C
- wordfreqは正式な印刷された単語だけを対象にしているわけではない。特に2つのソースから、より会話的な言葉遣いを収集している:TwitterとRedditだ。
ツイッターのデータは常に砂の上に構築されていた。wordfreqは、そのデータを入力として構築された頻度を持っているが、収集されたデータは私のものではなく、もう持っていない。
今はTwitterはなくなり、その公開APIは閉鎖され、サイトはオリガルヒのおもちゃ、Xと呼ばれるスパムまみれの右翼の巣窟に取って代わられた。たとえXが生のデータフィードを公開したとしても(していないが)、そこに価値ある情報はないだろう。
Redditも公開データ・アーカイブの提供を停止し、現在はOpenAIだけが支払う価格でアーカイブを販売している。
この分野で起きていることを考えると、彼らを責める気にはならない。
- 9 : 2024/09/19(木) 23:23:23.218 ID:VTGpt4V8S
- 最近のシャチゲェジはプログラミングやAIなどに傾倒しているのが特徴
スレタイもネットソース直張りなのが特徴的で見分けやすい - 14 : 2024/09/19(木) 23:25:15.232 ID:VTGpt4V8S
- ピキッて自我出してて草
- 18 : 2024/09/19(木) 23:26:05.916 ID:glaCmvQXn
- AIが共食いを始めたってことか?
- 24 : 2024/09/19(木) 23:27:37.015 ID:yW79KyC5V
- これデータセットとかデータベース
- 25 : 2024/09/19(木) 23:27:46.457 ID:mgvlDGD7C
- ゲェジが食い下がってて草生える
- 26 : 2024/09/19(木) 23:27:54.006 ID:0OnpJ/t5P
- いかがでしたかサイトで溢れて糞化したみたいな感じか
- 27 : 2024/09/19(木) 23:28:33.685 ID:Ur2RrMP9G
- 引くに引けなくなって発狂してるの草もうすぐ日跨ぐからがんばれよ
- 28 : 2024/09/19(木) 23:28:49.199 ID:mgvlDGD7C
- お〜い低知能レス止まってるぞ?
テンポよくこっちの言ってることに答えてよ - 29 : 2024/09/19(木) 23:29:02.533 ID:NMPm9s78/
- だから言ってんじゃん
生成AIは界隈汚染するから創造系に接続するなって
現行AIは己の生成物から学習できないんやぞ - 34 : 2024/09/19(木) 23:30:00.175 ID:0MsmpX98P
- どういうこと?ネット上でAIがクソみたいな文生成してるから、それらが含まれる場所から学習しようとすると精度が落ちてもう禄に学習させられないみたいな話か?
コメント