Python自然言語ライブラリ作者「AIのせいでネットの言語データが歪んで使えなくなった。もうネットから学習するのは無理」

1 : 2024/09/19(木) 23:21:06.215 ID:mgvlDGD7C
Why wordfreq will not be updated
https://github.com/rspeer/wordfreq/blob/master/SUNSET.md
2 : 2024/09/19(木) 23:21:42.244 ID:w5WM45Gjc
よくわからんけどうんこ食えば?
3 : 2024/09/19(木) 23:21:43.604 ID:mgvlDGD7C
wordfreqデータは、2021年までの様々なオンラインソースに見られる言語のスナップショットである。更新されなくなる理由はいくつかある。

2021年以降の人間による言語使用について、信頼できる情報を持っている人はいないと思う。

オープンウェブ(OSCAR経由)はwordfreqのデータソースのひとつだった。今、ウェブ全体は大規模な言語モデルによって生成されたドロドロしたものであふれている。このドロドロしたものをデータに含めると、単語頻度がゆがんでしまう。

確かにワードフリークのデータソースにはスパムがあったが、それは管理可能で、しばしば識別可能だった。大規模な言語モデルは、意図がないにもかかわらず、その背後にある本当の言語のように見せかけるテキストを生成し、その出力はいたるところに現れる。

その一例として、フィリップ・シャピラは、ChatGPT(2024年頃のOpenAIの一般的な生成言語モデルのブランド)は、人々がしたことのないような方法で「delve」という単語に取りつかれ、その全体的な頻度を一桁増加させたと報告している。

5 : 2024/09/19(木) 23:22:07.190 ID:VTGpt4V8S
シャチゲェジとは、特有の毛色を持つスレを建てる1個人を指す名称である。

少なくとも2018年から活動しており、2019年には既に「シャチゲェジ」として認知されている。当初はシャチに関するスレであったが、その後は職業、勤務先の人間関係、家庭状況などシャチ以外の話題を好み、それを用いてマジレスゲェジの自己顕示欲を刺激して、執拗なレス乞食を繰り返している。

6 : 2024/09/19(木) 23:22:40.716 ID:ZlfskN46B
pythonのライブラリじゃなくてデータベースやん

こんなことも知らないとかゲェジかな

10 : 2024/09/19(木) 23:23:42.864 ID:mgvlDGD7C
>>6
頻度DBにアクセスするライブラリも含まれるけど…もしかしてアホなん?🥺

レス10番の画像1
15 : 2024/09/19(木) 23:25:19.976 ID:ZlfskN46B
>>10
データベースとライブラリの違いすらわからんクソゲェジがなんか言ってて草
19 : 2024/09/19(木) 23:26:14.799 ID:mgvlDGD7C
>>15
アセットライブラリを含むライブラリを見たらアセットって呼べと強要する派閥なの?
知能に問題あるじゃん
22 : 2024/09/19(木) 23:26:48.328 ID:ZlfskN46B
>>19
ライブラリが本体なんだから当たり前じゃん
ゲェジ極めてて草
23 : 2024/09/19(木) 23:27:28.123 ID:mgvlDGD7C
>>22
About
Access a database of word frequencies, in various natural languages.

このAccessって言う動詞が意味するもの解釈できまちゅか?

31 : 2024/09/19(木) 23:29:31.889 ID:ZlfskN46B
>>23
ゲェジイライラw
32 : 2024/09/19(木) 23:29:53.517 ID:mgvlDGD7C
>>31
あ〜あ言い返せなくなっちゃった
死んだほうがいいよキミ
35 : 2024/09/19(木) 23:30:21.617 ID:ZlfskN46B
>>32
お前の論理が破綻してるし言い返さなくてもお前の負けは自明じゃん
11 : 2024/09/19(木) 23:24:23.231 ID:mgvlDGD7C
>>6
この物体何が言いたかったの?
16 : 2024/09/19(木) 23:25:35.435 ID:ZlfskN46B
>>11
バカ発狂w
7 : 2024/09/19(木) 23:22:40.826 ID:2nnmLcp1S
すまんどゆ事?
自然言語ライブラリって何?
Pythonって何?
12 : 2024/09/19(木) 23:24:57.235 ID:mgvlDGD7C
>>7
ワイも分かんない…🥺
13 : 2024/09/19(木) 23:25:08.855 ID:yW79KyC5V
>>7
じゃあなんでこのスレ開いたの?
煽りたいんだろうが
17 : 2024/09/19(木) 23:25:39.930 ID:tuoin8rhl
>>7
Pythonという言語の自然言語ライブラリ(パーツ)=AIと言われているもの
20 : 2024/09/19(木) 23:26:22.739 ID:ZlfskN46B
>>17
これデータベースだぞ
ID:mgvlDGD7Cがゲェジだからライブラリとか意味不明なこと言ってるけど
30 : 2024/09/19(木) 23:29:21.590 ID:mgvlDGD7C
>>20
ゲェジくんCPU100%で動いてるのかなw
33 : 2024/09/19(木) 23:29:54.997 ID:ZlfskN46B
>>30
ゲェジはお前だろw
8 : 2024/09/19(木) 23:22:40.841 ID:mgvlDGD7C
wordfreqは正式な印刷された単語だけを対象にしているわけではない。特に2つのソースから、より会話的な言葉遣いを収集している:TwitterとRedditだ。

ツイッターのデータは常に砂の上に構築されていた。wordfreqは、そのデータを入力として構築された頻度を持っているが、収集されたデータは私のものではなく、もう持っていない。

今はTwitterはなくなり、その公開APIは閉鎖され、サイトはオリガルヒのおもちゃ、Xと呼ばれるスパムまみれの右翼の巣窟に取って代わられた。たとえXが生のデータフィードを公開したとしても(していないが)、そこに価値ある情報はないだろう。

Redditも公開データ・アーカイブの提供を停止し、現在はOpenAIだけが支払う価格でアーカイブを販売している。

この分野で起きていることを考えると、彼らを責める気にはならない。

9 : 2024/09/19(木) 23:23:23.218 ID:VTGpt4V8S
最近のシャチゲェジはプログラミングやAIなどに傾倒しているのが特徴
スレタイもネットソース直張りなのが特徴的で見分けやすい
14 : 2024/09/19(木) 23:25:15.232 ID:VTGpt4V8S
ピキッて自我出してて草
18 : 2024/09/19(木) 23:26:05.916 ID:glaCmvQXn
AIが共食いを始めたってことか?
24 : 2024/09/19(木) 23:27:37.015 ID:yW79KyC5V
これデータセットとかデータベース
25 : 2024/09/19(木) 23:27:46.457 ID:mgvlDGD7C
ゲェジが食い下がってて草生える
26 : 2024/09/19(木) 23:27:54.006 ID:0OnpJ/t5P
いかがでしたかサイトで溢れて糞化したみたいな感じか
27 : 2024/09/19(木) 23:28:33.685 ID:Ur2RrMP9G
引くに引けなくなって発狂してるの草もうすぐ日跨ぐからがんばれよ
28 : 2024/09/19(木) 23:28:49.199 ID:mgvlDGD7C
お〜い低知能レス止まってるぞ?
テンポよくこっちの言ってることに答えてよ
29 : 2024/09/19(木) 23:29:02.533 ID:NMPm9s78/
だから言ってんじゃん
生成AIは界隈汚染するから創造系に接続するなって
現行AIは己の生成物から学習できないんやぞ
34 : 2024/09/19(木) 23:30:00.175 ID:0MsmpX98P
どういうこと?ネット上でAIがクソみたいな文生成してるから、それらが含まれる場所から学習しようとすると精度が落ちてもう禄に学習させられないみたいな話か?

コメント

タイトルとURLをコピーしました