- 1 : 2024/09/19(木) 23:21:06.215 ID:mgvlDGD7C
- Why wordfreq will not be updated
https://github.com/rspeer/wordfreq/blob/master/SUNSET.md - 2 : 2024/09/19(木) 23:21:42.244 ID:w5WM45Gjc
- よくわからんけどうんこ食えば?
- 3 : 2024/09/19(木) 23:21:43.604 ID:mgvlDGD7C
- wordfreqデータは、2021年までの様々なオンラインソースに見られる言語のスナップショットである。更新されなくなる理由はいくつかある。
2021年以降の人間による言語使用について、信頼できる情報を持っている人はいないと思う。
オープンウェブ(OSCAR経由)はwordfreqのデータソースのひとつだった。今、ウェブ全体は大規模な言語モデルによって生成されたドロドロしたものであふれている。このドロドロしたものをデータに含めると、単語頻度がゆがんでしまう。
確かにワードフリークのデータソースにはスパムがあったが、それは管理可能で、しばしば識別可能だった。大規模な言語モデルは、意図がないにもかかわらず、その背後にある本当の言語のように見せかけるテキストを生成し、その出力はいたるところに現れる。
その一例として、フィリップ・シャピラは、ChatGPT(2024年頃のOpenAIの一般的な生成言語モデルのブランド)は、人々がしたことのないような方法で「delve」という単語に取りつかれ、その全体的な頻度を一桁増加させたと報告している。
- 5 : 2024/09/19(木) 23:22:07.190 ID:VTGpt4V8S
- シャチゲェジとは、特有の毛色を持つスレを建てる1個人を指す名称である。
少なくとも2018年から活動しており、2019年には既に「シャチゲェジ」として認知されている。当初はシャチに関するスレであったが、その後は職業、勤務先の人間関係、家庭状況などシャチ以外の話題を好み、それを用いてマジレスゲェジの自己顕示欲を刺激して、執拗なレス乞食を繰り返している。
- 6 : 2024/09/19(木) 23:22:40.716 ID:ZlfskN46B
- pythonのライブラリじゃなくてデータベースやん
こんなことも知らないとかゲェジかな
- 10 : 2024/09/19(木) 23:23:42.864 ID:mgvlDGD7C
- >>6
頻度DBにアクセスするライブラリも含まれるけど…もしかしてアホなん?🥺 - 15 : 2024/09/19(木) 23:25:19.976 ID:ZlfskN46B
- >>10
データベースとライブラリの違いすらわからんクソゲェジがなんか言ってて草 - 19 : 2024/09/19(木) 23:26:14.799 ID:mgvlDGD7C
- >>15
アセットライブラリを含むライブラリを見たらアセットって呼べと強要する派閥なの?
知能に問題あるじゃん - 22 : 2024/09/19(木) 23:26:48.328 ID:ZlfskN46B
- >>19
ライブラリが本体なんだから当たり前じゃん
ゲェジ極めてて草 - 23 : 2024/09/19(木) 23:27:28.123 ID:mgvlDGD7C
- >>22
About
Access a database of word frequencies, in various natural languages.このAccessって言う動詞が意味するもの解釈できまちゅか?
- 31 : 2024/09/19(木) 23:29:31.889 ID:ZlfskN46B
- >>23
ゲェジイライラw - 32 : 2024/09/19(木) 23:29:53.517 ID:mgvlDGD7C
- >>31
あ〜あ言い返せなくなっちゃった
死んだほうがいいよキミ - 35 : 2024/09/19(木) 23:30:21.617 ID:ZlfskN46B
- >>32
お前の論理が破綻してるし言い返さなくてもお前の負けは自明じゃん - 11 : 2024/09/19(木) 23:24:23.231 ID:mgvlDGD7C
- >>6
この物体何が言いたかったの? - 16 : 2024/09/19(木) 23:25:35.435 ID:ZlfskN46B
- >>11
バカ発狂w - 7 : 2024/09/19(木) 23:22:40.826 ID:2nnmLcp1S
- すまんどゆ事?
自然言語ライブラリって何?
Pythonって何? - 12 : 2024/09/19(木) 23:24:57.235 ID:mgvlDGD7C
- >>7
ワイも分かんない…🥺 - 13 : 2024/09/19(木) 23:25:08.855 ID:yW79KyC5V
- >>7
じゃあなんでこのスレ開いたの?
煽りたいんだろうが - 17 : 2024/09/19(木) 23:25:39.930 ID:tuoin8rhl
- >>7
Pythonという言語の自然言語ライブラリ(パーツ)=AIと言われているもの - 20 : 2024/09/19(木) 23:26:22.739 ID:ZlfskN46B
- >>17
これデータベースだぞ
ID:mgvlDGD7Cがゲェジだからライブラリとか意味不明なこと言ってるけど - 30 : 2024/09/19(木) 23:29:21.590 ID:mgvlDGD7C
- >>20
ゲェジくんCPU100%で動いてるのかなw - 33 : 2024/09/19(木) 23:29:54.997 ID:ZlfskN46B
- >>30
ゲェジはお前だろw - 8 : 2024/09/19(木) 23:22:40.841 ID:mgvlDGD7C
- wordfreqは正式な印刷された単語だけを対象にしているわけではない。特に2つのソースから、より会話的な言葉遣いを収集している:TwitterとRedditだ。
ツイッターのデータは常に砂の上に構築されていた。wordfreqは、そのデータを入力として構築された頻度を持っているが、収集されたデータは私のものではなく、もう持っていない。
今はTwitterはなくなり、その公開APIは閉鎖され、サイトはオリガルヒのおもちゃ、Xと呼ばれるスパムまみれの右翼の巣窟に取って代わられた。たとえXが生のデータフィードを公開したとしても(していないが)、そこに価値ある情報はないだろう。
Redditも公開データ・アーカイブの提供を停止し、現在はOpenAIだけが支払う価格でアーカイブを販売している。
この分野で起きていることを考えると、彼らを責める気にはならない。
- 9 : 2024/09/19(木) 23:23:23.218 ID:VTGpt4V8S
- 最近のシャチゲェジはプログラミングやAIなどに傾倒しているのが特徴
スレタイもネットソース直張りなのが特徴的で見分けやすい - 14 : 2024/09/19(木) 23:25:15.232 ID:VTGpt4V8S
- ピキッて自我出してて草
- 18 : 2024/09/19(木) 23:26:05.916 ID:glaCmvQXn
- AIが共食いを始めたってことか?
- 24 : 2024/09/19(木) 23:27:37.015 ID:yW79KyC5V
- これデータセットとかデータベース
- 25 : 2024/09/19(木) 23:27:46.457 ID:mgvlDGD7C
- ゲェジが食い下がってて草生える
- 26 : 2024/09/19(木) 23:27:54.006 ID:0OnpJ/t5P
- いかがでしたかサイトで溢れて糞化したみたいな感じか
- 27 : 2024/09/19(木) 23:28:33.685 ID:Ur2RrMP9G
- 引くに引けなくなって発狂してるの草もうすぐ日跨ぐからがんばれよ
- 28 : 2024/09/19(木) 23:28:49.199 ID:mgvlDGD7C
- お〜い低知能レス止まってるぞ?
テンポよくこっちの言ってることに答えてよ - 29 : 2024/09/19(木) 23:29:02.533 ID:NMPm9s78/
- だから言ってんじゃん
生成AIは界隈汚染するから創造系に接続するなって
現行AIは己の生成物から学習できないんやぞ - 34 : 2024/09/19(木) 23:30:00.175 ID:0MsmpX98P
- どういうこと?ネット上でAIがクソみたいな文生成してるから、それらが含まれる場所から学習しようとすると精度が落ちてもう禄に学習させられないみたいな話か?
コメント