
Python自然言語ライブラリ作者「AIのせいでネットの言語データが歪んで使えなくなった。もうネットから学習するのは無理」

- 1
【酒】家族から行方不明届が出されていた女、”飲酒運転”で逮捕 基準値4倍超のアルコール 福岡県苅田町【酒】家族から行方不明届が出されていた女、”飲酒運転”で逮捕 基準値4倍超のアルコール 福岡県苅田町 パヨク速報
- 2
【悲報】LINE、行政に怒られる【悲報】LINE、行政に怒られる アルファルファモザイク@ネットニュースのまとめ
- 3
政府「女性に子供を産ますには、どうしたらいいの?」政府「女性に子供を産ますには、どうしたらいいの?」 冷笑速報
- 4
ミャンマー大地震の推定死者1万人超 パレスチナ虐殺の1/5も死んでるミャンマー大地震の推定死者1万人超 パレスチナ虐殺の1/5も死んでる 冷笑速報
- 5
ジャッキー・チェンの5大名作 スパルタンX、ポリス・ストーリー、酔拳、プロジェクトA、香港国際警察ジャッキー・チェンの5大名作 スパルタンX、ポリス・ストーリー、酔拳、プロジェクトA、香港国際警察 (*゚∀゚)ゞカガクニュース隊
- 6
タイの地震倒壊ビル、中国企業が施工 中国当局規制で情報削除かタイの地震倒壊ビル、中国企業が施工 中国当局規制で情報削除か 常識的に考えた
- 7
牛丼すき家『ネズミの次は、ゴキブリを丼の中に入れてしまってごめんなさい』東京昭島店 | すき家、ゴキブリ牛丼すき家『ネズミの次は、ゴキブリを丼の中に入れてしまってごめんなさい』東京昭島店 | すき家、ゴキブリ 2ちゃんねるニュース超速まとめ+
- 8
高校教師(55)懲戒免職 病気休職中に痴漢・交通事故・車転売の副職・ナンバーなしで公道走行1 : 2025/03/30(日) 00:34:45.35 ID:DH/oV1dc0 https://news.ntv.co.jp/n/abs/category/society/ab2577e26c...
- 9
【悲報】イーロン・マスクの親友「イーロンはあまりに異性にモテなく、同性にも人気がないのでおかしくなった」【悲報】イーロン・マスクの親友「イーロンはあまりに異性にモテなく、同性にも人気がないのでおかしくなった」 コノユビニュース
- 10
【朗報】大阪の警察「客待ち女性が多いな…せや!!」 → 作戦大成功【朗報】大阪の警察「客待ち女性が多いな…せや!!」 → 作戦大成功 アルファルファモザイク@ネットニュースのまとめ
- 11
中国人さん、日本で買った不動産の家賃を約3倍に。日本人追い出し計画か?中国人さん、日本で買った不動産の家賃を約3倍に。日本人追い出し計画か? ラビット速報
- 12
工場勤務やけど人生クッソつまらん工場勤務やけど人生クッソつまらん (*゚∀゚)ゞカガクニュース隊
- 13
日テレ 『行列のできる相談所』あす最終回、23年の歴史に幕 橋下氏らスター弁護士輩出… 後枠はSixTONESの新番組 [3/29]日テレ 『行列のできる相談所』あす最終回、23年の歴史に幕 橋下氏らスター弁護士輩出… 後枠はSixTONESの新番組 [3/29] 国難にあってもの申す!!
- 14
TVが大谷ニュースばかりプロ野球OBの見解はデコピン>日本野球→古田氏「それはテレビが悪いです笑」 | まあ実際数字取れねえしなプロ野球TVが大谷ニュースばかりプロ野球OBの見解はデコピン>日本野球→古田氏「それはテレビが悪いです笑」 | まあ実際数字取れねえしなプロ野球 2ちゃんねるニュース超速まとめ+
- 15
トランプ大統領「関税を回避しようとする国々に交渉の用意がある」トランプ大統領「関税を回避しようとする国々に交渉の用意がある」 大艦巨砲主義!
- 1 : 2024/09/19(木) 23:21:06.215 ID:mgvlDGD7C
- Why wordfreq will not be updated
https://github.com/rspeer/wordfreq/blob/master/SUNSET.md - 2 : 2024/09/19(木) 23:21:42.244 ID:w5WM45Gjc
- よくわからんけどうんこ食えば?
- 3 : 2024/09/19(木) 23:21:43.604 ID:mgvlDGD7C
- wordfreqデータは、2021年までの様々なオンラインソースに見られる言語のスナップショットである。更新されなくなる理由はいくつかある。
2021年以降の人間による言語使用について、信頼できる情報を持っている人はいないと思う。
オープンウェブ(OSCAR経由)はwordfreqのデータソースのひとつだった。今、ウェブ全体は大規模な言語モデルによって生成されたドロドロしたものであふれている。このドロドロしたものをデータに含めると、単語頻度がゆがんでしまう。
確かにワードフリークのデータソースにはスパムがあったが、それは管理可能で、しばしば識別可能だった。大規模な言語モデルは、意図がないにもかかわらず、その背後にある本当の言語のように見せかけるテキストを生成し、その出力はいたるところに現れる。
その一例として、フィリップ・シャピラは、ChatGPT(2024年頃のOpenAIの一般的な生成言語モデルのブランド)は、人々がしたことのないような方法で「delve」という単語に取りつかれ、その全体的な頻度を一桁増加させたと報告している。
- 5 : 2024/09/19(木) 23:22:07.190 ID:VTGpt4V8S
- シャチゲェジとは、特有の毛色を持つスレを建てる1個人を指す名称である。
少なくとも2018年から活動しており、2019年には既に「シャチゲェジ」として認知されている。当初はシャチに関するスレであったが、その後は職業、勤務先の人間関係、家庭状況などシャチ以外の話題を好み、それを用いてマジレスゲェジの自己顕示欲を刺激して、執拗なレス乞食を繰り返している。
- 6 : 2024/09/19(木) 23:22:40.716 ID:ZlfskN46B
- pythonのライブラリじゃなくてデータベースやん
こんなことも知らないとかゲェジかな
- 10 : 2024/09/19(木) 23:23:42.864 ID:mgvlDGD7C
- >>6
頻度DBにアクセスするライブラリも含まれるけど…もしかしてアホなん?🥺 - 15 : 2024/09/19(木) 23:25:19.976 ID:ZlfskN46B
- >>10
データベースとライブラリの違いすらわからんクソゲェジがなんか言ってて草 - 19 : 2024/09/19(木) 23:26:14.799 ID:mgvlDGD7C
- >>15
アセットライブラリを含むライブラリを見たらアセットって呼べと強要する派閥なの?
知能に問題あるじゃん - 22 : 2024/09/19(木) 23:26:48.328 ID:ZlfskN46B
- >>19
ライブラリが本体なんだから当たり前じゃん
ゲェジ極めてて草 - 23 : 2024/09/19(木) 23:27:28.123 ID:mgvlDGD7C
- >>22
About
Access a database of word frequencies, in various natural languages.このAccessって言う動詞が意味するもの解釈できまちゅか?
- 31 : 2024/09/19(木) 23:29:31.889 ID:ZlfskN46B
- >>23
ゲェジイライラw - 32 : 2024/09/19(木) 23:29:53.517 ID:mgvlDGD7C
- >>31
あ〜あ言い返せなくなっちゃった
死んだほうがいいよキミ - 35 : 2024/09/19(木) 23:30:21.617 ID:ZlfskN46B
- >>32
お前の論理が破綻してるし言い返さなくてもお前の負けは自明じゃん - 11 : 2024/09/19(木) 23:24:23.231 ID:mgvlDGD7C
- >>6
この物体何が言いたかったの? - 16 : 2024/09/19(木) 23:25:35.435 ID:ZlfskN46B
- >>11
バカ発狂w - 7 : 2024/09/19(木) 23:22:40.826 ID:2nnmLcp1S
- すまんどゆ事?
自然言語ライブラリって何?
Pythonって何? - 12 : 2024/09/19(木) 23:24:57.235 ID:mgvlDGD7C
- >>7
ワイも分かんない…🥺 - 13 : 2024/09/19(木) 23:25:08.855 ID:yW79KyC5V
- >>7
じゃあなんでこのスレ開いたの?
煽りたいんだろうが - 17 : 2024/09/19(木) 23:25:39.930 ID:tuoin8rhl
- >>7
Pythonという言語の自然言語ライブラリ(パーツ)=AIと言われているもの - 20 : 2024/09/19(木) 23:26:22.739 ID:ZlfskN46B
- >>17
これデータベースだぞ
ID:mgvlDGD7Cがゲェジだからライブラリとか意味不明なこと言ってるけど - 30 : 2024/09/19(木) 23:29:21.590 ID:mgvlDGD7C
- >>20
ゲェジくんCPU100%で動いてるのかなw - 33 : 2024/09/19(木) 23:29:54.997 ID:ZlfskN46B
- >>30
ゲェジはお前だろw - 8 : 2024/09/19(木) 23:22:40.841 ID:mgvlDGD7C
- wordfreqは正式な印刷された単語だけを対象にしているわけではない。特に2つのソースから、より会話的な言葉遣いを収集している:TwitterとRedditだ。
ツイッターのデータは常に砂の上に構築されていた。wordfreqは、そのデータを入力として構築された頻度を持っているが、収集されたデータは私のものではなく、もう持っていない。
今はTwitterはなくなり、その公開APIは閉鎖され、サイトはオリガルヒのおもちゃ、Xと呼ばれるスパムまみれの右翼の巣窟に取って代わられた。たとえXが生のデータフィードを公開したとしても(していないが)、そこに価値ある情報はないだろう。
Redditも公開データ・アーカイブの提供を停止し、現在はOpenAIだけが支払う価格でアーカイブを販売している。
この分野で起きていることを考えると、彼らを責める気にはならない。
- 9 : 2024/09/19(木) 23:23:23.218 ID:VTGpt4V8S
- 最近のシャチゲェジはプログラミングやAIなどに傾倒しているのが特徴
スレタイもネットソース直張りなのが特徴的で見分けやすい - 14 : 2024/09/19(木) 23:25:15.232 ID:VTGpt4V8S
- ピキッて自我出してて草
- 18 : 2024/09/19(木) 23:26:05.916 ID:glaCmvQXn
- AIが共食いを始めたってことか?
- 24 : 2024/09/19(木) 23:27:37.015 ID:yW79KyC5V
- これデータセットとかデータベース
- 25 : 2024/09/19(木) 23:27:46.457 ID:mgvlDGD7C
- ゲェジが食い下がってて草生える
- 26 : 2024/09/19(木) 23:27:54.006 ID:0OnpJ/t5P
- いかがでしたかサイトで溢れて糞化したみたいな感じか
- 27 : 2024/09/19(木) 23:28:33.685 ID:Ur2RrMP9G
- 引くに引けなくなって発狂してるの草もうすぐ日跨ぐからがんばれよ
- 28 : 2024/09/19(木) 23:28:49.199 ID:mgvlDGD7C
- お〜い低知能レス止まってるぞ?
テンポよくこっちの言ってることに答えてよ - 29 : 2024/09/19(木) 23:29:02.533 ID:NMPm9s78/
- だから言ってんじゃん
生成AIは界隈汚染するから創造系に接続するなって
現行AIは己の生成物から学習できないんやぞ - 34 : 2024/09/19(木) 23:30:00.175 ID:0MsmpX98P
- どういうこと?ネット上でAIがクソみたいな文生成してるから、それらが含まれる場所から学習しようとすると精度が落ちてもう禄に学習させられないみたいな話か?
コメント