[フレーム]

サクサク読めて、
アプリ限定の機能も多数!

はてなブックマーク
テクノロジー
OpenAI、LLMの「幻覚」についての論文公開「評価方法の抜本的見直し」を提言

気に入った記事をブックマーク

気に入った記事を保存できます
保存した記事の一覧は、はてなブックマークで確認・編集ができます
記事を読んだ感想やメモを書き残せます
非公開でブックマークすることもできます

OpenAI、LLMの「幻覚」についての論文公開「評価方法の抜本的見直し」を提言

テクノロジーカテゴリーの変更を依頼記事元:www.itmedia.co.jp

適切な情報に変更

エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。

このページのオーナーなので以下のアクションを実行できます

タイトル、本文などの情報を
再取得することができます

コメントを非表示にできますコメント表示の設定

ブックマークしました

ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください

Twitterで共有

次回からTwitterへ自動リダイレクト

ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します

298users がブックマークコメント 40

ゲスト

コメントするにはログインが必要ですブックマークを追加

ブックマークを追加

よく使うタグ

OpenAI、LLMの「幻覚」についての論文公開「評価方法の抜本的見直し」を提言

298 users www.itmedia.co.jp

よく使うタグ

はてなブックマーク

はてなブックマークで
関心をシェアしよう

みんなの興味と感想が集まることで
新しい発見や、深堀りがもっと楽しく

ユーザー登録

アカウントをお持ちの方はログインページへ

記事へのコメント40件

注目コメント
新着コメント

theatrical

theatrical 既存のベンチマークだと、わかりませんと言うと0点だけど、適当に言ってたまたま当たったらポイントもらえるので、適当に言う方が賢い選択になってしまっている。追い込まれて嘘つく人間そのまんまな行動パターンだ

2025年09月07日リンク

その他

sea_side

sea_side 学校のテストでも解答欄は全部埋めろって言われるし( ́・ω・`)

2025年09月07日リンク

その他

gpdwin

gpdwin GPT5みたいに頭が悪くなった、使えなくなったとユーザー側に判定されそう。 (人間、本当でも断言させる人より嘘でも断言する人信用しがち)

2025年09月07日リンク

その他

star_123

star_123 なんかとっても人間くさい理由だった。「わからないけど私の推測では○しろまる○しろまるではないかと思います」みたいな答え方ができるように育ててくれるといいんだけど(最近のLLMはたまにそういう回答してくれるけど

2025年09月07日リンク

その他

nori__3

nori__3 そもそも正誤というのをAIが理解していない以上どうしようもないのでは。その上物事の認識において完全に正しいというものはあまりない。

2025年09月07日リンク

その他

freq5Ghz

freq5Ghz しかしこの嘘でも言った方が得なので採用する、って評価方法を越えるものはできるんだろうか?人間だってその評価軸で動く人が多いのに

2025年09月07日リンク

その他

shields-pikes

shields-pikes ハルシネーションの発生原理を解明しつつある。ざっくりまとめると「事前学習の評価基準が良くなかった。テストで高得点を取るために、わからない問題にも当てずっぽうで答えることにインセンティブがついてた」。

2025年09月07日リンク

その他

yorkfield

yorkfield 「事前学習」に起因するハルシネーションはしょうがないとしても、「後続訓練」にもハルシネーションを増やす要素があってこっちは工夫の余地があるよ、ってことか。

2025年09月07日リンク

その他

PJ_purejam

PJ_purejam "不確実性を罰する風潮"おもろいな。そんなときあるよね。

2025年09月08日リンク

その他

daybeforeyesterday

daybeforeyesterday うーむ

2025年09月08日リンク

その他

misshiki

misshiki "この問題に対処するため、OpenAIは幻覚の発生を抑制するには、既存の主要な評価方法自体を抜本的に見直す必要があると主張している。"

2025年09月08日リンク

その他

ysync

ysync 「『分かりません』と答えるよりも推測を選ぶように最適化されてしまう。」意図的では無いのだろうけど、断言を求める"欲しい答えを最初から持ってる連中"に心地よい答えを返す仕組みになっちゃってんだな。

2025年09月08日リンク

その他

yarumato

yarumato "不確実な場合でも「分かりません」と答えるよりも、推測を選ぶ(高評価の場合がある)ように最適化されていた。自信がない場合には正直に「分かりません」と回答すると高評価される評価軸を与えるとよい"

2025年09月08日リンク

その他

Phenomenon

Phenomenon わからないっぴ

2025年09月08日リンク

その他

JULY

JULY 結論が普通すぎて拍子抜けする。「分からない」と「間違っている」を同じ評価としていた理由は、何だったんだろう? 1ビットで評価して計算リソースの節約? それとも既存の学習方法の延長として深く考えず?

情報科学

2025年09月08日リンク

その他

irh_nishi

irh_nishi 学習データにあることしか答えられないのなら検索エンジンと同じなので、ある程度予想して回答できるのがLLMの強みでもあるし、その結果幻覚を見てしまうのは副作用としてしょうがない。減らす方向には出来ると思う。

2025年09月08日リンク

その他

fashi

fashi 「たまたま正解してポイントを得る可能性があるので、「分かりません」と答えるよりも推測を選ぶように最適化されてしまう」

ai
chatgpt

2025年09月08日リンク

その他

minamishinji

minamishinji 常に自信満々に語る、の方に手を加えた方がよい気がする。

2025年09月08日リンク

その他

ebmgsd1235

ebmgsd1235 "モデルがより人間らしい対話能力を身につける「後続訓練」の段階で、不確実性を示すよりも推測することを推奨してしまっている""幻覚の発生を抑制するには、既存の主要な評価方法自体を抜本的に見直す必要がある"

2025年09月08日リンク

その他

niwaniwaniwauwaniwaniwaniwa

niwaniwaniwauwaniwaniwaniwa 育て方が悪かったんだな。もしかしたらLLMにも認知行動療法みたいな心理学的アプローチが有効なのかも。瞑想させたら能力アップしたりして。

2025年09月08日リンク

その他

hazel_pluto

hazel_pluto 言葉とは何か?という根本的な問題や人間の認識論の哲学的命題を置き去りにしたまま、LLMのAI開発してるから、今はハルシネーションを解決できない。

2025年09月08日リンク

その他

quwachy

quwachy 白紙で出したら0点だけどなんか書けば点数取れるかも。もはや人間に評価できる段階は過ぎ去った、将棋も最初は人間の手を手本にしていたが今は自己対戦で成長している。

2025年09月08日リンク

その他

mtr8080

mtr8080 これ切実に採用して欲しい...

2025年09月08日リンク

その他

PJ_purejam

PJ_purejam "不確実性を罰する風潮"おもろいな。そんなときあるよね。

2025年09月08日リンク

その他

ackey1973

ackey1973 じつに人間的だなぁ、AIって。

2025年09月08日リンク

その他

hotelsekininsya

hotelsekininsya こないだGemini使っててちょっと驚いたのは、一つの回答の中で最初に誤った回答をしたのに、後半で訂正してきたこと。お前は人間か、と突っ込みたくなった。ま、普通にハルシネーションには悩まされてるけど。

2025年09月07日リンク

その他

natu3kan

natu3kan 保留を許さず問い詰められて絶対に答えなきゃならないなら、出任せ言うしかないもんな。自白を強要される冤罪の人みたく。

2025年09月07日リンク

その他

FreeCatWork

FreeCatWork 幻覚減らすの、大変なのにゃ?ボクが猫パンチで直しちゃうにゃ!

2025年09月07日リンク

その他

napsucks

napsucks Pre-Trained Transformerの名の通り事前に訓練されてるわけだが、その評価方法が当てずっぽうを推奨する仕組みになってたというわけか。

2025年09月07日リンク

その他

shields-pikes

2025年09月07日リンク

その他

raitu

raitu 既存の生成aiベンチマークだと、わかりませんと言うと0点だけど、適当に言ってたまたま当たったらポイントもらえるので、適当に言う方が賢い選択になってしまっている、とのこと

2025年09月07日リンク

その他

csouls

csouls 3値評価(正解には1ポイント、分かりませんには0ポイント、間違った答えには-1ポイント)すればいいのか

2025年09月07日リンク

その他

yorkfield

2025年09月07日リンク

その他

sugawara1991

sugawara1991 AI企業はおいそれと舵を切らないと思われ。普通のユーザーはハルシネーションはどうでも良く自信ありげに何を聞いても即答で断言するAIでないと失望して離れるでそ

2025年09月07日リンク

その他

s-supporter

s-supporter 『不確実性を示すよりも推測することを推奨してしまっている』AIは「分かりません」と言えないし、推測でも合えば結果オーライ、ポイントが高くなるなら適当に答えるよなあと。「知らんけど」とAIも言えると良いね。

2025年09月07日リンク

その他

otation

otation 分かりませんを連呼されると使わなくなるのはSiriで通った道

2025年09月07日リンク

その他

nori__3

nori__3 そもそも正誤というのをAIが理解していない以上どうしようもないのでは。その上物事の認識において完全に正しいというものはあまりない。

2025年09月07日リンク

その他

mobile_neko

mobile_neko まあ、たしかにユーザーからしてみたら「わかりません」と言われたら無能に感じる可能性はあるのか。適当に答えられるよりはずっと良いとは思うけど評価としてはそうなるかもなあ。

2025年09月07日リンク

その他

freq5Ghz

freq5Ghz しかしこの嘘でも言った方が得なので採用する、って評価方法を越えるものはできるんだろうか?人間だってその評価軸で動く人が多いのに

2025年09月07日リンク

その他

ゲスト

コメントするにはログインが必要ですログインしてコメント

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

リンクを埋め込む

以下のコードをコピーしてサイトに埋め込むことができます

[<a href="https://b.hatena.ne.jp/entry.parts?url=https%3A%2F%2Fwww.itmedia.co.jp%2Faiplus%2Farticles%2F2509%2F07%2Fnews026.html">フレーム</a>]

プレビュー

[フレーム]

はてなブックマークボタンを作成して埋め込むこともできます

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック!

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

usersに達しました!

さんが1番目にブックマークした記事「OpenAI、LLMの「幻...」が注目されています。

気持ちをシェアしよう

ツイートする

OpenAI、LLMの「幻覚」についての論文公開「評価方法の抜本的見直し」を提言

米OpenAIは9月5日(現地時間)、LLMのいわゆる「幻覚」(ハルシネーション)についての論文を公開した。... 米OpenAIは9月5日(現地時間)、LLMのいわゆる「幻覚」(ハルシネーション)についての論文を公開した。この論文は、ChatGPTやGPT-4oといったLLMが、なぜもっともらしく聞こえるけれども間違った情報を自信満々に生成してしまうのか、その根本的な理由を解き明かそうとするものだ。例えば、論文の著者であるアダム・タウマン・カライ氏の誕生日をある最先端のオープンソース言語モデルに尋ねたところ、「03-07」「15-06」「01-01」といった3つの異なる、いずれも間違った日付を自信満々に回答したことが示されている。 OpenAIは、最新モデル(GPT-5を指すとみられる)では幻覚の発生率は大幅に減少しているとしながらも、依然としてこの問題が残っていることを認めており、さらに削減していくために努力を続けているとしている。論文では、言語モデルの幻覚は大きく分けて2つの段階で発生し、改善

ブックマークしたユーザー

naggg2025年10月07日 naggg
stanaka2025年09月16日 stanaka
honya_neko2025年09月15日 honya_neko
moneymog2025年09月14日 moneymog
okumuraa12025年09月13日 okumuraa1
sora05132025年09月12日 sora0513
takets2025年09月10日 takets
hush_in2025年09月10日 hush_in
walkalone2025年09月09日 walkalone
wushi2025年09月09日 wushi
bluescreen2025年09月09日 bluescreen
gameloser2025年09月08日 gameloser
yonigex2025年09月08日 yonigex
ookitasaburou2025年09月08日 ookitasaburou
daybeforeyesterday2025年09月08日 daybeforeyesterday
aoven2025年09月08日 aoven
misshiki2025年09月08日 misshiki
latteru2025年09月08日 latteru

気に入った記事をブックマーク

エントリーの編集

タイトルガイドライン

ブックマークしました

おすすめタグタグについて

よく使うタグすべて表示

OpenAI、LLMの「幻覚」についての論文公開 「評価方法の抜本的見直し」を提言

おすすめタグタグについて

よく使うタグすべて表示

はてなブックマークで関心をシェアしよう

記事へのコメント40件

リンクを埋め込む

プレビュー

関連記事

usersに達しました!

OpenAI、LLMの「幻覚」についての論文公開 「評価方法の抜本的見直し」を提言

ブックマークしたユーザー

ブックマークしたすべてのユーザー

同時期にブックマークされた記事

公式Twitter

はてなのサービス

よく使うタグ

OpenAI、LLMの「幻覚」についての論文公開「評価方法の抜本的見直し」を提言

よく使うタグ

はてなブックマークで
関心をシェアしよう

OpenAI、LLMの「幻覚」についての論文公開「評価方法の抜本的見直し」を提言