[フレーム]
はてなブックマークアプリ

サクサク読めて、
アプリ限定の機能も多数!

アプリで開く

気に入った記事をブックマーク

  • 気に入った記事を保存できます
    保存した記事の一覧は、はてなブックマークで確認・編集ができます
  • 記事を読んだ感想やメモを書き残せます
  • 非公開でブックマークすることもできます
適切な情報に変更

エントリーの編集

loading...

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。

タイトルガイドライン

このページのオーナーなので以下のアクションを実行できます

タイトル、本文などの情報を
再取得することができます
コメントを非表示にできます コメント表示の設定

ブックマークしました

ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください

Twitterで共有

ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します

298users がブックマーク コメント 40

ガイドラインをご確認の上、良識あるコメントにご協力ください

0 / 0
入力したタグを追加

現在プライベートモードです 設定を変更する

おすすめタグタグについて

よく使うタグ

OpenAI、LLMの「幻覚」についての論文公開 「評価方法の抜本的見直し」を提言

298 users www.itmedia.co.jp

ガイドラインをご確認の上、良識あるコメントにご協力ください

0 / 0
入力したタグを追加

現在プライベートモードです 設定を変更する

おすすめタグタグについて

よく使うタグ

はてなブックマーク

はてなブックマークで
関心をシェアしよう

みんなの興味と感想が集まることで
新しい発見や、深堀りがもっと楽しく

ユーザー登録

アカウントをお持ちの方はログインページ

記事へのコメント40

  • 注目コメント
  • 新着コメント
theatrical
既存のベンチマークだと、わかりませんと言うと0点だけど、適当に言ってたまたま当たったらポイントもらえるので、適当に言う方が賢い選択になってしまっている。追い込まれて嘘つく人間そのまんまな行動パターンだ

その他
sea_side
学校のテストでも解答欄は全部埋めろって言われるし( ́・ω・`)

その他
gpdwin
GPT5みたいに頭が悪くなった、使えなくなったとユーザー側に判定されそう。 (人間、本当でも断言させる人より嘘でも断言する人信用しがち)

その他
star_123
なんかとっても人間くさい理由だった。 「わからないけど私の推測ではしろまるしろまるではないかと思います」みたいな答え方ができるように育ててくれるといいんだけど(最近のLLMはたまにそういう回答してくれるけど

その他
nori__3
そもそも正誤というのをAIが理解していない以上どうしようもないのでは。その上物事の認識において完全に正しいというものはあまりない。

その他
freq5Ghz
しかしこの嘘でも言った方が得なので採用する、って評価方法を越えるものはできるんだろうか?人間だってその評価軸で動く人が多いのに

その他
shields-pikes
ハルシネーションの発生原理を解明しつつある。ざっくりまとめると「事前学習の評価基準が良くなかった。テストで高得点を取るために、わからない問題にも当てずっぽうで答えることにインセンティブがついてた」。

その他
yorkfield
「事前学習」に起因するハルシネーションはしょうがないとしても、「後続訓練」にもハルシネーションを増やす要素があってこっちは工夫の余地があるよ、ってことか。

その他
PJ_purejam
"不確実性を罰する風潮"おもろいな。そんなときあるよね。

その他
daybeforeyesterday
うーむ

その他
misshiki
"この問題に対処するため、OpenAIは幻覚の発生を抑制するには、既存の主要な評価方法自体を抜本的に見直す必要があると主張している。"

その他
ysync
「『分かりません』と答えるよりも推測を選ぶように最適化されてしまう。」意図的では無いのだろうけど、断言を求める"欲しい答えを最初から持ってる連中"に心地よい答えを返す仕組みになっちゃってんだな。

その他
yarumato
"不確実な場合でも「分かりません」と答えるよりも、推測を選ぶ(高評価の場合がある)ように最適化されていた。自信がない場合には正直に「分かりません」と回答すると高評価される評価軸を与えるとよい"

その他
Phenomenon
わからないっぴ

その他
JULY
結論が普通すぎて拍子抜けする。「分からない」と「間違っている」を同じ評価としていた理由は、何だったんだろう? 1ビットで評価して計算リソースの節約? それとも既存の学習方法の延長として深く考えず?

その他
irh_nishi
学習データにあることしか答えられないのなら検索エンジンと同じなので、ある程度予想して回答できるのがLLMの強みでもあるし、その結果幻覚を見てしまうのは副作用としてしょうがない。減らす方向には出来ると思う。

その他
fashi
「たまたま正解してポイントを得る可能性があるので、「分かりません」と答えるよりも推測を選ぶように最適化されてしまう」

その他
minamishinji
常に自信満々に語る、の方に手を加えた方がよい気がする。

その他
ebmgsd1235
"モデルがより人間らしい対話能力を身につける「後続訓練」の段階で、不確実性を示すよりも推測することを推奨してしまっている""幻覚の発生を抑制するには、既存の主要な評価方法自体を抜本的に見直す必要がある"

その他
niwaniwaniwauwaniwaniwaniwa
育て方が悪かったんだな。もしかしたらLLMにも認知行動療法みたいな心理学的アプローチが有効なのかも。瞑想させたら能力アップしたりして。

その他
hazel_pluto
言葉とは何か?という根本的な問題や人間の認識論の哲学的命題を置き去りにしたまま、LLMのAI開発してるから、今はハルシネーションを解決できない。

その他
quwachy
白紙で出したら0点だけどなんか書けば点数取れるかも。もはや人間に評価できる段階は過ぎ去った、将棋も最初は人間の手を手本にしていたが今は自己対戦で成長している。

その他
mtr8080
これ切実に採用して欲しい...

その他
PJ_purejam
PJ_purejam "不確実性を罰する風潮"おもろいな。そんなときあるよね。

2025年09月08日 リンク

その他
ackey1973
じつに人間的だなぁ、AIって。

その他
hotelsekininsya
こないだGemini使っててちょっと驚いたのは、一つの回答の中で最初に誤った回答をしたのに、後半で訂正してきたこと。お前は人間か、と突っ込みたくなった。ま、普通にハルシネーションには悩まされてるけど。

その他
natu3kan
保留を許さず問い詰められて絶対に答えなきゃならないなら、出任せ言うしかないもんな。自白を強要される冤罪の人みたく。

その他
FreeCatWork
幻覚減らすの、大変なのにゃ?ボクが猫パンチで直しちゃうにゃ!

その他
napsucks
Pre-Trained Transformerの名の通り事前に訓練されてるわけだが、その評価方法が当てずっぽうを推奨する仕組みになってたというわけか。

その他
shields-pikes
shields-pikes ハルシネーションの発生原理を解明しつつある。ざっくりまとめると「事前学習の評価基準が良くなかった。テストで高得点を取るために、わからない問題にも当てずっぽうで答えることにインセンティブがついてた」。

2025年09月07日 リンク

その他
raitu
既存の生成aiベンチマークだと、わかりませんと言うと0点だけど、適当に言ってたまたま当たったらポイントもらえるので、適当に言う方が賢い選択になってしまっている、とのこと

その他
csouls
3値評価(正解には1ポイント、分かりませんには0ポイント、間違った答えには-1ポイント)すればいいのか

その他
yorkfield
yorkfield 「事前学習」に起因するハルシネーションはしょうがないとしても、「後続訓練」にもハルシネーションを増やす要素があってこっちは工夫の余地があるよ、ってことか。

2025年09月07日 リンク

その他
sugawara1991
AI企業はおいそれと舵を切らないと思われ。普通のユーザーはハルシネーションはどうでも良く自信ありげに何を聞いても即答で断言するAIでないと失望して離れるでそ

その他
s-supporter
『不確実性を示すよりも推測することを推奨してしまっている』AIは「分かりません」と言えないし、推測でも合えば結果オーライ、ポイントが高くなるなら適当に答えるよなあと。「知らんけど」とAIも言えると良いね。

その他
otation
分かりませんを連呼されると使わなくなるのはSiriで通った道

その他
nori__3
nori__3 そもそも正誤というのをAIが理解していない以上どうしようもないのでは。その上物事の認識において完全に正しいというものはあまりない。

2025年09月07日 リンク

その他
mobile_neko
まあ、たしかにユーザーからしてみたら「わかりません」と言われたら無能に感じる可能性はあるのか。適当に答えられるよりはずっと良いとは思うけど評価としてはそうなるかもなあ。

その他
freq5Ghz
freq5Ghz しかしこの嘘でも言った方が得なので採用する、って評価方法を越えるものはできるんだろうか?人間だってその評価軸で動く人が多いのに

2025年09月07日 リンク

その他

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

リンクを埋め込む

以下のコードをコピーしてサイトに埋め込むことができます

プレビュー
アプリのスクリーンショット
いまの話題をアプリでチェック!
  • バナー広告なし
  • ミュート機能あり
  • ダークモード搭載
アプリをダウンロード

関連記事

usersに達しました!

さんが1番目にブックマークした記事「OpenAI、LLMの「幻...」が注目されています。

気持ちをシェアしよう

ツイートする

OpenAI、LLMの「幻覚」についての論文公開 「評価方法の抜本的見直し」を提言

OpenAIは9月5日(現地時間)、LLMのいわゆる「幻覚」(ハルシネーション)についての論文を公開した。... OpenAIは9月5日(現地時間)、LLMのいわゆる「幻覚」(ハルシネーション)についての論文を公開した。この論文は、ChatGPTやGPT-4oといったLLMが、なぜもっともらしく聞こえるけれども間違った情報を自信満々に生成してしまうのか、その根的な理由を解き明かそうとするものだ。 例えば、論文の著者であるアダム・タウマン・カライ氏の誕生日をある最先端のオープンソース言語モデルに尋ねたところ、「03-07」「15-06」「01-01」といった3つの異なる、いずれも間違った日付を自信満々に回答したことが示されている。 OpenAIは、最新モデル(GPT-5を指すとみられる)では幻覚の発生率は大幅に減少しているとしながらも、依然としてこの問題が残っていることを認めており、さらに削減していくために努力を続けているとしている。 論文では、言語モデルの幻覚は大きく分けて2つの段階で発生し、改善

ブックマークしたユーザー

  • naggg2025年10月07日 naggg
  • stanaka2025年09月16日 stanaka
  • honya_neko2025年09月15日 honya_neko
  • moneymog2025年09月14日 moneymog
  • okumuraa12025年09月13日 okumuraa1
  • sora05132025年09月12日 sora0513
  • takets2025年09月10日 takets
  • hush_in2025年09月10日 hush_in
  • walkalone2025年09月09日 walkalone
  • wushi2025年09月09日 wushi
  • bluescreen2025年09月09日 bluescreen
  • gameloser2025年09月08日 gameloser
  • yonigex2025年09月08日 yonigex
  • ookitasaburou2025年09月08日 ookitasaburou
  • daybeforeyesterday2025年09月08日 daybeforeyesterday
  • aoven2025年09月08日 aoven
  • misshiki2025年09月08日 misshiki
  • latteru2025年09月08日 latteru
すべてのユーザーの
詳細を表示します

ブックマークしたすべてのユーザー

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

同時期にブックマークされた記事

いま人気の記事 - 企業メディア

企業メディアをもっと読む

はてなブックマーク

公式Twitter

はてなのサービス

Copyright © 2005-2025 Hatena. All Rights Reserved.
設定を変更しましたx

AltStyle によって変換されたページ (->オリジナル) /