エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください
Twitterで共有ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
tl;dr Grok 4 が発表されたよ Humanity's Last Exam という難易度の高いベンチマークでかなりのスコアだ... tl;dr Grok 4 が発表されたよ Humanity's Last Exam という難易度の高いベンチマークでかなりのスコアだよ X プレミアムプラスあるいは SuperGrok に課金すると使えるよ API もある&試してみたよ 発表動画、公式ドキュメント、試すの順番でまとめます。ざっとどんな感じか知りたい方は、試してみたというところまでスクロールしてください。 ライブ配信より 日本時間で 7 月 10 日のお昼の 12 時開始の予定でしたが、13:01 に始まりました。動画の中のスライドを交えつつまとめます。 幾度となく現れる HLE とはなんぞやという話ですが、Humanity's Last Exam というベンチマーク。平たく言えば、博士課程の学生あるいはそれ以上の研究レベルの問題集。人間のスコアは 5% くらいとイーロンマスクは発言。 初め、一桁台であった HLE スコアは