×ばつの点数だけ返す強化学習をぐるぐる回すだけで思考の過程をチェックしなくても論理能力が上がるってことか。なんか不思議。」、「中国は情報を盗む!というのもアメリカによる洗脳(プロパガンダ)なのかもしれない。まあ実際盗むんだろうけどアメリカもメルケルの携帯を盗聴してたし。」、「1989年6月4日に何があったんですか〜?|という嫌がらせしなきゃつよつよとは聞いている|ローカル動作用にソース公開されてるので金盾思考フィルター回避も時間の問題っしょ」などです。">
[フレーム]
はてなブックマークアプリ

サクサク読めて、
アプリ限定の機能も多数!

アプリで開く

気に入った記事をブックマーク

  • 気に入った記事を保存できます
    保存した記事の一覧は、はてなブックマークで確認・編集ができます
  • 記事を読んだ感想やメモを書き残せます
  • 非公開でブックマークすることもできます
適切な情報に変更

エントリーの編集

loading...

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。

タイトルガイドライン

このページのオーナーなので以下のアクションを実行できます

タイトル、本文などの情報を
再取得することができます
コメントを非表示にできます コメント表示の設定

ブックマークしました

ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください

Twitterで共有

ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します

1009users がブックマーク コメント 74

ガイドラインをご確認の上、良識あるコメントにご協力ください

0 / 0
入力したタグを追加

現在プライベートモードです 設定を変更する

おすすめタグタグについて

よく使うタグ

DeepSeek-R1の論文読んだ?【勉強になるよ】

1009 users zenn.dev/asap

ガイドラインをご確認の上、良識あるコメントにご協力ください

0 / 0
入力したタグを追加

現在プライベートモードです 設定を変更する

おすすめタグタグについて

よく使うタグ

はてなブックマーク

はてなブックマークで
関心をシェアしよう

みんなの興味と感想が集まることで
新しい発見や、深堀りがもっと楽しく

ユーザー登録

アカウントをお持ちの方はログインページ

記事へのコメント74

  • 注目コメント
  • 新着コメント
auto_chan
軽いDeepSeekショックみたいな感じで週明けから相場が下落するホドにインパク知がでかい。中国政府による検閲など懸念点は?ってきいたら真っ当な答えがひとしきり出した後にペッっと消えた。ダメダゾォ🐼

その他
wata300
×ばつの点数だけ返す強化学習をぐるぐる回すだけで思考の過程をチェックしなくても論理能力が上がるってことか。なんか不思議。

その他
birisuken8574
中国は情報を盗む!というのもアメリカによる洗脳(プロパガンダ)なのかもしれない。まあ実際盗むんだろうけどアメリカもメルケルの携帯を盗聴してたし。

その他
anigoka
1989年6月4日に何があったんですか〜?|という嫌がらせしなきゃつよつよとは聞いている|ローカル動作用にソース公開されてるので金盾思考フィルター回避も時間の問題っしょ

その他
xqu
伏字にしたら「政治的」な質問に対してもある程度はまともに回答するらしい。 https://x.com/napsucks/status/1883772523189580262 / ただし失敗すると使い物にならなくなる。 https://x.com/Mrkawaberi/status/1883533059431293095

その他
kotesaki
そうかぁ。DeepSeek-R1は数学にはツヨツヨだけどソフトウエアエンジニアリングタスクにはあまり向いてないのかー。あとやはり中国系企業なのでLocalで動かすい場合以外はあまり機微な情報はな投げられないよね。

その他
shoronpoo
なるほど。強化学習からLLM学習のコールドスタート問題への対処など学びが多そう。じゃあコーディングタスクも、atcode×ばつを報酬として与える設計で転用できそう。MoEの各構成要素は何だろう

その他
vbcom
Open sourceなのか。すごいな。大逆転が起こるのかな?先は分からないな。

その他
augsUK
AI開発の結果を安易に人間に適用する是非はあるけど、数学など答えの決まった初見の問題を解く訓練をさせて入試で選抜する方法は、人間の知恵を向上させる上でかなり効率的なのかも。

その他
TETOS
やねうらさんの話とか、麻雀aiのluckyjとかと似た匂い。ルールベースとかで工夫して、とにかく強化学習をぶん回す。

その他
takomu
強化学習による思考能力の向上は、安易に小型モデルに試していい戦略でない SFTとRLを2セット。1回目はルールベース報酬、2回目はv3を用いた報酬モデル設定

その他
zu2
数学大事。人間も

その他
SndOp
(類似問題は回答できるような気がするがサドンデス的な挙動があるような気がしないもでないな)

その他
iqm
「ただ、数学の問題の回答が合っているか間違っているかのゴール報酬のみが与えられています。」「思考プロセスを<think>と</think>タグの間に置くことをモデルに強制」「数学という問題の答えを合わせるように報酬設計」

その他
mumei-0
"強化学習による思考能力の強化"

その他
hiroomi
やり通す力

その他
TakayukiN627
LLM(DeepSeek-V3-Base)に対して「強化学習のみ」を適用させたところ、強力な思考能力を獲得した「DeepSeek-R1-Zero」が作成されました。

その他
ardarim
今後は金盾とかも人力ではなくDeepSeekのようなAIが担っていくんだろうか。検閲が捗るな

その他
y2q_actionman
計算量減らす工夫をめっちゃ頑張ってるのか。 相変わらずGPUは必要そう

その他
akrtak
論文の内容的には人類の発展に寄与するものになっているのでこれと、運用されている例のサービスは切り離して考える必要がある

その他
strawberryhunter
ローカルで利用できるモデルがどの程度のハードウェアが必要で、どの程度使える出力が得られるのか、だれかに記事を書いてほしいところ。

その他
Cru
これ、学習方法から見てもしかして本気で論理的に考える力を獲得してない?今までのは超高度な作話にすぎなかったわけだけど https://www.technologyreview.jp/s/339410/why-does-ai-hallucinate/ RAGとかCoTとかRIGとかで何とかそれらしくし

その他
rawwell
"強化学習をしないため、報酬モデルも状態価値モデルも必要なく、単純に「プロンプト x x 」と「好ましい回答 y + y + 」「好ましくない回答 y − y − 」の3つが組となっているデータセット D D を用意すれば、あとは π φ

その他
versatile
強化学習の名前をマシュマーとかキャラスーンとかにしたい

その他
kagerouttepaso
DeepSeekに中国共産党、ChatGptにDEIなど、どのAIにも政治的意図は練り込まれてるから今更。それより論文やOSSの思考モデルなどAIの民主化が一番すごいことよ。

その他
nilab
DeepSeek-R1の論文読んだ?【勉強になるよ】

その他
neco22b
勉強不足やわ、よくわからん

その他
sian17
中国産をすぐ天安門に絡める奴、自分の程度の低さが分からんのかね...。

その他
hatebunbun
台湾についての質問に答えかけたところに、ビッグブラザーからの検閲が入る瞬間。https://youtu.be/ssA2Eth3QMk

その他
zgmf-x20a
私の知りたいのはV3がR1になってなにがトレードオフされたか。もちろん推定で良いのだけどね。LLMってのは難しいけど、化学合成プロセス研究も似たようなものかな?SFTでなくてELでと言うのが今後のトレンドかもね。

その他
pascal256
DeepSeek-V3-Baseがそのまま元になってて、モデルは変えずに追加学習であそこまで強化したのか。興味深い。革ジャンの言ってた通りだね

その他
havanap
こういう小技による性能向上が増えてくるとだいぶ煮詰まってきている感はある

その他
cinefuk
"大前提として、この論文は「DeepSeek-V3-Base」という強力なLLMの性能を改善する論文です。 これ単体でも、GPT-4oレベルの能力を持っているオープンソースLLMになります。"

その他
TETOS
TETOS やねうらさんの話とか、麻雀aiのluckyjとかと似た匂い。ルールベースとかで工夫して、とにかく強化学習をぶん回す。

2025年01月28日 リンク

その他
sirobu
天安門がーとかブコメ書いてる人、本文読んでないだろ......

その他
tettekete37564
多分完璧に理解させられるやつ

その他
tdam
本当にNVIDIA製GPUを使っていなかったらすごい、使っていなかったら。

その他
yorkfield
APIで試してみたけど、回答はちゃんと日本語なのに、CoT (reasoning_content) は英語や中国語だったりして面白い。

その他
natu3kan
中国のAI産業の成長は目を見張るものあるけど、政治的な縛りが多いからそこが足枷になるかよね。

その他
PerolineLuv
天安門事件とか尖閣諸島の領有権を聞きまくるとアカウント停止されるっぽいな

その他

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

リンクを埋め込む

以下のコードをコピーしてサイトに埋め込むことができます

プレビュー
アプリのスクリーンショット
いまの話題をアプリでチェック!
  • バナー広告なし
  • ミュート機能あり
  • ダークモード搭載
アプリをダウンロード

関連記事

usersに達しました!

さんが1番目にブックマークした記事「DeepSeek-R1の論文...」が注目されています。

気持ちをシェアしよう

ツイートする

DeepSeek-R1の論文読んだ?【勉強になるよ】

記事は、DeepSeek-R1の論文とDeepSeekMathの論文を読んだ私の理解をもとに記載しています。 論文で... 記事は、DeepSeek-R1の論文とDeepSeekMathの論文を読んだ私の理解をもとに記載しています。 論文で使われている技術に関しては、ある程度の知識を持っているので、大きくは外していないとは思いますが、私の主観も入っている部分もありますので、ご了承ください。 また、DeepSeek-R1の論文が公開される前に、小型モデルに対して同様の実験(強化学習)をしていたグループがあるようです。 そちらのレポートは下記になります。 意図せず、DeepSeek-R1-Zeroの再現実験のようなレポートになっていますが、レポートの著者はDeepSeek-R1論文の公開前から実験していると主張しています。 こちらも非常に興味深かったため紹介です。 論文の興味深いところ 論文は、大きく分けて3つの構成でできています 強化学習による思考能力の強化 LLM(DeepSeek-V3-Base)に対

ブックマークしたユーザー

  • roogh5eeSha62025年10月12日 roogh5eeSha6
  • techtech05212025年07月12日 techtech0521
  • l__LINE__l2025年06月21日 l__LINE__l
  • okagawa2025年05月30日 okagawa
  • ba2dppy2025年03月25日 ba2dppy
  • lugecy2025年02月26日 lugecy
  • heatman2025年02月25日 heatman
  • hoge2411072025年02月22日 hoge241107
  • ichan2025年02月20日 ichan
  • skypenguins2025年02月19日 skypenguins
  • s-feng2025年02月19日 s-feng
  • irohairoha1682025年02月18日 irohairoha168
  • obaratch2025年02月13日 obaratch
  • asukifujiwara2025年02月10日 asukifujiwara
  • lEDfm4UE2025年02月09日 lEDfm4UE
  • hasunuma06132025年02月07日 hasunuma0613
  • clavier2025年02月06日 clavier
  • shun42232025年02月05日 shun4223
すべてのユーザーの
詳細を表示します

ブックマークしたすべてのユーザー

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

同時期にブックマークされた記事

いま人気の記事 - 企業メディア

企業メディアをもっと読む

はてなブックマーク

公式Twitter

はてなのサービス

Copyright © 2005-2025 Hatena. All Rights Reserved.
設定を変更しましたx

AltStyle によって変換されたページ (->オリジナル) /