×ばつの点数だけ返す強化学習をぐるぐる回すだけで思考の過程をチェックしなくても論理能力が上がるってことか。なんか不思議。」、「中国は情報を盗む!というのもアメリカによる洗脳(プロパガンダ)なのかもしれない。まあ実際盗むんだろうけどアメリカもメルケルの携帯を盗聴してたし。」、「1989年6月4日に何があったんですか〜?|という嫌がらせしなきゃつよつよとは聞いている|ローカル動作用にソース公開されてるので金盾思考フィルター回避も時間の問題っしょ」などです。">

はてなブックマークアプリ

サクサク読めて、
アプリ限定の機能も多数!

アプリで開く

はてなブックマーク
テクノロジー
DeepSeek-R1の論文読んだ?【勉強になるよ】

気に入った記事をブックマーク

気に入った記事を保存できます
保存した記事の一覧は、はてなブックマークで確認・編集ができます
記事を読んだ感想やメモを書き残せます
非公開でブックマークすることもできます

DeepSeek-R1の論文読んだ?【勉強になるよ】

テクノロジーカテゴリーの変更を依頼記事元:zenn.dev/asap

適切な情報に変更

エントリーの編集

loading...

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。

このページのオーナーなので以下のアクションを実行できます

タイトル、本文などの情報を
再取得することができます

コメントを非表示にできますコメント表示の設定

ブックマークしました

ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください

Twitterで共有

次回からTwitterへ自動リダイレクト

ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します

1009users がブックマークコメント 74

コメントするにはログインが必要ですブックマークを追加

ブックマークを追加

おすすめタグタグについて

よく使うタグ

DeepSeek-R1の論文読んだ?【勉強になるよ】

1009 users zenn.dev/asap

おすすめタグタグについて

よく使うタグ

はてなブックマーク

はてなブックマークで
関心をシェアしよう

みんなの興味と感想が集まることで
新しい発見や、深堀りがもっと楽しく

ユーザー登録

アカウントをお持ちの方はログインページへ

記事へのコメント74件

注目コメント
新着コメント

auto_chan 軽いDeepSeekショックみたいな感じで週明けから相場が下落するホドにインパク知がでかい。中国政府による検閲など懸念点は?ってきいたら真っ当な答えがひとしきり出した後にペッっと消えた。ダメダゾォ🐼

2025年01月27日リンク

その他

wata300 ×ばつの点数だけ返す強化学習をぐるぐる回すだけで思考の過程をチェックしなくても論理能力が上がるってことか。なんか不思議。

2025年01月27日リンク

その他

birisuken8574 中国は情報を盗む!というのもアメリカによる洗脳(プロパガンダ)なのかもしれない。まあ実際盗むんだろうけどアメリカもメルケルの携帯を盗聴してたし。

2025年01月27日リンク

その他

anigoka 1989年6月4日に何があったんですか〜?|という嫌がらせしなきゃつよつよとは聞いている|ローカル動作用にソース公開されてるので金盾思考フィルター回避も時間の問題っしょ

2025年01月27日リンク

その他

xqu

xqu 伏字にしたら「政治的」な質問に対してもある程度はまともに回答するらしい。 https://x.com/napsucks/status/1883772523189580262 / ただし失敗すると使い物にならなくなる。 https://x.com/Mrkawaberi/status/1883533059431293095

AI

2025年01月27日リンク

その他

kotesaki そうかぁ。DeepSeek-R1は数学にはツヨツヨだけどソフトウエアエンジニアリングタスクにはあまり向いてないのかー。あとやはり中国系企業なのでLocalで動かすい場合以外はあまり機微な情報はな投げられないよね。

2025年01月27日リンク

その他

shoronpoo なるほど。強化学習からLLM学習のコールドスタート問題への対処など学びが多そう。じゃあコーディングタスクも、atcode×ばつを報酬として与える設計で転用できそう。MoEの各構成要素は何だろう

2025年01月27日リンク

その他

vbcom Open sourceなのか。すごいな。大逆転が起こるのかな?先は分からないな。

2025年01月27日リンク

その他

augsUK AI開発の結果を安易に人間に適用する是非はあるけど、数学など答えの決まった初見の問題を解く訓練をさせて入試で選抜する方法は、人間の知恵を向上させる上でかなり効率的なのかも。

2025年01月27日リンク

その他

TETOS やねうらさんの話とか、麻雀aiのluckyjとかと似た匂い。ルールベースとかで工夫して、とにかく強化学習をぶん回す。

2025年01月28日リンク

その他

takomu 強化学習による思考能力の向上は、安易に小型モデルに試していい戦略でない SFTとRLを2セット。1回目はルールベース報酬、2回目はv3を用いた報酬モデル設定

2025年01月31日リンク

その他

zu2

zu2 数学大事。人間も

2025年01月30日リンク

その他

SndOp (類似問題は回答できるような気がするがサドンデス的な挙動があるような気がしないもでないな)

2025年01月30日リンク

その他

iqm

iqm 「ただ、数学の問題の回答が合っているか間違っているかのゴール報酬のみが与えられています。」「思考プロセスを<think>と</think>タグの間に置くことをモデルに強制」「数学という問題の答えを合わせるように報酬設計」

2025年01月29日リンク

その他

mumei-0 "強化学習による思考能力の強化"

2025年01月29日リンク

その他

hiroomi やり通す力

DeepSeek

2025年01月29日リンク

その他

TakayukiN627 LLM(DeepSeek-V3-Base)に対して「強化学習のみ」を適用させたところ、強力な思考能力を獲得した「DeepSeek-R1-Zero」が作成されました。

2025年01月28日リンク

その他

ardarim 今後は金盾とかも人力ではなくDeepSeekのようなAIが担っていくんだろうか。検閲が捗るな

2025年01月28日リンク

その他

y2q_actionman 計算量減らす工夫をめっちゃ頑張ってるのか。相変わらずGPUは必要そう

2025年01月28日リンク

その他

akrtak 論文の内容的には人類の発展に寄与するものになっているのでこれと、運用されている例のサービスは切り離して考える必要がある

2025年01月28日リンク

その他

strawberryhunter

strawberryhunter ローカルで利用できるモデルがどの程度のハードウェアが必要で、どの程度使える出力が得られるのか、だれかに記事を書いてほしいところ。

中国

2025年01月28日リンク

その他

Cru

Cru これ、学習方法から見てもしかして本気で論理的に考える力を獲得してない?今までのは超高度な作話にすぎなかったわけだけど https://www.technologyreview.jp/s/339410/why-does-ai-hallucinate/ RAGとかCoTとかRIGとかで何とかそれらしくし

2025年01月28日リンク

その他

rawwell "強化学習をしないため、報酬モデルも状態価値モデルも必要なく、単純に「プロンプト x x 」と「好ましい回答 y + y + 」「好ましくない回答 y − y − 」の3つが組となっているデータセット D D を用意すれば、あとは π φ

2025年01月28日リンク

その他

versatile 強化学習の名前をマシュマーとかキャラスーンとかにしたい

2025年01月28日リンク

その他

kagerouttepaso DeepSeekに中国共産党、ChatGptにDEIなど、どのAIにも政治的意図は練り込まれてるから今更。それより論文やOSSの思考モデルなどAIの民主化が一番すごいことよ。

2025年01月28日リンク

その他

nilab DeepSeek-R1の論文読んだ?【勉強になるよ】

2025年01月28日リンク

その他

neco22b 勉強不足やわ、よくわからん

2025年01月28日リンク

その他

sian17 中国産をすぐ天安門に絡める奴、自分の程度の低さが分からんのかね...。

2025年01月28日リンク

その他

hatebunbun 台湾についての質問に答えかけたところに、ビッグブラザーからの検閲が入る瞬間。https://youtu.be/ssA2Eth3QMk

2025年01月28日リンク

その他

zgmf-x20a 私の知りたいのはV3がR1になってなにがトレードオフされたか。もちろん推定で良いのだけどね。LLMってのは難しいけど、化学合成プロセス研究も似たようなものかな?SFTでなくてELでと言うのが今後のトレンドかもね。

2025年01月28日リンク

その他

pascal256 DeepSeek-V3-Baseがそのまま元になってて、モデルは変えずに追加学習であそこまで強化したのか。興味深い。革ジャンの言ってた通りだね

2025年01月28日リンク

その他

havanap こういう小技による性能向上が増えてくるとだいぶ煮詰まってきている感はある

2025年01月28日リンク

その他

cinefuk "大前提として、この論文は「DeepSeek-V3-Base」という強力なLLMの性能を改善する論文です。これ単体でも、GPT-4oレベルの能力を持っているオープンソースLLMになります。"

2025年01月28日リンク

その他

TETOS やねうらさんの話とか、麻雀aiのluckyjとかと似た匂い。ルールベースとかで工夫して、とにかく強化学習をぶん回す。

2025年01月28日リンク

その他

sirobu 天安門がーとかブコメ書いてる人、本文読んでないだろ......

ai

2025年01月28日リンク

その他

tettekete37564 多分完璧に理解させられるやつ

あとで読む

2025年01月28日リンク

その他

tdam

tdam 本当にNVIDIA製GPUを使っていなかったらすごい、使っていなかったら。

2025年01月28日リンク

その他

yorkfield APIで試してみたけど、回答はちゃんと日本語なのに、CoT (reasoning_content) は英語や中国語だったりして面白い。

2025年01月28日リンク

その他

natu3kan 中国のAI産業の成長は目を見張るものあるけど、政治的な縛りが多いからそこが足枷になるかよね。

AI

2025年01月28日リンク

その他

PerolineLuv 天安門事件とか尖閣諸島の領有権を聞きまくるとアカウント停止されるっぽいな

2025年01月28日リンク

その他

コメントするにはログインが必要ですログインしてコメント

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

リンクを埋め込む

以下のコードをコピーしてサイトに埋め込むことができます

[<a href="https://b.hatena.ne.jp/entry.parts?url=https%3A%2F%2Fzenn.dev%2Fasap%2Farticles%2F34237ad87f8511">フレーム</a>]

プレビュー

はてなブックマークボタンを作成して埋め込むこともできます

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック!

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

usersに達しました!

さんが1番目にブックマークした記事「DeepSeek-R1の論文...」が注目されています。

気持ちをシェアしよう

ツイートする

DeepSeek-R1の論文読んだ?【勉強になるよ】

本記事は、DeepSeek-R1の論文とDeepSeekMathの論文を読んだ私の理解をもとに記載しています。本論文で... 本記事は、DeepSeek-R1の論文とDeepSeekMathの論文を読んだ私の理解をもとに記載しています。本論文で使われている技術に関しては、ある程度の知識を持っているので、大きくは外していないとは思いますが、私の主観も入っている部分もありますので、ご了承ください。また、DeepSeek-R1の論文が公開される前に、小型モデルに対して同様の実験(強化学習)をしていたグループがあるようです。そちらのレポートは下記になります。意図せず、DeepSeek-R1-Zeroの再現実験のようなレポートになっていますが、レポートの著者はDeepSeek-R1論文の公開前から実験していると主張しています。こちらも非常に興味深かったため紹介です。本論文の興味深いところ本論文は、大きく分けて3つの構成でできています強化学習による思考能力の強化 LLM(DeepSeek-V3-Base)に対

ブックマークしたユーザー

roogh5eeSha62025年10月12日 roogh5eeSha6
techtech05212025年07月12日 techtech0521
l__LINE__l2025年06月21日 l__LINE__l
okagawa2025年05月30日 okagawa
ba2dppy2025年03月25日 ba2dppy
lugecy2025年02月26日 lugecy
heatman2025年02月25日 heatman
hoge2411072025年02月22日 hoge241107
ichan2025年02月20日 ichan
skypenguins2025年02月19日 skypenguins
s-feng2025年02月19日 s-feng
irohairoha1682025年02月18日 irohairoha168
obaratch2025年02月13日 obaratch
asukifujiwara2025年02月10日 asukifujiwara
lEDfm4UE2025年02月09日 lEDfm4UE
hasunuma06132025年02月07日 hasunuma0613
clavier2025年02月06日 clavier
shun42232025年02月05日 shun4223

すべてのユーザーの
詳細を表示します

ブックマークしたすべてのユーザー

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

同時期にブックマークされた記事

ローラが透ける衣装で美ボディを大胆披露?TBC新CMがセクシーすぎると話題に!『脱毛で美しい肌』篇動画はこちら!

1 user tsuiokuskywalker.seesaa.net

いま人気の記事 - 企業メディア

企業メディアをもっと読む

はてなブックマーク

公式Twitter

はてなのサービス

Copyright © 2005-2025 Hatena. All Rights Reserved.

設定を変更しましたx