×ばつの点数だけ返す強化学習をぐるぐる回すだけで思考の過程をチェックしなくても論理能力が上がるってことか。なんか不思議。」、「中国は情報を盗む!というのもアメリカによる洗脳(プロパガンダ)なのかもしれない。まあ実際盗むんだろうけどアメリカもメルケルの携帯を盗聴してたし。」、「1989年6月4日に何があったんですか〜?|という嫌がらせしなきゃつよつよとは聞いている|ローカル動作用にソース公開されてるので金盾思考フィルター回避も時間の問題っしょ」などです。">
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください
Twitterで共有ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
本記事は、DeepSeek-R1の論文とDeepSeekMathの論文を読んだ私の理解をもとに記載しています。 本論文で... 本記事は、DeepSeek-R1の論文とDeepSeekMathの論文を読んだ私の理解をもとに記載しています。 本論文で使われている技術に関しては、ある程度の知識を持っているので、大きくは外していないとは思いますが、私の主観も入っている部分もありますので、ご了承ください。 また、DeepSeek-R1の論文が公開される前に、小型モデルに対して同様の実験(強化学習)をしていたグループがあるようです。 そちらのレポートは下記になります。 意図せず、DeepSeek-R1-Zeroの再現実験のようなレポートになっていますが、レポートの著者はDeepSeek-R1論文の公開前から実験していると主張しています。 こちらも非常に興味深かったため紹介です。 本論文の興味深いところ 本論文は、大きく分けて3つの構成でできています 強化学習による思考能力の強化 LLM(DeepSeek-V3-Base)に対