エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください
Twitterで共有ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
イメージ的には、RMSPropが平均的な傾きの大きさを見て、値の更新幅を変えるのに対して、RMSPropGraves... イメージ的には、RMSPropが平均的な傾きの大きさを見て、値の更新幅を変えるのに対して、RMSPropGravesは傾きの分散に応じて、更新幅を変える感じでしょうか。 あとここで実装したDQNが、もう一点オリジナルと違うのは、通常のRMSPropを使う関係で、論文にあるLoss Clippingも行いません。 理由は、Clippingしたら、まともに学習が進まなかったからです・・・ DQN(不完全版)を実装するには 必要なライブラリ等 TensorFlow Arcade Learning Environment 学習させたいゲームのRom の3つが最低でも必要です(python関係のライブラリはTensorFlowのインストールで入ります) Romは検索すればそこら中に転がっていてすぐ見つかると思います。(Atari 2600 romとかで検索してみてください) RL-glueを使ってる