エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください
Twitterで共有ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
Asynchronous Methods for Deep Reinforcement Learning asynchronous gradient descentを用いたreinfor... Asynchronous Methods for Deep Reinforcement Learning asynchronous gradient descentを用いたreinforcement learningの学習手法を提案する。 experience replayは過去の観測を定期的に再利用して学習する事で時間依存性を回避し学習性能を向上可能で、よく使われてきた。 本論では代わりにマルチエージェントをマルチCPU上でそれぞれ走らせ、異なった環境の観測を同時に与える事で時間依存性を回避した学習を可能にする。 これによりさらなる性能向上が可能で、かつGPUに頼らずCPUのみで計算時間を減らす事が可能である。 Learning and Inference via Maximum Inner Product Search, ICML2016 log-linear modelの学習を行う際