E)2人用ポンでのマルチエージェントの好奇心 私たちは既に、純粋に好奇心に基づいたエージェントが報酬なしでいくつかのアタリゲームを学ぶことを知っていますが、その対戦相手がハードコーディングされた戦略を持つコンピュータエージェントであることが原因です。 両方のチームが互いに対して好奇心を持って遊ぶようにするとどうなりますか? 調べるには、ゲームの両面(パドルのパドル)が好奇心に基づいたエージェントによって制御されているTwo-player Pongゲームを行います。 エージェントの初期レイヤーを共有し、異なるアクションヘッドを持ちます。つまり、合計アクションスペースは、プレイヤー1のアクションとプレイヤー2のアクションのクロスプロダクトです。 0177>>1762018/08/27(月) 09:54:39.20ID:Zq8VRJ9K?2BP(0) エージェントが両面をプレイしているので、この文脈では外的報酬は無意味なので、代わりにエピソードの長さを示します。 結果を図3(c)に示す。 We see from the episode length that the agent learns to have more and longer rallies over time, learning to play pong without any teacher ? エピソードの長さから、エージェントが時間の経過と共にますます長くなる集会を学び、先生なしでポンをすることを学びます。 purely by curiosity on both sides. 純粋に両側の好奇心によって。 実際には、ゲーム集会は最終的には非常に長くなり、Atariエミュレータを破り、色が急激に変化し、プロットに示すようにポリシーがクラッシュします。
Sparse reward setting: In preliminary experiments, we picked 5 Atari games which have sparse rewards (as categorized by [3]), and compared extrinsic (classic RL) vs. 疎な報酬設定:予備実験では、疎な報酬([3]で分類される)を持つ5つのAtariゲームを選び、外的(古典的なRL)vs. extrinsic+intrinsic (ours) reward performance. 外因性+内在性(私たちの)報酬のパフォーマンス。 5つのうち4試合では、好奇心のボーナスによりパフォーマンスが向上します(付録の表2を参照してください)。 これは本書の焦点ではないことを強調したいと思います。これらの実験は完全性のために提供されています。 外因性(係数1.0)と内因性報酬(係数0.01)を調整することなく直接結合しました。 私たちは、内在的報酬と内在報酬を将来の方向性として最適に組み合わせる方法について質問を残します。 0182>>1812018/08/27(月) 09:58:05.09ID:Zq8VRJ9K?2BP(0) 4 関連作業
本質的な動機づけ: A family of approaches to intrinsic motivation reward内在的なモチベーション報酬へのアプローチのファミリー an agent based on prediction error [2, 27, 36, 42], prediction uncertainty [11, 44], or improvement [19, 34] of a forward dynamics model of the environment that gets trained along with the agent 's policy. エージェントの方針とともに訓練された環境のフォワードダイナミクスモデルの予測誤差[2,27,36,42]、予測不確実性[11,44]、または改善[19,34]に基づくエージェント。 A family of approaches to intrinsic motivation reward an agent based on prediction error , prediction uncertainty , or improvement of a forward dynamics model of the environment that gets trained along with the agent 's policy. 内在的動機づけへのアプローチの一群は、予測誤差、予測不確実性、またはエージェントの方針とともに訓練される環境の順動力学モデルの改善に基づいてエージェントに報酬を与える。 その結果、フォワードダイナミクスモデルの予測が困難な領域にエージェントが移動し、モデルはこれらの領域の予測を改善します。 この敵対的および非定常的な力学は複雑な挙動を引き起こす可能性がある。 この分野では、外部報酬が存在しない純粋な探査環境では、ほとんど進んでいません。 Of these mostly closely related are those that use a forward dynamics model of a feature space such as Stadie et al. これらの大部分は、Stadieらのような特徴空間の順動力学モデルを使用するものである。 [42] where they use autoencoder features, and Pathak et al. [42]オートエンコーダー機能を使用する場所、Pathak et al。 [27] where they use features trained [27]訓練された機能を使用する場所 逆動力学の仕事で。 これらは、セクション2.1で詳述されているVAEとIDFメソッドにほぼ対応しています。 0183>>1822018/08/27(月) 09:58:40.51ID:Zq8VRJ9K?2BP(0) 内在的な報酬には、州訪問回数の平滑化されたバージョンを使用することができる[3,9,24,47]。 Count-based methods have already shown very strong results when combining with extrinsic rewards such as setting the state of the art in the Atari game Montezuma 's Revenge [3], カウントベースの方法は、AtariのゲームMontezuma's Revenge [3]で最新の状態を設定するなどの外的な報酬と組み合わせると、非常に強力な結果を示しています。 and also showing significant exploration of the game without using the extrinsic reward. また、外的報酬を使用せずにゲームの重要な探索を示しています。 カウントベースのアプローチがダイナミクスベースのアプローチよりも好まれるべきである状況はまだ明確ではない。このペーパーでは、ダイナミクスベースのボーナスに重点を置くことを選択しました。 私たちの予備実験では、既存のカウントベースの実装では大規模な研究のためのスケールアップで十分な成功を収めていませんでした。
外的報酬や適性機能のない学習は、進化的コンピューティングでも広く研究されており、「新規性検索」と呼ばれている[17,18,43]。 そこでは、イベントの新規性は、距離を計算するためにイベントのいくつかの統計を使用して、以前のイベントの間で最も近い隣にイベントの距離として定義されることが多い。 この文献からの興味深い発見の1つは、多くの場合、フィットネスのためだけに最適化する以外には、はるかに興味深い解決策を見つけることができるということです。 0184>>1832018/08/27(月) 10:04:22.65ID:Zq8VRJ9K?2BP(0) Other methods of exploration are designed to work in combination with maximizing a reward function, such as those utilizing uncertainty about value function estimates [5, 23], or those using perturbations of the policy for exploration [8, 29]. 他の探査方法は、価値関数推定値に関する不確実性を利用する報酬関数や探索のための方針の摂動を用いる報酬関数などの報酬関数を最大化することと組み合わせて機能するように設計されている[8]、[29]。 Schmidhuber [37]とOudeyer [25]、OudeyerとKaplan [26]は、内在的動機づけへのアプローチに関する初期の研究のいくつかについて素晴らしいレビューを提供する。 0185>>1842018/08/27(月) 10:04:55.85ID:Zq8VRJ9K?2BP(0) Alternative methods of exploration include Sukhbaatar et al. 探査の代替方法には、Sukhbaatar et al。 [45] where they utilize an adversarial game between two agents for exploration. [45]彼らは探索のために2つのエージェントの間で敵対的なゲームを利用する。 In Gregor et al. Gregor et al。 [10], they optimize a quantity called empowerment which is a measurement of the control an agent has over the state. [10]、エージェントはエンパワーメントと呼ばれる量を最適化します。これは、エージェントがその状態を超えた制御の測定値です。 In a concurrent work, diversity is used as a measure to learn skills without reward functions Eysenbach et al. 並行作業では、報酬機能なしにスキルを習得するための手段として多様性が使用されます。Eysenbach et al。 [7]. [7]。 0186>>1852018/08/27(月) 10:06:03.78ID:Zq8VRJ9K?2BP(0) ランダムな特徴: この論文の発見の1つは、ランダムな特徴の驚くべき有効性であり、ランダム投影法およびより一般的にはランダムに初期化されたニューラルネットワークに関する著しい文献がある。 Much of the literature has focused on using random features for classification [14, 33, 49] where the typical finding is that whilst random features can work well for simpler problems, 文献の多くは、分類のためにランダムな特徴を用いることに焦点を当てている[14,33,49]。典型的な発見は、ランダムな特徴がより簡単な問題のためにうまくいく一方、 feature learning performs much better once the problem becomes sufficiently complex. 問題が十分に複雑になると、フィーチャラーニングははるかに良好に機能します。 literature has focused on using random features for classification where the typical finding is that whilst random features can work well for simpler problems, feature learning performs much better once the problem becomes sufficiently complex. 文献では、ランダムな特徴がより単純な問題に対してはうまくいくが、問題の学習がはるかに良好になるという典型的な発見がある場合、分類にランダムな特徴を用いることに集中している。 このパターンがダイナミクスに基づく探索にも当てはまると期待していますが、学習したフィーチャがMario Brosの斬新なレベルでより一般化するように見える予備的な証拠があります。
[2] J. AchiamおよびS. Sastry。 深い強化学習のためのサプライズベースの内的動機。 arXiv:1703.01732,2017。3,9 [3] M. Bellemare、S. Srinivasan、G. Ostrovski、T.Schaul、D. Saxton、およびR.Munos。 カウントベースの探索と固有のモチベーションの統一。 NIPSでは、2016年1月9日 [4] MG Bellemare、Y. Naddaf、J. Veness、およびM. Bowling。 アーケード学習環境:一般エージェントの評価プラットフォーム。 Journal of Artificial Intelligence Research、47:253279、jun 2013. 2 [5] RY Chen、J. Schulman、P. Abbeel、およびS. Sidor。 q-ensembles.arXiv:1706.01502、2017.によるUCBとインフォゲイン探査 [6] G. Costikyan。 ゲームの不確実性。 Mit Press、2013. 6、10 [7] B. Eysenbach、A. Gupta、J. Ibarz、およびS. Levine。 ダイバーシティはあなたが必要とするすべてです:報酬機能のない学習スキル。 arXivプレプリント、2018 [8] M. Fortunato, MG Azar, B. Piot, J. Menick, I. Osband, A. Graves, V. Mnih, R. Munos, D. Hassabis, O. Pietquin, C. Blundell, and S. Legg. M. Fortunato、MG Azar、B. Piot、J. Menick、I. Osband、A. Graves、V. Mnih、R. Munos、D. Hassabis、O. Pietquin、C. Blundell、およびS. Legg 。 探査のための騒々しいネットワーク。 arXiv:1706.10295,2017。9 [9] J. Fu、JD Co-Reyes、およびS. Levine。 EX2:深層強化学習のための模範モデルによる探査。 NIPS、2017. 9 [10] K. Gregor、DJ Rezende、およびD. Wierstra。 バリアント固有制御。 ICLRワークショップ、2017年9月 [11] R. Houthooft, X. Chen, Y. Duan, J. Schulman, F. De Turck, and P. Abbeel. R. Houthooft、X. Chen、Y. Duan、J. Schulman、F. De Turck、およびP. Abbeel。 Vime:探索情報を最大化する変分情報。 NIPSでは、2016年1月9日 [12] R. Hunicke、M. LeBlanc、およびR. Zubek。 Mda:ゲーム設計とゲーム研究への正式なアプローチ。 ゲームAIにおける課題に関するAAAIワークショップ(2004年6月10日) [13] S.IoffeおよびC.Szegedy。 バッチ正規化:内部共変量シフトを減らすことにより、深いネットワークトレーニングを加速します。 arXiv preprint arXiv:1502.03167,2015 4 0192>>1912018/08/27(月) 10:12:16.58ID:Zq8VRJ9K?2BP(0) [14] K. Jarrett、K. Kavukcuoglu、Y. LeCun、et al。 オブジェクト認識のための最善のマルチステージアーキテクチャとは何ですか? IEEE, 2009. 9コンピュータビジョン、2009年IEEE第12回国際会議、21462153ページ、IEEE、2009. 9 [15] DP KingmaとM. Welling。 変分ベイズの自動エンコーディング。 arXiv preprint arXiv:2013年2月3日、1312.6114 [16] N. Lazzaro。 ゲームをする理由: プレイヤーの経験でより多くの感情への4つの鍵。 Proceedings of GDC、2004. 6、10 [17] J. LehmanおよびKO Stanley。 新規性の探索を通じて問題を解決するためのオープンエンド性の活用。 ALIFE、2008. 9 [18] J.リーマンとKOスタンレー。 放棄する目的:進化だけで斬新さの探索。 進化的計算、2011. 9 [19] M. Lopes、T. Lang、M. Toussaint、およびP.-Y. Oudeyer. Oudeyer。 経験的に学習進展を推定することによるモデルベースの強化学習の探索。 NIPS、2012. 9 [20] M. Lopes、T. Lang、M. Toussaint、およびP.-Y. Oudeyer。 経験的に学習進展を推定することによるモデルベースの強化学習の探索。 NIPS、2012. 1 [21] V. Mnih、K. Kavukcuoglu、D. Silver、AA Rusu、J. Veness、MG Bellemare、A. Graves、M. Riedmiller、AK Fidjeland、G. Ostrovski、et al。 深層強化学習による人間のレベルの制御。 Nature、2015、1 [22] S。モハメドとDJ Rezende。 本質的に動機付けされた強化学習のための変分情報の最大化。 NIPSでは、2015年1月 [23] I. Osband、C. Blundell、A. Pritzel、およびB. Van Roy。 ブートストラップdqnによる深い探査。 NIPS、2016年9月 [24] G. Ostrovski、MG Bellemare、A.vd Oord、およびR.Munos。 神経密度モデルを用いたカウントベースの探索。 arXiv:1703.01310,2017。1,9 [25] P.-Y. Oudeyer。 好奇心に基づく学習の計算理論。 arXiv preprint arXiv:1802.10546、2018. 9
11
Page 12 0193>>1922018/08/27(月) 10:12:55.87ID:Zq8VRJ9K?2BP(0) [26] P.-Y. Oudeyer and F. Kaplan。 内在的な動機は何ですか? 計算上のアプローチの類型。 ニューロロボティクスの最前線、2009年1月9日 [27] D. Pathak, P. Agrawal, AA Efros, and T. Darrell. D.Patak、P. Agrawal、AA Efros、およびT. Darrell。 自己監視予測による好奇心に基づく探索。 ICMLでは、2017年1月2日、3日、4日、6日、9日 [28] D. Pathak, P. Mahmoudieh, G. Luo, P. Agrawal, D. Chen, Y. Shentu, E. Shelhamer, J. Malik, AA Efros, and T. Darrell. D. Pathak、P. Mahmoudieh、G. Luo、P. Agrawal、D. Chen、Y. Shentu、E. Shelhamer、J. Malik、AA Efros、およびT. Darrell。 ゼロショットの視覚的模倣。 ICLR、2018.1 [29] M.Plappert、R.Houthooft、P.Dhariwal、S.Sidor、RYChen、X.Chen、T.Asfour、P.Abbeel、およびM. Andrychowicz。 探索のためのパラメータ空間雑音。 arXiv:1706.01905,2017。9 [30] P. Poupart、N. Vlassis、J. Hoey、およびK. Regan。 離散ベイジアン強化学習の解析的解。 ICML、2006. 1 [31] DJ Rezende、S.Mohamed、およびD.Wierstra。 深い生成モデルにおける確率的逆伝播と近似推論。 arXiv preprint arXiv:1401.4082、2014。3 [32] EL Ryan、Richard; Deci。 内在的および外的な動機:古典的定義と新しい方向性。 現代教育心理学、2000. 1 [33] AM Saxe, PW Koh, Z. Chen, M. Bhand, B. Suresh, and AY Ng. AM Saxe、PW Koh、Z. Chen、M. Bhand、B. Suresh、およびAY Ng。 ランダムウェイトと教師なしの特徴学習。 ICML、10891096ページ、2011年。 0194>>1932018/08/27(月) 10:13:33.41ID:Zq8VRJ9K?2BP(0) [34] J. Schmidhuber. 。 奇妙なモデル構築制御システム。 Neural Networks、1991年、IEEE国際共同会議、14581463ページ、IEEE、1991. 9 [35] J. Schmidhuber。 モデル構築のニューラルコントローラに好奇心と退屈を実現する可能性。 動物から動物へ:適応行動のシミュレーションに関する第1回国際会議の議事録、1991. 1 [36] J. Schmidhuber。 モデル構築のニューラルコントローラに好奇心と退屈を実現する可能性、1991. 9 [37] J. Schmidhuber。 創造性、楽しい、そして本質的な動機づけの公式理論(19902010)。 自律的精神発達に関するIEEEの取り組み、2010. 9 [38] J. Schulman、F. Wolski、P. Dhariwal、A. Radford、およびO. Klimov。 近接ポリシー最適化アルゴリズム。 arXiv preprint arXiv:1707.06347, 2017. 4 arXiv preprint arXiv:1707.06347,2017 [39] J. Schulman、F. Wolski、P. Dhariwal、A. Radford、およびO. Klimov。 近接ポリシー最適化アルゴリズム。 arXiv preprint arXiv:1707.06347、2017. 2 [40] SP Singh、AG Barto、N. Chentanez。 本質的に動機付けられた強化学習。 NIPSでは、2005年1月 [41] L.スミスとM.ガッサー。 具体的な認知の発達:赤ちゃんからの6回のレッスン。 人工生命、2005年1月 [42] BC Stadie、S。Levine、およびP. Abbeel。 深い予測モデルによる強化学習の探求を促進する。 NIPSワークショップ、2015年.2,9 [43] KO StanleyおよびJ. Lehman。 なぜ偉大さが計画できないのか:目的の神話。 Springer、2015。9 [44] S. StillおよびD. Precup。 An information-theoretic approach to curiosity-driven reinforcement learning. 好奇心に基づく強化学習への情報理論的アプローチ。 Theory in Biosciences, 2012. 9バイオサイエンス理論、2012. 9 [45] S. Sukhbaatar, I. Kostrikov, A. Szlam, and R. Fergus. [45] S. Sukhbaatar、I. Kostrikov、A. Szlam、およびR. Fergus。 Intrinsic motivation and automatic curricula via asymmetric self-play. 内在的な動機づけと、非対称セルフプレイによる自動カリキュラム。 In ICLR, 2018. 9 ICLR、2018年9月 0195>>1942018/08/27(月) 10:14:07.88ID:Zq8VRJ9K?2BP(0) [46] RS Sutton and AG Barto. [46] RS SuttonおよびAG Barto。 Reinforcement learning: An introduction. 強化学習:導入。 MIT press Cambridge, 1998. 4 MITプレスケンブリッジ、1998。4 [47] H. Tang, R. Houthooft, D. Foote, A. Stooke, X. Chen, Y. Duan, J. Schulman, F. De Turck, and P. Abbeel. H. Tang、R.Houthooft、D.Foote、A.Stooke、X.Chen、Y.Duan、J.Schulman、F.De Turck、およびP. Abbeel。 #Exploration:深層強化学習のためのカウントに基づく探索の研究。 神経情報処理システムの進歩、2017. 9 [48] P. Wouters、H. Van Oostendorp、R. Boonekamp、およびE. Van der Spek。 バックストーリーと予兆を実装することで、魅力的で効果的な真剣なゲームを作成する際のゲームの談話分析と好奇心の役割。 コンピュータとの交流、2011年6月、10 [49] Z. Yang, M. Moczulski, M. Denil, N. de Freitas, A. Smola, L. Song, and Z. Wang. Z. Yang、M. Moczulski、M. Denil、N. de Freitas、A. Smola、L. Song、およびZ. Wang。 ディープフライドコンベット。 In Proceedings of the IEEE International Conference on Computer Vision, pages 14761483, 2015. 9 IEEEビジョンに関するIEEE国際会議予稿集、14761483、2015。
Inverse Dynamics features ? 逆動力学の特徴 ランダムエージェント Random CNN features ? ランダムCNN機能
図8: 48個のAtariゲームで、純粋な好奇心に基づいた探索(外的報酬もエピソード終了信号もない)。 私たちは、外的帰還やエピソード信号の終わりにアクセスできないエージェントにもかかわらず、好奇心に基づくエージェントの外的帰還がしばしば増加することを観察します。 In multiple environments, 複数の環境では、 the performance of the curiosity-driven agents is significantly better than that of a random agent, although there are environments where the behavior of the agent is close to random, or in fact seems to minimize the return, rather than maximize it. エージェントの行動がランダムに近いか、実際には最大限にするのではなく、リターンを最小限に抑えるような環境が存在するにもかかわらず、好奇心に基づいたエージェントのパフォーマンスはランダムエージェントのパフォーマンスよりも大幅に優れています。 大部分の訓練プロセスでは、RFは環境の約67%でランダムエージェントよりも優れていますが、IDFは環境の約71%でランダムエージェントよりも優れています。 0200>>1992018/08/27(月) 10:17:54.98ID:Zq8VRJ9K?2BP(0) Reward Gravitar Freeway Venture PrivateEye MontezumaRevenge ? Gravitar Freewayベンチャーに報酬を与えるPrivateEye Montezuma Revenge Ext Only 999.3±220.7 33.3±0.6 0±0 5020.3±395 1783±691.7 Ext + Int 1165.1±53.6 32.8±0.3 416±416 3036.5±952.1 2504.6±4.6
メモリー検索の依存性 ? いくつ ry では、セマ ry から情報を取 ry リが以前に短時間アクセスされた場合に短 ry ことが示 ry 。 情報をセマンティックカテゴリから取得する時間が、そのカテ がもしも短時間前にアクセスされていた場合 短縮される事が、いくつかの研究では示され ます ? たとえば、Collins ry は、「 ry 」などの質 ry。 Collins and Quillian(1970)は、例えば、「カナリアは鳥 か?」といった質問に答えるのに必要な時間を示しています 前回のトライアルでカナリアに関する情報にアクセスした場合、600ミリ秒も減 。 多少異なるパラダイムを使用して、マイヤーとシュヴァネヴェルト(マイヤー&シュヴァネヴェルト、1971年;メイヤー、シュヴァネヴェルト&ラディ、1972年、シュ &メ 、1973年;メ 、1973年)は同じことを示しています これらの実験では、Sは文字列を単語または非単語として分類 要 ? 一般的な発見は、Sが意味的に類似していない単語とは対照的に3つの意味的に類似した単語を分 ry り速い ry 。 そこでの一般的発見は、意味的非類似なとは対照的な意味的類似な 3 単語それらを被験者が単に分類した場合、文字列を単語として分類する反応時間はより早い こと したがって、 、「バター」の前に「パン」が付いている場合は、「ナース」が前にある場合よりも、「バター」を単語として分類 時間が速
このような結果を処理 ために、2つの一般的なクラスのモデルが提案されています ロケーションシフトモデル(Meyer&Schvaneveldt、1971)は、Sが特定のカテ のメンバーの処理を終了し、次にシフトして2番目のカテ の処理を開始する必要 場合、シフト時間は2つのカテ 間の意味的距離に依存すると想定 。 ? 一方、 ィブ化モデルは、カテ ry 、処 ry 的に類 ry 他のア が「興奮」または「 ィブ化」されるこ ry 。 アクティべーションモデルは、一方、カテ 内のアイテムが処理されるときに、その処理される情報と意味的類似している範囲で、他アイテムが「興奮化」または「アクティべート」される ことを前提とし ます さらに2つの想定が行われます。1つ目(Warren、1970年)は、アクティブ化が時間とともに減衰すること、2つ目は、 ィブ化されたアイテムは非アクティブ化されたアイテムよりも容易にアクセスできること 。 0222オーバーテクナナシー2021/09/05(日) 16:13:54.52ID:A+t1x18S 本実験の結果は、Meyer et al(1972)とLoftus(1973)のデータと合わせて、位置シフトモデルを非承認にし、活性化モデルをサポート 。 ? ry な比 ry 。 これらすべての実験には、次のような各比較が含まれます ? Tが、処理される時間が対象の従 数であるター 報を表す ry 。 処理時間を対象従属変数としたターゲット情報を T が表すとします ? Rが意味的にTに関 ry が意味的にTに関連 ry 表すようにします。 T に意味的関連する情報をR が表し、最後にU1とU2が T に意味的関連しない情報を表すとします ? 次の3つの条件を検討してください。 ここで 3 条件を検討します :