0 10 20 30
0 250 500 750 1000 1250 1500 1750 2000

エピソードごとの外来報酬

勾配の更新の数
(a)大きなバッチ付きマリオ
128環境のバッチ
バッチ1024環境

フレーム数(単位:百万)
(b)ジャグリング(Roboschool)
純粋な好奇心(無報酬、無限遠地平線)探査
ジャグリング(Roboschool)

フレーム数(単位:百万)
(c)2人用ポン
純粋な好奇心(無報酬、無限遠地平線)探査
2人のポン

図3:
(a)Left:MarioのRFメソッドと異なるバッチサイズの比較。
結果は外的報酬を使用しない。
(b)センター:ジャグリング(Roboschool)環境におけるボールのバウンス数。
(c)右:マルチプレイPong環境におけるエピソード長の平均。
The discontinuous jump on the graph corresponds to the agent reaching a limit of the environment -
グラフ上の不連続なジャンプは、エージェントが環境の限界に達することに対応します。
after a certain number of steps in the environment the Atari Pong emulator starts randomly cycling through background colors and becomes unresponsive to agent 's actions
環境内の特定のステップ数の後で、Atari Pongエミュレータは背景色をランダムに循環し始め、エージェントのアクションに応答しなくなります