深層強化学習モデルは、狭い学習領域では強力に成果を発揮しますが、ゲームの世界の普遍的な理解は得られません。
この種の強化学習は、エージェントが環境(世界)の因果予測をしないため、モデルフリーと呼ばれます。
知能と呼ばれることが多い深層強化学習モデルの振る舞いは、実際は単純な 刺激―反応マッピングです。

http://blog.livedoor.jp/tak_tak0/archives/52381987.html

これが当面の一番の問題ではなかろうか