https://www.nikkan.co.jp/articles/view/00461636
「ある学習エージェントの経験を生かして、各エージェントがタスクをこなすだけでなく、エージェント間で学習内容を同時にアップデートできる。」
「このアルゴリズムを搭載した機械1台をトレーニングし、データ効率はそのままに何千台もの機械へのスケールアップも可能という」
『ディープマインドの深層強化学習について30のマルチタスク試験が行える「DMLab-30」や57のアタリのテレビゲームを同時に実行する「Atari-57」で試したところ、
ディープマインドが2016年に発表した分散型強化学習アルゴリズム「A3C」に比べてデータ効率が10倍と、10分の1のデータ量で済んだ』
「学習内容をエージェント間でシェアできることなどから性能も高く、ゲームではA3Cの2倍の得点が得られたとしている。」