リスト1:並列スケジューラー `` next readys ''ロジック 0129>>1282018/08/12(日) 19:46:50.84ID:ltAhnLdz?2BP(0) リスト1は、N-entry並列スケジューラー用の `` next readys ''を生成するVerilogです。 >>128 4つのレディ・イベント入力タイプ(述部真、偽、オペランド#0、オペランド#1)がありますが、 ? ry 、真/オペランド#1ターゲットから偽/オペランド#0ターゲットを区別するのに単一のターゲットインデックスビットで十分である。 述部ターゲットイベントがオペランドターゲットイベントと同じサイクルで発生しないことを保証することによって、真/オペランド#1ターゲットと偽/オペランド#0ターゲットを区別する為のターゲットインデックスビットは一つで済む。 ? N = 32エントリの命令ウィンドウの場合、T0とT1は6ビット{入力#1:0}である(すなわち、特定の{RT / RF / R0 / R1} . ? IID:5}。 (特定の{RT / RF / R0 / R1} EN がイネーブル化する事によってデコーディングが促進される ) すなわち、 N = 32エントリの命令ウィンドウの場合、T0とT1は6ビット{入力#1: IID:5}である。 ? ry (ターゲット0の入力0等)は、ブロードキャスト選択デコーダB ry 。 ターゲットデコーダT00、T01、T10、T11(ターゲット0の入力0 、等)は、放送選択デコーダBと同様に、それぞれ6-LUTである。 ? ry 、現在アクティブでデコードされたレディステートでターゲットデコーダ出力を一緒にフォールドします。 次のアクティブレディ状態ロジックは、現在アクティブかデコードされたレディステートでターゲットデコーダ出力を一緒に畳みます。 これにはさらに7つのLUT(INH_NXTでは2つ)が必要で、合計32 * 12 = 384のLUTが必要です。 これは、32エントリスケジューラを偶数および奇数命令の2つの16エントリバンクに分割 ry 改善 ry ? ある銀行内では、4ビットの銀行IIDで十分である。 1 つのバンクに付き、4ビットのバンク IID で十分である。 ? ry 、T5、T10、T11は2つの5,5-LUT、 ry 。 次に、T0、T1は5ビットに狭くなるので、T00、T01、T10、T11は2つの5,5-LUT、INH_NXTは1つの6-LUT、または2 * 16 *(3 + 6)= 288のLUTに収まります。
4 0130>>1292018/08/12(日) 19:49:12.10ID:ltAhnLdz?2BP(0) ? ry :LUTまたはキャリーロジックまたはツリー、キャリーロジックゼロスキャン、および ry ワンショット変換を含む、多くの32ビットエンコーダデザインが評価されました。 優先順位エンコーダ:LUTまたはキャリーロジックの OR ツリー、キャリーロジックのゼロスキャン、およびF7MAP / F8MAPマルチプレクサを使用したワンホット変換を含む、多くの32ビットエンコーダデザインが評価検討されました。 ? ry 、2つのLUT遅延で完了する。 現在の設計では、バンク当たり2つの16→4エンコーダを使用し、2つの LUT の遅延で完了する。 ワン・イシュー・プロセッサでは、後続の2:1マルチプレクサがこれらのエンコーダ出力の1つを選択します。 特に、各16ビットエンコーダ入力I [15:0]はI [15]、I [14:10]、I [9:5]、I [4:0]にチャンクされる。 ? 各5ビットグループは32x4 LUT ROMにインデックスを付け、そのグループのエンコーダ出力を事前計算します。 各5ビットグループはそのグループのエンコーダ出力を事前計算してある 32x4 LUT ROM をインデックスします。 ? 3つの5ビットゼロコンパレータ出力とともに、 ry 。 5ビットゼロコンパレータ出力 3 つは共に、3つのグループがすべてゼロのときに 'b1111'を出力するカスタム4ビット3:1セレクタに供給されます。 ? ry RPM(Relativeally配置されたマクロ) ry 。 技術マッピングとフロアプランニング: このデザインではRPM(関連配置マクロ)手法を使用してエリアと相互接続の遅延を改善し、モジュール構成と大規模な複製で簡単なルーティングとタイミングクロージャのための繰り返し可能なレイアウトを実現します。 構造RTLはモジュールをインスタンス化し、それらをスケジューラにタイルします。 6入力モジュール上のXST注釈(* LUT MAP = "yes" *)は、そのロジックを1つのLUTにロックします。(* RLOC = "XxYy" *)は、FPGAプリミティブをクラスタにパックし、相互に相対的にクラスタを配置します。 0131yamaguti2018/08/12(日) 19:51:29.03ID:ltAhnLdz?2BP(0) http://rio2016.2ch.net/test/read.cgi/future/1489922543/184-2160132>>1302018/08/12(日) 19:51:58.10ID:ltAhnLdz?2BP(0) 図5: 並列スケジューラのFPGA実装
? ry 、およびデコードされた命令バッファ ry 。 図5は、スケジューラ、プライオリティエンコーダ、およびデコード済命令用バッファを含む図4のザイリンクス7シリーズの実装であり、クリティカルパスが白 ry FPGAスライスの2つの水平な行はそれぞれ、命令ウィンドウの4つのエントリに対応します。 左から右へ:
? 右側には、複数の32x6ビットトゥルーデュアルポートLUT RAMに実装された、合成された優先エンコーダとマルチプレクサ(青)とデコードされた命令バッファ(白) ry 。 右側には、合成された優先度エンコーダとマルチプレクサ(青)と、複数の 32 x 6 ビットトゥルーデュアルポート LUT RAM に実装されたデコード命令用バッファ(白 ry ? ry デコード済命令LUT RAM、 ry 。 パフォーマンス:Kintex-7 -1スピードグレードでは、クリティカルパスにRDYクロックトゥーアウト、プライオリティエンコーダ、マルチプレクサ、デコードされた命令LUT RAM、次のreadysロジック、RDYセットアップを含む5.0 nsが必要です。 相互接続遅延はクリティカルパスの85%です。残念ながら、RDYからRDYまでのすべてのパスは、比較的大きな直径のネットリストを通過 ry ? ry バックツーバック問題(連続サイクルで) ry 。 スケジューラクリティカルパス(命令バッファLUT RAMの出力ポート)の途中でパイプラインレジスタを追加することにより、サイクルタイムを2.9nsに短縮することができますが、 これは、単一の従属命令チェーンのバックツーバックイシュー(連続サイクルで)を達成することはできません。 0133>>1312018/08/12(日) 19:52:35.34ID:ltAhnLdz?2BP(0) ? ry 準備完了状態 E. 増分データフロースケジューラレディー状態 並列スケジューラは簡単ですが、32x12bのレディステート(LUT RAMの数少ないLUT)を維持するために何百ものLUTとFFを消費し、命令ウィンドウのサイズが2倍になるとこの領域も2倍になります。 ? また、発行された各命令が多くても2つの他の準備完了状態に影響を与えても(ブロードキャストにもかかわらず)、各命令の次のreadys LUTの各サイクルはすべての命令の準備を再計算します。 又、発行された各命令が大抵 2 つの他のレディー状態に影響を与えても(ブロードキャストにもかかわらず)、LUT での各レディーは次の各サイクルで全ての命令のレディーステートを再計算させます。 ? ? ry 、キュー内のレディ命令のフロンティアを維持し、 ry 。 対照的に、インクリメンタルスケジューラは、LUT RAMでデコードされたアクティブレディ状態を保持し、キュー内のレディ命令のフロンティアを整備し、1サイクルあたりわずか2〜4ターゲット命令のレディステータスを評価します。
ARDYSS WA ← EVT_IID RA ← EVT_IID I ← READYLOGIC ARDYS_NXT O → READYLOGIC DRDYS
DVS ← RESET O → READYLOGIC DV WA ← DRDYSS WA RA ← DRDYSS RA
AVS ← RESETvREFRESH WA ← ARDYSS WA RA ← ARDYSS RA O → READYLOGIC AV
READY LOGIC READY → DV ← DVS O DRDYS ← DRDYSS O AV ← AVS O ARDYS → ARDYSS O ARDYS_NXT → ARDYSS I EVT_RDYS ← EVT_RDYS 0136>>1352018/08/12(日) 19:57:14.42ID:ltAhnLdz?2BP(0) ? ry :準備状態、検証、および準備論理。 (a)設計:レディー状態、検証、およびレディーロジック。
? ry ・バンクの競合が存在する可能性があります。 EDGEコンパイラは、命令の両方のターゲットがディスジョイント・バンクにあることを保証するわけではないため、スケジューラ・バンクの競合が発生する可能性 ry 。 ADD命令は、命令10のオペランドと命令12のオペランドを対象 ry ? ry できないため、1つのイベントが処理され、もう1つのイベントが後のサイクルでキューに入れられます。 同じサイクルで2つの偶数バンク・ターゲットのアクティブ・レディ状態を更新することはできないため、 1 つのイベントが処理された後のサイクルで、もう 1 つのイベントがキュー ry 0139>>1382018/08/12(日) 20:01:53.31ID:ltAhnLdz?2BP(0) F. インクリメンタルなデータフロースケジューラの設計、運用、実装 スケジューラのコア(図7)は次のように構成されています。
強化学習アルゴリズムは、エージェントへの慎重にエンジニアリングされた外的な環境報酬に依存します。 しかし、手作業で設計された密集した報酬で各環境に注釈を付けることはスケーラブルではなく、エージェントに内在する報酬機能を開発する必要があります。 好奇心は報酬信号として予測誤差を用いる内的報酬関数の一種である。 このペーパーでは、(a)Atariゲームスイートを含む54の標準ベンチマーク環境全体にわたって、純粋に好奇心に基づいた学習、つまり、いかなる外的報酬も伴わない最初の大規模な学習を行います。 私たちの結果は、驚くほど優れたパフォーマンスと、本質的な好奇心の目標と多くのゲーム環境の手作業で設計された外的報酬との高度なアライメントを示しています。 (b) We investigate the effect of using different feature spaces for computing prediction error and show that random features are sufficient for many popular RL game benchmarks, (b)我々は、予測誤差を計算するために異なる特徴空間を使用することの効果を調べ、多くの一般的なRLゲームのベンチマークではランダムな特徴が十分であることを示し、 but learned features appear to generalize better (eg to novel game levels in Super Mario Bros.). 学習された機能は、より一般化するように見える(例えば、スーパーマリオブラザーズの新規ゲームレベルへ)。 (c)予測ベースの報酬の制限を確率的な設定で実証する。 ゲームプレイ動画やコードは http://pathak22.github.io/large-scale-curiosity/ 。 0157>>1562018/08/27(月) 09:34:29.87ID:Zq8VRJ9K?2BP(0) 前書き
このホワイトペーパーでは、様々なシミュレートされた環境のさまざまな範囲の固有の報酬によって純粋に駆動されるエージェントの大規模な実証研究を行っています。 In particular, we choose the dynamics-based curiosity model of intrinsic reward presented in Pathak et al. 特に、我々はPathak et al。が提示した内在的報酬のダイナミクスに基づく好奇心モデルを選択する。 [27] because it is scalable and trivially parallelizable, making it ideal for large-scale experimentation. [27]スケーラビリティと並行して並列化できるため、大規模な実験には理想的です。 中心的なアイデアは、エージェントの現在の状態、すなわちエージェントの学習された順動力学の予測誤差を与えられたエージェントの行動の結果を予測する際の誤りとして、内在的な報酬を表現することである。 我々は、図1に示すビデオゲーム、物理エンジンシミュレーション、および仮想3Dナビゲーションタスクの54の環境にわたるダイナミクスに基づいた好奇心を徹底的に調査します。 0159>>1582018/08/27(月) 09:35:36.27ID:Zq8VRJ9K?2BP(0) 好奇心に基づいた学習をより深く理解するために、パフォーマンスを決定づける重要な要因についてさらに検討します。 特に、高次元の生の観測空間(例えば、画像)における将来の状態を予測することは困難な問題であり、最近の研究[27,42]に示されるように、補助的な特徴空間における学習のダイナミクスは改善された結果につながる。 しかしながら、そのような埋め込み空間をどのように選択すべきかは、重要であるが未だオープンな研究課題である。 体系的アブレーションを通じて、エージェントが自分の好奇心によって純粋に動くように、エージェントの観察をコード化するさまざまな方法の役割を調べます。 To ensure stable online training of dynamics, we argue that the desired embedding space should: (a) be compact in terms of dimensionality, ダイナミクスの安定したオンライントレーニングを確実にするために、我々は、所望の埋め込み空間が、(a)次元的にコンパクトであり、 (b) preserve sufficient information about the observation, and (c) be a stationary function of the observations. (b)観測に関する十分な情報を保持し、(c)観測の定常関数である。 私たちはランダムなネットワークを介して観測をエンコーディングすることは、多くの一般的なRLベンチマークで好奇心をモデル化するための単純で効果的な手法であることを示しています。 これは、多くの一般的なRLビデオゲームのテストベッドは、一般的に考えられているように視覚的に洗練されていないことを示唆するかもしれません。 興味深いことに、練習ではランダムな機能で十分なパフォーマンスが得られますが、学習した機能は一般的に良く見えます(たとえば、Super Mario Bros.の新しいゲームレベル)。 0160>>1592018/08/27(月) 09:36:10.49ID:Zq8VRJ9K?2BP(0) 要約すれば: (a) We perform a large-scale study of curiosity-driven exploration across a variety of environments including: (a)私たちは、好奇心に基づいた探査の大規模な研究を、 the set of Atari games [4], Super Mario Bros., virtual 3D navigation in Unity [1], multi-player Pong, and Roboschool [39] environments. Atariゲーム[4]、Super Mario Bros.、Unity [1]、マルチプレイヤーPong、Roboschool [39]環境での仮想3Dナビゲーション。 (b)ランダム特徴、画素、逆ダイナミクス[27]、変分オートエンコーダ[15]を用いて、ダイナミクスに基づいた好奇心を学習するための異なる特徴空間を広範囲に調査し、見えない環境への一般化を評価する。 (c)我々は、直接予測誤差に基づく好奇心の定式化のいくつかの限界について議論することによって結論づける。 エージェント自体が環境中の確率論の源であるならば、実際の進歩を伴わずに報酬を得ることができます。 エージェントが環境の異なる部分を制御する3Dナビゲーションタスクで、この制限を経験的に実証します。
観測xtを見て、xt + 1の観測で次の状態に移り、次の状態に遷移するエージェントを考えてみましょう。 私たちは、このエージェントを、移行がどれほど有益であったかという報酬と奨励したいと考えています。 この報酬を提供するために、我々は以下の要素を含む探査ボーナスを使用します: (a)観測値を表現φ(x)に埋め込むためのネットワーク、 (b)前回の観測と行動p(φ(xt + 1)| xt、at)に条件付けられた次の状態の表現を予測するフォワードダイナミクスネットワーク。 Given a transition tuple {xt,xt+1,at}, the exploration reward is then defined as rt = ? 遷移タプル{xt、xt + 1、at}が与えられると、探索報酬はrt =? log p(φ(xt+1)|xt,at), also called the surprisal [2]. log p(φ(xt + 1)| xt、at)は、驚くべき[2]とも呼ばれます。
この報酬を最大にするように訓練されたエージェントは、予測誤差が大きい遷移を優先します。これは、エージェントが短い時間を過ごした領域で、または複雑なダイナミクスを持つ領域で高くなります。 このようなダイナミクスを基盤とした好奇心はシナリオ全体にわたって非常によく実行されることが示されている[27]。特にダイナミクスが生の観測ではなく埋め込み空間で学習されている。 In this paper, we explore dynamics-based curiosity and use mean-squared error corresponding to a fixed-variance Gaussian density as surprisal, ie, f(xt,at) ? この論文では、ダイナミクスに基づく好奇心を探り、固定分散ガウス密度に対応する平均2乗誤差を驚くべきもの、すなわちf(xt、at)とする。 φ(xt+1)2 2 where f is the learned dynamics model. φ(xt + 1)2 2ここで、fは学習された力学モデルである。 しかし、他の密度モデルを使用することもできる。 0162>>1612018/08/27(月) 09:37:29.21ID:Zq8VRJ9K?2BP(0) 2.1 フォワードダイナミクスのための特徴空間 上記の好奇心の定式化におけるφの表現を考えてみよう。 φ(x)= xならば、フォワードダイナミクスモデルは観測空間で予測を行う。 特徴空間の良好な選択は、予測タスクをより扱い易くし、観測空間の無関係な側面を取り除くことができる。 しかし、ダイナミクスの好奇心を生み出すための優れた機能スペースは何になるでしょうか? 優れた機能スペースにはいくつかの特質があります。
次に、埋め込みネットワークφとして平均値への写像を用いることができる。 These features will be a low-dimensional approximately sufficient summary of the observation, これらの特徴は、観察の低次元の概ね十分な要約であり、 but they may still contain some irrelevant details such as noise, and the features will change over time as the VAE trains. ノイズなどの無関係な詳細が含まれている可能性があります。その機能は、VAEがトレーニングするにつれて変化します。
• 姫PO。 一般に、我々は、PPOアルゴリズム[38]が、ハイパーパラメータチューニングをほとんど必要としない頑強な学習アルゴリズムであることを見出したので、我々は実験に固執する。 • 正規化に報いる。 報酬関数は非定常であるので、価値関数が迅速に学習できるように報酬のスケールを正規化することは有用である。 これは、報酬を、割引報酬の合計の標準偏差の実行中の見積もりで除算することによって行いました。 •アドバンテージの正規化。 PPOで訓練している間に、平均値0と標準偏差1を持つバッチの利点[46]を標準化します。 • 観測の正規化。 私たちは目標環境上でランダムエージェントを10000ステップ実行し、観測の平均と標準偏差を計算し、それらを使用してトレーニング時の観測値を正規化します。 これは、初期化時のフィーチャのばらつきが小さく、環境によってばらつきが少ないことを確認するのに便利です。 •より多くの俳優。 使用される並列アクター(バッチサイズに影響する)の数を増やすことによって、メソッドの安定性が大幅に向上します。 私たちは通常、エージェントを訓練する間にデータ収集に同じ環境の128並列実行を使用します。 •機能を正規化する。 内在的報酬と外的報酬を組み合わせる際に、内在報酬の規模が国家空間全体で一貫していることを保証することが有用であることがわかった。 我々は、特徴埋め込みネットワークにおいてバッチ正規化[13]を用いることによってこれを達成した。 0166>>1652018/08/27(月) 09:40:16.21ID:Zq8VRJ9K?2BP(0) 2.3 `死は終わりではない ':無限の地平線との割引好奇心 1つの重要な点は、エピソード信号の終わり(時には「完了」と呼ばれる)を使用すると、実際の報酬機能に関する情報が漏れることが多いことです。 シグナルを取り除かなければ、Atariのゲームの多くは単純すぎるようになります。 For example, a simple strategy of giving +1 artificial reward at every time-step when the agent is alive and 0 on death is sufficient to obtain a high score in some games, 例えば、エージェントが生きているときにステップごとに+1の人工報酬を与えるという簡単な戦略は、いくつかのゲームで高い得点を得るには死亡時に0で十分ですが、 for instance, the Atari game ` Breakout ' where it will seek to maximize the episode length and hence its score. たとえば、エピソードの長さを最大化しようとするAtariゲームの「Breakout」とそれに伴うスコアです。 否定的な報酬の場合、エージェントはできるだけ早くエピソードを終了しようとします。
すべての実験では、ポリシーと埋め込みネットワークの両方がピクセルから直接的に機能します。 ハイパーパラメータやアーキテクチャなどの実装の詳細については、付録Aを参照してください。 別段の記載がない限り、すべての曲線は、異なる種子を用いた3回のランの平均であり、斜線領域は平均の標準誤差である。 私たちは、ウェブサイト上のすべての環境で遊ぶ純粋に興味のあるエージェントのコードとビデオをリリースしました2。 0169>>1682018/08/27(月) 09:43:35.46ID:Zq8VRJ9K?2BP(0) 3.1 外的報酬のない好奇心に基づいた学習外的報酬を使用せずに、多数の環境に対する純粋な好奇心に基づく学習を拡大することから始めます。 We pick a total of 54 diverse simulated environments, as shown in Figure 1, 図1に示すように、合計54の多様なシミュレーション環境を選択し、 including 48 Atari games, Super Mario Bros., 2 Roboschool scenarios (learning Ant controller and Juggling), Two-player Pong, 2 Unity mazes (with and without a TV controlled by the agent). Super Mario Bros.、Roboschoolシナリオ2(Ant Control and Jugglingを学ぶ)、Two-player Pong、2つのUnity mazes(エージェントによって制御されたテレビの有無にかかわらず)を含む48のAtariゲームを含みます。 この大規模分析の目的は、以下の質問を調査することです。 (a)外的な報酬なしに、さまざまなゲームで純粋な好奇心に基づいたエージェントを実行すると、実際にはどうなりますか? (b)あなたはこれらのエージェントからどのような行動を期待できますか? (c)ダイナミクスを基礎とした好奇心における異なる特徴学習の変種がこれらの行動に及ぼす影響は何か?
カーブから最初に気がつくのは、ほとんどが上がっていることです。 これは、純粋な好奇心に基づいたエージェントが、トレーニング中に外的報酬を使用しなくても外部報酬を得ることを学ぶことができることを示しています。 外的報酬もエピソード信号の終わりもないエージェントは、ある場合には外的報酬での学習に匹敵する得点を得ることを学ぶことができることは注目に値する。 たとえば、「ブレイクアウト」では、パドルをボールに当てて消えるレンガにボールを当てるとゲームスコアが上昇し、打撃を受けたときにポイントが与えられます。 ブリックがボールによって連続して打たれればするほど、レンガのパターンが複雑になり、エージェントはより掘り下げて探索することができます。したがって、ポイントをバイプロダクトとして収集します。 さらに、エージェントの寿命がなくなると、レンガは以前に何度もエージェントに見られた均一な構造に再びリセットされ、したがって非常に予測可能であるため、エージェントは死によってリセットされるのを避けることによって好奇心をそそるために生きている。 0171>>1702018/08/27(月) 09:47:25.16ID:Zq8VRJ9K?2BP(0) これは予期しない結果であり、多くの一般的なRLテストベッドでは外部報酬が必要ないことを示唆している可能性があります。 ry (similar to architects, urban planners, gardeners, etc.) are これはゲームデザイナー(建築家、都市計画家、庭師などに似ている)が very good at setting up curriculums to guide agents through the ry 好奇心のような目的は、多くの人間が設計した環境[6,12,16,48]の外的報酬とうまく一致しています。 しかし、これは必ずしもそうではなく、時には好奇心をそそるエージェントがランダムエージェントよりも悪い場合もあります。 これは、外的報酬がエージェントの探索とほとんど相関しない場合、またはエージェントが効率的に探索できない場合に発生します(図8のゲーム「Atlantis」、「IceHockey」を参照)。 我々はさらに、学習者のスキルをよりよく理解するために、ウェブサイト上で利用可能なエージェントのゲームプレイビデオを参照することを読者に推奨する。
驚くべきことに、ランダムフィーチャ(RF)は、タスク間でかなり良好に動作し、学習されたフィーチャを使用するよりも優れていることがあります。 優れたパフォーマンスの理由の1つは、ランダムなフィーチャがフリーズ(安定)していることです。ターゲットの定常性のために、それらの上で学習されたダイナミクスモデルの方が簡単です。 一般に、ランダムな特徴は、視覚的観察が十分に単純な領域ではうまくいくはずであり、ランダムな特徴は、例えばアタリゲームのような生の信号に関する十分な情報を保存することができる。 興味深いことに、ランダムな特徴はトレーニングではうまくいくが、IDFの学習した特徴はMario Brosでより一般化されているように見える(詳細はセクション3.2を参照)。 0172>>1712018/08/27(月) 09:48:05.66ID:Zq8VRJ9K?2BP(0) VAE法も良好に機能しましたが、やや不安定でしたので、RFとIDFを実験に使用することにしました。 The detailed result in appendix Figure 8 compares IDF vs. 付録の詳細な結果図8は、IDFと RF across the full Atari suite. フルアタリスイート全体のRF。 学習された行動を定量化するために、我々は好奇心旺盛なエージェントをランダムに行動するエージェントと比較した。 我々は、IDFに興味のあるエージェントが、Atariゲームの75%でランダムエージェントよりも多くのゲーム報酬を集めることを発見しました.RF好奇心旺盛なエージェントは70%でより良くなります。 さらに、IDFはゲームの55%でRFより優れています。 全体として、ランダムなフィーチャとインバース・ダイナミクスのフィーチャが一般的にうまく機能しまし 付録の詳細。
図3: (a)Left:MarioのRFメソッドと異なるバッチサイズの比較。 結果は外的報酬を使用しない。 (b)センター:ジャグリング(Roboschool)環境におけるボールのバウンス数。 (c)右:マルチプレイPong環境におけるエピソード長の平均。 The discontinuous jump on the graph corresponds to the agent reaching a limit of the environment - グラフ上の不連続なジャンプは、エージェントが環境の限界に達することに対応します。 after a certain number of steps in the environment the Atari Pong emulator starts randomly cycling through background colors and becomes unresponsive to agent 's actions 環境内の特定のステップ数の後で、Atari Pongエミュレータは背景色をランダムに循環し始め、エージェントのアクションに応答しなくなります 0174>>1732018/08/27(月) 09:49:49.73ID:Zq8VRJ9K?2BP(0) 図3(a)の128と2048の並列環境スレッドを用いた訓練の比較を示す。 グラフから明らかなように、2048パラレル環境スレッドを使用した大きなバッチサイズのトレーニングは、より優れたパフォーマンスを発揮します。 実際には、エージェントはもっと多くのゲームを探索することができます。ゲームの11のレベルを発見し、秘密の部屋を見つけ、上司を倒すことができます。 この大規模実験のポイントは、サンプル効率についての主張ではなく、エージェントのトレーニングに関するパフォーマンスであるため、図のx軸はフレーム数ではなく、グラジエントステップ数です。 この結果は、基本的なRLアルゴリズム(この場合はPPO)のトレーニングが向上するにつれて、純粋に好奇心に基づくエージェントのパフォーマンスが向上することを示しています。 ビデオはウェブサイトにあります。 0175yamaguti2018/08/27(月) 09:53:04.76ID:Zq8VRJ9K?2BP(0) http://google.jp/?q=2ch+future+furou+cyouju+OR+tokuiten0176>>1742018/08/27(月) 09:53:40.98ID:Zq8VRJ9K?2BP(0) C)ロボスジャグリング 私たちはRoboschoolフレームワークからPong環境を修正して、1つのパドルと2つのボールを持つようにしました。 アクション空間は2次元で連続しており、アクション空間を次元ごとに5ビンに離散化し、合計25のアクションを与えました。 ポリシーネットワークと埋め込みネットワークの両方は、ピクセル観測空間で訓練されています(注:状態空間ではありません)。 この環境は、ゲームで使用される玩具物理学よりも制御が難しいですが、代理人は、ボールがその領域に入ったときに、ボールを傍受して打つことを学びます。 図3(b)に示すように、環境との相互作用のプロキシとしてボールのバウンス回数を監視しました。 プロジェクトのウェブサイトのビデオを参照してください。
E)2人用ポンでのマルチエージェントの好奇心 私たちは既に、純粋に好奇心に基づいたエージェントが報酬なしでいくつかのアタリゲームを学ぶことを知っていますが、その対戦相手がハードコーディングされた戦略を持つコンピュータエージェントであることが原因です。 両方のチームが互いに対して好奇心を持って遊ぶようにするとどうなりますか? 調べるには、ゲームの両面(パドルのパドル)が好奇心に基づいたエージェントによって制御されているTwo-player Pongゲームを行います。 エージェントの初期レイヤーを共有し、異なるアクションヘッドを持ちます。つまり、合計アクションスペースは、プレイヤー1のアクションとプレイヤー2のアクションのクロスプロダクトです。 0177>>1762018/08/27(月) 09:54:39.20ID:Zq8VRJ9K?2BP(0) エージェントが両面をプレイしているので、この文脈では外的報酬は無意味なので、代わりにエピソードの長さを示します。 結果を図3(c)に示す。 We see from the episode length that the agent learns to have more and longer rallies over time, learning to play pong without any teacher ? エピソードの長さから、エージェントが時間の経過と共にますます長くなる集会を学び、先生なしでポンをすることを学びます。 purely by curiosity on both sides. 純粋に両側の好奇心によって。 実際には、ゲーム集会は最終的には非常に長くなり、Atariエミュレータを破り、色が急激に変化し、プロットに示すようにポリシーがクラッシュします。
Sparse reward setting: In preliminary experiments, we picked 5 Atari games which have sparse rewards (as categorized by [3]), and compared extrinsic (classic RL) vs. 疎な報酬設定:予備実験では、疎な報酬([3]で分類される)を持つ5つのAtariゲームを選び、外的(古典的なRL)vs. extrinsic+intrinsic (ours) reward performance. 外因性+内在性(私たちの)報酬のパフォーマンス。 5つのうち4試合では、好奇心のボーナスによりパフォーマンスが向上します(付録の表2を参照してください)。 これは本書の焦点ではないことを強調したいと思います。これらの実験は完全性のために提供されています。 外因性(係数1.0)と内因性報酬(係数0.01)を調整することなく直接結合しました。 私たちは、内在的報酬と内在報酬を将来の方向性として最適に組み合わせる方法について質問を残します。 0182>>1812018/08/27(月) 09:58:05.09ID:Zq8VRJ9K?2BP(0) 4 関連作業
本質的な動機づけ: A family of approaches to intrinsic motivation reward内在的なモチベーション報酬へのアプローチのファミリー an agent based on prediction error [2, 27, 36, 42], prediction uncertainty [11, 44], or improvement [19, 34] of a forward dynamics model of the environment that gets trained along with the agent 's policy. エージェントの方針とともに訓練された環境のフォワードダイナミクスモデルの予測誤差[2,27,36,42]、予測不確実性[11,44]、または改善[19,34]に基づくエージェント。 A family of approaches to intrinsic motivation reward an agent based on prediction error , prediction uncertainty , or improvement of a forward dynamics model of the environment that gets trained along with the agent 's policy. 内在的動機づけへのアプローチの一群は、予測誤差、予測不確実性、またはエージェントの方針とともに訓練される環境の順動力学モデルの改善に基づいてエージェントに報酬を与える。 その結果、フォワードダイナミクスモデルの予測が困難な領域にエージェントが移動し、モデルはこれらの領域の予測を改善します。 この敵対的および非定常的な力学は複雑な挙動を引き起こす可能性がある。 この分野では、外部報酬が存在しない純粋な探査環境では、ほとんど進んでいません。 Of these mostly closely related are those that use a forward dynamics model of a feature space such as Stadie et al. これらの大部分は、Stadieらのような特徴空間の順動力学モデルを使用するものである。 [42] where they use autoencoder features, and Pathak et al. [42]オートエンコーダー機能を使用する場所、Pathak et al。 [27] where they use features trained [27]訓練された機能を使用する場所 逆動力学の仕事で。 これらは、セクション2.1で詳述されているVAEとIDFメソッドにほぼ対応しています。 0183>>1822018/08/27(月) 09:58:40.51ID:Zq8VRJ9K?2BP(0) 内在的な報酬には、州訪問回数の平滑化されたバージョンを使用することができる[3,9,24,47]。 Count-based methods have already shown very strong results when combining with extrinsic rewards such as setting the state of the art in the Atari game Montezuma 's Revenge [3], カウントベースの方法は、AtariのゲームMontezuma's Revenge [3]で最新の状態を設定するなどの外的な報酬と組み合わせると、非常に強力な結果を示しています。 and also showing significant exploration of the game without using the extrinsic reward. また、外的報酬を使用せずにゲームの重要な探索を示しています。 カウントベースのアプローチがダイナミクスベースのアプローチよりも好まれるべきである状況はまだ明確ではない。このペーパーでは、ダイナミクスベースのボーナスに重点を置くことを選択しました。 私たちの予備実験では、既存のカウントベースの実装では大規模な研究のためのスケールアップで十分な成功を収めていませんでした。
外的報酬や適性機能のない学習は、進化的コンピューティングでも広く研究されており、「新規性検索」と呼ばれている[17,18,43]。 そこでは、イベントの新規性は、距離を計算するためにイベントのいくつかの統計を使用して、以前のイベントの間で最も近い隣にイベントの距離として定義されることが多い。 この文献からの興味深い発見の1つは、多くの場合、フィットネスのためだけに最適化する以外には、はるかに興味深い解決策を見つけることができるということです。 0184>>1832018/08/27(月) 10:04:22.65ID:Zq8VRJ9K?2BP(0) Other methods of exploration are designed to work in combination with maximizing a reward function, such as those utilizing uncertainty about value function estimates [5, 23], or those using perturbations of the policy for exploration [8, 29]. 他の探査方法は、価値関数推定値に関する不確実性を利用する報酬関数や探索のための方針の摂動を用いる報酬関数などの報酬関数を最大化することと組み合わせて機能するように設計されている[8]、[29]。 Schmidhuber [37]とOudeyer [25]、OudeyerとKaplan [26]は、内在的動機づけへのアプローチに関する初期の研究のいくつかについて素晴らしいレビューを提供する。 0185>>1842018/08/27(月) 10:04:55.85ID:Zq8VRJ9K?2BP(0) Alternative methods of exploration include Sukhbaatar et al. 探査の代替方法には、Sukhbaatar et al。 [45] where they utilize an adversarial game between two agents for exploration. [45]彼らは探索のために2つのエージェントの間で敵対的なゲームを利用する。 In Gregor et al. Gregor et al。 [10], they optimize a quantity called empowerment which is a measurement of the control an agent has over the state. [10]、エージェントはエンパワーメントと呼ばれる量を最適化します。これは、エージェントがその状態を超えた制御の測定値です。 In a concurrent work, diversity is used as a measure to learn skills without reward functions Eysenbach et al. 並行作業では、報酬機能なしにスキルを習得するための手段として多様性が使用されます。Eysenbach et al。 [7]. [7]。 0186>>1852018/08/27(月) 10:06:03.78ID:Zq8VRJ9K?2BP(0) ランダムな特徴: この論文の発見の1つは、ランダムな特徴の驚くべき有効性であり、ランダム投影法およびより一般的にはランダムに初期化されたニューラルネットワークに関する著しい文献がある。 Much of the literature has focused on using random features for classification [14, 33, 49] where the typical finding is that whilst random features can work well for simpler problems, 文献の多くは、分類のためにランダムな特徴を用いることに焦点を当てている[14,33,49]。典型的な発見は、ランダムな特徴がより簡単な問題のためにうまくいく一方、 feature learning performs much better once the problem becomes sufficiently complex. 問題が十分に複雑になると、フィーチャラーニングははるかに良好に機能します。 literature has focused on using random features for classification where the typical finding is that whilst random features can work well for simpler problems, feature learning performs much better once the problem becomes sufficiently complex. 文献では、ランダムな特徴がより単純な問題に対してはうまくいくが、問題の学習がはるかに良好になるという典型的な発見がある場合、分類にランダムな特徴を用いることに集中している。 このパターンがダイナミクスに基づく探索にも当てはまると期待していますが、学習したフィーチャがMario Brosの斬新なレベルでより一般化するように見える予備的な証拠があります。
[2] J. AchiamおよびS. Sastry。 深い強化学習のためのサプライズベースの内的動機。 arXiv:1703.01732,2017。3,9 [3] M. Bellemare、S. Srinivasan、G. Ostrovski、T.Schaul、D. Saxton、およびR.Munos。 カウントベースの探索と固有のモチベーションの統一。 NIPSでは、2016年1月9日 [4] MG Bellemare、Y. Naddaf、J. Veness、およびM. Bowling。 アーケード学習環境:一般エージェントの評価プラットフォーム。 Journal of Artificial Intelligence Research、47:253279、jun 2013. 2 [5] RY Chen、J. Schulman、P. Abbeel、およびS. Sidor。 q-ensembles.arXiv:1706.01502、2017.によるUCBとインフォゲイン探査 [6] G. Costikyan。 ゲームの不確実性。 Mit Press、2013. 6、10 [7] B. Eysenbach、A. Gupta、J. Ibarz、およびS. Levine。 ダイバーシティはあなたが必要とするすべてです:報酬機能のない学習スキル。 arXivプレプリント、2018 [8] M. Fortunato, MG Azar, B. Piot, J. Menick, I. Osband, A. Graves, V. Mnih, R. Munos, D. Hassabis, O. Pietquin, C. Blundell, and S. Legg. M. Fortunato、MG Azar、B. Piot、J. Menick、I. Osband、A. Graves、V. Mnih、R. Munos、D. Hassabis、O. Pietquin、C. Blundell、およびS. Legg 。 探査のための騒々しいネットワーク。 arXiv:1706.10295,2017。9 [9] J. Fu、JD Co-Reyes、およびS. Levine。 EX2:深層強化学習のための模範モデルによる探査。 NIPS、2017. 9 [10] K. Gregor、DJ Rezende、およびD. Wierstra。 バリアント固有制御。 ICLRワークショップ、2017年9月 [11] R. Houthooft, X. Chen, Y. Duan, J. Schulman, F. De Turck, and P. Abbeel. R. Houthooft、X. Chen、Y. Duan、J. Schulman、F. De Turck、およびP. Abbeel。 Vime:探索情報を最大化する変分情報。 NIPSでは、2016年1月9日 [12] R. Hunicke、M. LeBlanc、およびR. Zubek。 Mda:ゲーム設計とゲーム研究への正式なアプローチ。 ゲームAIにおける課題に関するAAAIワークショップ(2004年6月10日) [13] S.IoffeおよびC.Szegedy。 バッチ正規化:内部共変量シフトを減らすことにより、深いネットワークトレーニングを加速します。 arXiv preprint arXiv:1502.03167,2015 4 0192>>1912018/08/27(月) 10:12:16.58ID:Zq8VRJ9K?2BP(0) [14] K. Jarrett、K. Kavukcuoglu、Y. LeCun、et al。 オブジェクト認識のための最善のマルチステージアーキテクチャとは何ですか? IEEE, 2009. 9コンピュータビジョン、2009年IEEE第12回国際会議、21462153ページ、IEEE、2009. 9 [15] DP KingmaとM. Welling。 変分ベイズの自動エンコーディング。 arXiv preprint arXiv:2013年2月3日、1312.6114 [16] N. Lazzaro。 ゲームをする理由: プレイヤーの経験でより多くの感情への4つの鍵。 Proceedings of GDC、2004. 6、10 [17] J. LehmanおよびKO Stanley。 新規性の探索を通じて問題を解決するためのオープンエンド性の活用。 ALIFE、2008. 9 [18] J.リーマンとKOスタンレー。 放棄する目的:進化だけで斬新さの探索。 進化的計算、2011. 9 [19] M. Lopes、T. Lang、M. Toussaint、およびP.-Y. Oudeyer. Oudeyer。 経験的に学習進展を推定することによるモデルベースの強化学習の探索。 NIPS、2012. 9 [20] M. Lopes、T. Lang、M. Toussaint、およびP.-Y. Oudeyer。 経験的に学習進展を推定することによるモデルベースの強化学習の探索。 NIPS、2012. 1 [21] V. Mnih、K. Kavukcuoglu、D. Silver、AA Rusu、J. Veness、MG Bellemare、A. Graves、M. Riedmiller、AK Fidjeland、G. Ostrovski、et al。 深層強化学習による人間のレベルの制御。 Nature、2015、1 [22] S。モハメドとDJ Rezende。 本質的に動機付けされた強化学習のための変分情報の最大化。 NIPSでは、2015年1月 [23] I. Osband、C. Blundell、A. Pritzel、およびB. Van Roy。 ブートストラップdqnによる深い探査。 NIPS、2016年9月 [24] G. Ostrovski、MG Bellemare、A.vd Oord、およびR.Munos。 神経密度モデルを用いたカウントベースの探索。 arXiv:1703.01310,2017。1,9 [25] P.-Y. Oudeyer。 好奇心に基づく学習の計算理論。 arXiv preprint arXiv:1802.10546、2018. 9
11
Page 12 0193>>1922018/08/27(月) 10:12:55.87ID:Zq8VRJ9K?2BP(0) [26] P.-Y. Oudeyer and F. Kaplan。 内在的な動機は何ですか? 計算上のアプローチの類型。 ニューロロボティクスの最前線、2009年1月9日 [27] D. Pathak, P. Agrawal, AA Efros, and T. Darrell. D.Patak、P. Agrawal、AA Efros、およびT. Darrell。 自己監視予測による好奇心に基づく探索。 ICMLでは、2017年1月2日、3日、4日、6日、9日 [28] D. Pathak, P. Mahmoudieh, G. Luo, P. Agrawal, D. Chen, Y. Shentu, E. Shelhamer, J. Malik, AA Efros, and T. Darrell. D. Pathak、P. Mahmoudieh、G. Luo、P. Agrawal、D. Chen、Y. Shentu、E. Shelhamer、J. Malik、AA Efros、およびT. Darrell。 ゼロショットの視覚的模倣。 ICLR、2018.1 [29] M.Plappert、R.Houthooft、P.Dhariwal、S.Sidor、RYChen、X.Chen、T.Asfour、P.Abbeel、およびM. Andrychowicz。 探索のためのパラメータ空間雑音。 arXiv:1706.01905,2017。9 [30] P. Poupart、N. Vlassis、J. Hoey、およびK. Regan。 離散ベイジアン強化学習の解析的解。 ICML、2006. 1 [31] DJ Rezende、S.Mohamed、およびD.Wierstra。 深い生成モデルにおける確率的逆伝播と近似推論。 arXiv preprint arXiv:1401.4082、2014。3 [32] EL Ryan、Richard; Deci。 内在的および外的な動機:古典的定義と新しい方向性。 現代教育心理学、2000. 1 [33] AM Saxe, PW Koh, Z. Chen, M. Bhand, B. Suresh, and AY Ng. AM Saxe、PW Koh、Z. Chen、M. Bhand、B. Suresh、およびAY Ng。 ランダムウェイトと教師なしの特徴学習。 ICML、10891096ページ、2011年。 0194>>1932018/08/27(月) 10:13:33.41ID:Zq8VRJ9K?2BP(0) [34] J. Schmidhuber. 。 奇妙なモデル構築制御システム。 Neural Networks、1991年、IEEE国際共同会議、14581463ページ、IEEE、1991. 9 [35] J. Schmidhuber。 モデル構築のニューラルコントローラに好奇心と退屈を実現する可能性。 動物から動物へ:適応行動のシミュレーションに関する第1回国際会議の議事録、1991. 1 [36] J. Schmidhuber。 モデル構築のニューラルコントローラに好奇心と退屈を実現する可能性、1991. 9 [37] J. Schmidhuber。 創造性、楽しい、そして本質的な動機づけの公式理論(19902010)。 自律的精神発達に関するIEEEの取り組み、2010. 9 [38] J. Schulman、F. Wolski、P. Dhariwal、A. Radford、およびO. Klimov。 近接ポリシー最適化アルゴリズム。 arXiv preprint arXiv:1707.06347, 2017. 4 arXiv preprint arXiv:1707.06347,2017 [39] J. Schulman、F. Wolski、P. Dhariwal、A. Radford、およびO. Klimov。 近接ポリシー最適化アルゴリズム。 arXiv preprint arXiv:1707.06347、2017. 2 [40] SP Singh、AG Barto、N. Chentanez。 本質的に動機付けられた強化学習。 NIPSでは、2005年1月 [41] L.スミスとM.ガッサー。 具体的な認知の発達:赤ちゃんからの6回のレッスン。 人工生命、2005年1月 [42] BC Stadie、S。Levine、およびP. Abbeel。 深い予測モデルによる強化学習の探求を促進する。 NIPSワークショップ、2015年.2,9 [43] KO StanleyおよびJ. Lehman。 なぜ偉大さが計画できないのか:目的の神話。 Springer、2015。9 [44] S. StillおよびD. Precup。 An information-theoretic approach to curiosity-driven reinforcement learning. 好奇心に基づく強化学習への情報理論的アプローチ。 Theory in Biosciences, 2012. 9バイオサイエンス理論、2012. 9 [45] S. Sukhbaatar, I. Kostrikov, A. Szlam, and R. Fergus. [45] S. Sukhbaatar、I. Kostrikov、A. Szlam、およびR. Fergus。 Intrinsic motivation and automatic curricula via asymmetric self-play. 内在的な動機づけと、非対称セルフプレイによる自動カリキュラム。 In ICLR, 2018. 9 ICLR、2018年9月 0195>>1942018/08/27(月) 10:14:07.88ID:Zq8VRJ9K?2BP(0) [46] RS Sutton and AG Barto. [46] RS SuttonおよびAG Barto。 Reinforcement learning: An introduction. 強化学習:導入。 MIT press Cambridge, 1998. 4 MITプレスケンブリッジ、1998。4 [47] H. Tang, R. Houthooft, D. Foote, A. Stooke, X. Chen, Y. Duan, J. Schulman, F. De Turck, and P. Abbeel. H. Tang、R.Houthooft、D.Foote、A.Stooke、X.Chen、Y.Duan、J.Schulman、F.De Turck、およびP. Abbeel。 #Exploration:深層強化学習のためのカウントに基づく探索の研究。 神経情報処理システムの進歩、2017. 9 [48] P. Wouters、H. Van Oostendorp、R. Boonekamp、およびE. Van der Spek。 バックストーリーと予兆を実装することで、魅力的で効果的な真剣なゲームを作成する際のゲームの談話分析と好奇心の役割。 コンピュータとの交流、2011年6月、10 [49] Z. Yang, M. Moczulski, M. Denil, N. de Freitas, A. Smola, L. Song, and Z. Wang. Z. Yang、M. Moczulski、M. Denil、N. de Freitas、A. Smola、L. Song、およびZ. Wang。 ディープフライドコンベット。 In Proceedings of the IEEE International Conference on Computer Vision, pages 14761483, 2015. 9 IEEEビジョンに関するIEEE国際会議予稿集、14761483、2015。
Inverse Dynamics features ? 逆動力学の特徴 ランダムエージェント Random CNN features ? ランダムCNN機能
図8: 48個のAtariゲームで、純粋な好奇心に基づいた探索(外的報酬もエピソード終了信号もない)。 私たちは、外的帰還やエピソード信号の終わりにアクセスできないエージェントにもかかわらず、好奇心に基づくエージェントの外的帰還がしばしば増加することを観察します。 In multiple environments, 複数の環境では、 the performance of the curiosity-driven agents is significantly better than that of a random agent, although there are environments where the behavior of the agent is close to random, or in fact seems to minimize the return, rather than maximize it. エージェントの行動がランダムに近いか、実際には最大限にするのではなく、リターンを最小限に抑えるような環境が存在するにもかかわらず、好奇心に基づいたエージェントのパフォーマンスはランダムエージェントのパフォーマンスよりも大幅に優れています。 大部分の訓練プロセスでは、RFは環境の約67%でランダムエージェントよりも優れていますが、IDFは環境の約71%でランダムエージェントよりも優れています。 0200>>1992018/08/27(月) 10:17:54.98ID:Zq8VRJ9K?2BP(0) Reward Gravitar Freeway Venture PrivateEye MontezumaRevenge ? Gravitar Freewayベンチャーに報酬を与えるPrivateEye Montezuma Revenge Ext Only 999.3±220.7 33.3±0.6 0±0 5020.3±395 1783±691.7 Ext + Int 1165.1±53.6 32.8±0.3 416±416 3036.5±952.1 2504.6±4.6
メモリー検索の依存性 ? いくつ ry では、セマ ry から情報を取 ry リが以前に短時間アクセスされた場合に短 ry ことが示 ry 。 情報をセマンティックカテゴリから取得する時間が、そのカテ がもしも短時間前にアクセスされていた場合 短縮される事が、いくつかの研究では示され ます ? たとえば、Collins ry は、「 ry 」などの質 ry。 Collins and Quillian(1970)は、例えば、「カナリアは鳥 か?」といった質問に答えるのに必要な時間を示しています 前回のトライアルでカナリアに関する情報にアクセスした場合、600ミリ秒も減 。 多少異なるパラダイムを使用して、マイヤーとシュヴァネヴェルト(マイヤー&シュヴァネヴェルト、1971年;メイヤー、シュヴァネヴェルト&ラディ、1972年、シュ &メ 、1973年;メ 、1973年)は同じことを示しています これらの実験では、Sは文字列を単語または非単語として分類 要 ? 一般的な発見は、Sが意味的に類似していない単語とは対照的に3つの意味的に類似した単語を分 ry り速い ry 。 そこでの一般的発見は、意味的非類似なとは対照的な意味的類似な 3 単語それらを被験者が単に分類した場合、文字列を単語として分類する反応時間はより早い こと したがって、 、「バター」の前に「パン」が付いている場合は、「ナース」が前にある場合よりも、「バター」を単語として分類 時間が速
このような結果を処理 ために、2つの一般的なクラスのモデルが提案されています ロケーションシフトモデル(Meyer&Schvaneveldt、1971)は、Sが特定のカテ のメンバーの処理を終了し、次にシフトして2番目のカテ の処理を開始する必要 場合、シフト時間は2つのカテ 間の意味的距離に依存すると想定 。 ? 一方、 ィブ化モデルは、カテ ry 、処 ry 的に類 ry 他のア が「興奮」または「 ィブ化」されるこ ry 。 アクティべーションモデルは、一方、カテ 内のアイテムが処理されるときに、その処理される情報と意味的類似している範囲で、他アイテムが「興奮化」または「アクティべート」される ことを前提とし ます さらに2つの想定が行われます。1つ目(Warren、1970年)は、アクティブ化が時間とともに減衰すること、2つ目は、 ィブ化されたアイテムは非アクティブ化されたアイテムよりも容易にアクセスできること 。 0222オーバーテクナナシー2021/09/05(日) 16:13:54.52ID:A+t1x18S 本実験の結果は、Meyer et al(1972)とLoftus(1973)のデータと合わせて、位置シフトモデルを非承認にし、活性化モデルをサポート 。 ? ry な比 ry 。 これらすべての実験には、次のような各比較が含まれます ? Tが、処理される時間が対象の従 数であるター 報を表す ry 。 処理時間を対象従属変数としたターゲット情報を T が表すとします ? Rが意味的にTに関 ry が意味的にTに関連 ry 表すようにします。 T に意味的関連する情報をR が表し、最後にU1とU2が T に意味的関連しない情報を表すとします ? 次の3つの条件を検討してください。 ここで 3 条件を検討します :