さらに、bAbIおよびLAMBADAのテキスト理解データセットでは、ユニバー ォーマーは新しい技術水準を達成しています。


2モデル

? 2.1ユニバーサルトランス
2.1 ユニバーサルトランスフォーマ

 
     各入力シンボル   マルチヘッド
入力 ──→ の  ──━→ 自己アテンション ━→ 変遷関数 ┓ 再帰
シーケンス   埋込   ↑                ┃ エンコーダ
            ┗━━━━━━━━━┳━━━━━━┛  のブロック
         For T ステップ数     ┃
                       ┃ T ステップ経過後
標的    各標的シンボル   マルチヘッド   ↓
シーケンス → の埋込 ─━━→ 自己 ━━→ マルチヘッド ━┓ 再帰
( 1 ずつ         ↑   アテンション  アテンション  ┃ デコーダ
右シフト  For    ┃                 ↓  のブロック
される )    T ステップ数 ┗━━━━━━━━━┳━━━ 変遷関数
                      ┃
確率出力 ←─ Softmax ←━━━━━━━━━━┛ T ステップ経過後


? ry Transformerのエンコーダ ry の反復ブロック
図2 : Universal Transformer エンコーダとデコーダの再帰ブロック
? この図は ry ステップ符号化、 ry 接続および層正規 ry 。
このダイアグラムわ、位置およびタイムステップエンコーティング、ならびにドロップアウト、残差接続およびレイヤ正規化を省略している。
付録に完全版があります。
? Adaptive Universal Transformerは、ACT ry て各位置のステップ数Tを動 ry 。
各位置に付いてのステップ数 T を適応的ユニバーサルトランスフォーマわ、 ACTを使用して動的に決定します