0034山口
2022/02/19(土) 01:29:20.80ID:WlivQtjM2モデル
? 2.1ユニバーサルトランス
2.1 ユニバーサルトランスフォーマ
各入力シンボル マルチヘッド
入力 ──→ の ──━→ 自己アテンション ━→ 変遷関数 ┓ 再帰
シーケンス 埋込 ↑ ┃ エンコーダ
┗━━━━━━━━━┳━━━━━━┛ のブロック
For T ステップ数 ┃
┃ T ステップ経過後
標的 各標的シンボル マルチヘッド ↓
シーケンス → の埋込 ─━━→ 自己 ━━→ マルチヘッド ━┓ 再帰
( 1 ずつ ↑ アテンション アテンション ┃ デコーダ
右シフト For ┃ ↓ のブロック
される ) T ステップ数 ┗━━━━━━━━━┳━━━ 変遷関数
┃
確率出力 ←─ Softmax ←━━━━━━━━━━┛ T ステップ経過後
? ry Transformerのエンコーダ ry の反復ブロック
図2 : Universal Transformer エンコーダとデコーダの再帰ブロック
? この図は ry ステップ符号化、 ry 接続および層正規 ry 。
このダイアグラムわ、位置およびタイムステップエンコーティング、ならびにドロップアウト、残差接続およびレイヤ正規化を省略している。
付録に完全版があります。
? Adaptive Universal Transformerは、ACT ry て各位置のステップ数Tを動 ry 。
各位置に付いてのステップ数 T を適応的ユニバーサルトランスフォーマわ、 ACTを使用して動的に決定します