? ry s o f t m a x ( ry ( Q 、 K 、 V ) = s o f t m a x ( Q K T√d ) V ) V (1) A t t e n t i o n ( Q , K , V ) = s o f t m a x ( Q K T / √ d ) V (1)
ここで、 dはQ 、 K 、 Vの列数です。 ? 私たちは、 ( トランスフォーマー ) ry れたように、kヘッドのマ ry ョンを使用します。 我々が使うのわ, ( トランスフォーマ , )で導入されたものとしての,ヘッド k 個なマルチヘッドバージョンであり,
M u l t i H e a d S e l f A t t e n t i o n ( H ) = C o n c a t ( h e a d 1 、 ... 、 h e a d k ) W O (2) ? ry H )とは、 = C o n c a t ( ここで h e a d i = A t t e n t i o n ( H W Q i 、 H W K i 、 H W V i ) (3) ? どこで
? 学 ry 行列W Q ry W O∈R d ラ dを用いた ry 影を用いる。 それわ,学習されたパラメータ行列各々, W Q∈R d ラ d / k 、 W K∈R d ラ d / k 、 W V∈R d ラ d / kおよびW O∈R d ラ d ,を用いたアフィン射影を伴っている。 ステップtにおいて、ユニバーサルトランスフォーマは、以下のように、すべてのm個の入力位置についての修正された表現H t∈R m ラ dを計算する 0093山口2022/03/17(木) 07:04:40.54ID:LcgWH/dO H t = L a y e r N o r m ( A t - 1 + Transition ( A t ) ) (4) ? T r a n s i t i n ここで, A t = L a y e r N o r m ( Ht - 1 + M u l t i H e a d S e l f A t t e n t i o n ( H t - 1 + P t ) ) である。 (5) ? ry w h e r e e ある ry H t ? 1 ry ) )であり 、ここで、 H t - 1 + M u l tは 、
ここでLayerNorm()は( layernorm2016 )で定義され、Transition()とP tは以下で説明します。 ? ry じて、分 ry )または2つのアフィ 換間の単一整流線形活性化関数からなる完全連結ニュー ークの2 ry 1つを使用します。 A t ry に個別に割り当てる 。 タスクに応じて, 2つの異なる遷移関数の1つを我々わ使用します : 分離可能な畳み込み( xception2016 )か、アフィン変換 2 つの間の単一正規化線形アクティベーション関数からなる所のフル連結なニューラルネットワークか ,のどちらか。ポジションワイズで、つまり個別に A tの各行に、適用され ( てい ) る 。
? ry P tは、各 ry ついて位置 ry tについて( トランス 、 ) ry れたような正弦波位置 ry ゙クトルを計算 ry 得られた2 ry ごとに( ?で示される): 上記のP tは,( トランスフォーマ , )で定義されたものとしての Sin 関数 ( ? 訳注 : ベクトルを堅実に再帰精練 http://qiita.com/omiita/items/07e69aef6c156d23c538#1.3.5 ) 的 ( な ) 位置埋め込み ( な ) ベ レ群 ( 原文 : the sinusoidal position embedding vectors as ) を各ベ レ次元jについて、位置mおよび時間ステップtについての単離状態,で計算することによって得られた, 2次元(位置、時間) 座標埋め込みであり、これらのベ レは成分ごとに加算( (+) で示す ( 原文 : 丸付 記号 ) ):
P t p o s 、 2 j = sin ( pos / 10000 2 j / d ) (+) sin ( t / 10000 2 j / d ) (6) ? ry p 0 s ry +ry P t p o s 、 2 j + 1 = cos ( pos / 10000 2 j / d ) (+) cos ( t / 10000 2 j / d )である 。 (7) ? ry p 0 s ry +ry 0094山口2022/03/17(木) 07:06:29.77ID:LcgWH/dO ? ry れぞれが入 ry を並列に精 ry のd ry 行列である。 T個のステップ(それぞれが並列同時並行で,入力シーケンスのすべての位置を精緻化する)の後、ユニバー ォーマエンコーダの最終出力は、入力シー スのm個のシンボルについての, d次元ベクトル表現H T∈R m ラ dの行列 1 つである
? ry 本反復構 ry 。 デコーダは、エンコーダの同じ基本再帰構造を共有する。 ? ry 、自己ア ョン機能の後に、デ ゙は、式2からの同じ ry 積注意機能を使用 ry ーダを投 ry れたクエリQを用いて、入力 ry 的なエンコー ry Tに追加的に関与する(この ry 的な注意に ry )のキー ry V )が含まれています。 しかしながら,その自己アテンション関数の後に,デコーダわ,入力シーケンス内の各位置の最終的エンコーダ表現H T ゑの手回しをも追加的に行うにその同じマルチヘッドドット積アテンション関数を式 2 から使用するが ,デコーダ表現群を投影して得られた所のクエリ群 Q と,そしてエンコーダ表現群を投影(このプロセスは標準的アテンションに似ている( bahdanau2014neural 、 ) )して得られた所のキーと値( KとV )と,を伴う。
トランスフォーマーモデルと同様に、ユニバー ォーマーは自己回帰型です( graves2013generating 、 ) 。 ? 教師強制をを用いて訓練され、生成時にデコーダは出力を1シ レずつ生成し、デ ゙は以前に生成は以前に生成された出力位置を消費する。 Teacher Forcing を用い,生成時に於ては出力を一度に 1 シンボル生成し,それに伴って前回生成分の各出力位置をデ ゙が消費する,との訓練がなされる。 ? ry中に、デ ゙の入力は目標出力であり、1つの位置だけ右にシ れる。 訓練中,デコーダ入力わ,ポ ョン 1 つ分だけ右シフトされる所の標的出力である。 ? ry 、モデルが任意の予測されたシ レの左の位置にのみ関わるこ ry に、 ry 。 デコーダの自己ア ョン分布は、任意の予測されたシンボルの左の位置にのみモデルが関わる ( 原文 : attend ) ことができるように ( する為に ) 、さらにマスクされる。 ? ry 、シン ry の目標分布は、最終 ry から出力 ry 出力行列を正規化したs ry 得られるその行の上に: 0095山口2022/03/17(木) 07:11:13.98ID:LcgWH/dO 最後に、そのシンボル当たりの標的分布わ,その最終デコーダ状態からその出力語彙サイズVへのアフィン変換O∈Rd ラ Vを適用し、その後に( m ラ V )次元出力行列各行正規化な softmaxを適用することによって得られる:
p ( y p o s | y [ 1 : p o s - 1 ] , H T ) = s o f t m a x ( O H T ) *1 (8) ? ry p o s ? 1 ry h e r e d e n o t e s t i m e ? s t e p ry \ lx n(nは 自然 数 ) o $ t $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ & $ & $ e o p e r a t i o n 。
*1 ここでの T わ,転置演算 ( 原文 : transpose operation ) ではなく、タイムステップTを表すことに注意してくださ ? ry のRは、 ry 。
モデルから生成するために、エンコーダは調整入力シー ス ( 原文 : the conditioning input sequence ) 用に1回実行されます。 ? 次 ry され、既 ry された ry 費し、反復ごとに次 ry 置にあるシ レのボキャ リに1 ry 布を生成する。 その次に、デコーダは繰り返し実行されるが,追加の分布 1つの生成をボキャブラリに亘っての次の出力位置に於けるシンボルの為に反復毎にし続けつつ,既に生成されていたシ レを全て消費する。 ? ry typically select the highest probability symbol as ry ? 次に、典 には、最も高い確 ry を次のシ レとして選択する。
次に我々わ,次のシ レとして,最高確率のシ レを,典型的にわ選択する ( ⇔ を,典型的な選択肢とする , を,選択 ( 肢と ) する事が典型的である : 訳注 ) 0096山口2022/03/17(木) 07:15:40.70ID:LcgWH/dO ? ry トランス 2.2 適応型ユニバーサルトランスフォーマ シーケンス処理システムでは、特定の記号(例えば、いくつかの単語または音素)は、通常、他の記号よりもあいまいである。 したがって、これらのより曖昧なシンボルに、より多くの処理リソースを割り当てることは合理的です。 ? ry in standard recurrent neural networks ry. ? Adaptive ry Time(ACT ry は、モデルの推定値を反映して、各 ry されたスカ ry ークで各 ry 数を動的 ry るメ ゙ムですその ry 対してさらに計算が必要であることを意味する。 適応的コンピューテーションタイム( Adaptive Computation Time , ACT) ( graves2016adaptive )わ,各ステップでモデルによって予測された所の更に計算がそのス ゚に対して必要であるとのそのモデル見積,を反映しているスカラーポンダー値に基づいて 、標準リカレントニューラルネッ ーク内の ( で , 内で ) 各入力シ レを処理するために必要な計算ス ゚数,を動的に変調する為のメカニズムです
? ry ォーマーがシー スのすべての位置に並行再帰変換を適 ry いう解釈からインスピレーションを得て、各位置にダイナミックACT停止メ ゙ムを追加します。 ユニバー ォーマの,シーケンスに於て同時並行再帰変遷変換を全位置に適用するというインタプリテーション,にインスパイアされた我々わ, ACT 動的停止機構を各位置に追加しもします ? ry の反復ブロックが停止すると、すべてのブ ry か、または最大 ry に達するまでその状態が ry ップに単純にコ ry (図 照)。 シンボル単位の再帰ブロック 1 つが停止 ( 原文 : halts ) すると,それのステートが次のステップゑと,全ブロックが停止するか,最大ス ゚数に我々が達するか,するまで単純コピーされます(動的決定される T ,を伴った図2を参照)。 ? ry 力は、 ry の最終層である。 エンコーダの最終出力わ然して、このようにして生成された表現の、最終レイヤ ( 訳注 : 最終ステップ出力値群 ? ) である。 ? ry 、このモデルの動 止モデルを ry 。 私たちは,我々のモデルのこの動的停止バージョンをAdaptive Universal Transformerと呼んでいます 0097山口2022/03/17(木) 07:17:12.50ID:LcgWH/dO 技術的特異点/シンギュラリティ203【AGI・脳】 ( 実質 4 スレ ) http://rio2016.2ch.net/test/read.cgi/future/1631585037/#1543421218/64-65#1504872499//39 技術的特異点/シンギュラリティ204【技術・AI】 ( 実質 208 スレ ) http://rio2016.2ch.net/test/read.cgi/future/1632054584/#650#1614237161/16-17 技術的特異点/シンギュラリティ【総合】 207 ( 実質 211 スレ ) http://rio2016.2ch.net/test/read.cgi/future/1645157525/