? 自動翻訳フィ ry おり、リカレント ry RNNs)は現在まで ry モデリングの問題のための事実上の標準アーキテクチャのままでした。 自己アテンションフィードフォワードシーケンスモデルは、機械翻訳( トランスフォーマー ) 、画像生成( imagetrans ) 、構成成分解析( kitaev18 )を含むシーケンスモデリングタスクで印象的な結果を達成することが示されており 、その事によって表されているのわ、今日まで多くのシーケンスモデリング問題のためのデファクトスタンダードアーキテクチャのままだったリカレントニューラルネットワーク(RNNs)の必然的代替です。 ? しかし、これら ry かかわらず、トランスフォーマー( トランスフォーマー )のようなフィー ード・ ry ・モデルは、繰り返しモデルが扱いやすい(多くの場合、ストリングのコピーや単純 ry 推論さえも)時間( tran18 、 ) )。 これらの成功にもかかわらず、しかし乍ら、リカレントモデルが容易に扱う所の多くのタスクに於て、トランスフォーマー( transformer )のようなフィードフォワード・シーケンス・モデルわ汎化に失敗します(例えば 、訓練時に観察された長さ、を上回る長さの、文字列又は式、の場合に文字列コピーや例え単純な論理推論であっても( tran18 、 ) )。 さらに、RNNとは対照的に、トランスフォーマモデルは計算上普遍的ではなく、その理論的表現性を制限する。 ? ry 実用的かつ理論的な欠点 ry タスクで性能が改善されること ry 。 本論文では、これらの実用上の且つ理論上の欠点に対処するユニバーサルトランスフォーマーを提案し、いくつかのタスクでの性能を改善に導くことを示す。 0037yamaguti垢版2022/01/18(火) 20:02:30.73ID:dKjOzdDu ? ユニバー ry は、RNN ry なシーケンスの個々のシンボルにわたって繰り返されるのではなく、繰り返しステップごとにシー ry 表現を繰り返し ry 。 RNNのような、シーケンスのシンボル個々に亘っての再帰、でわなくその替りに、ユニバーサルトランスフォーマーわ、シーケンス内のすべてのシンボルの表現を再帰ステップごとに繰り返し改訂します ? シーケンスの異なる部分 ry それはすべての繰り返しステップで自己アタッチメカニズムを採用 ry 。 単一シーケンスそれの様々な部分からの情報を結合するために、それわ自己アテンション機構を再帰ステップ全てに於て採用します ? ry 、その再発は、ユニバー ry を計算上普遍的にする。 十分なメモリがあると仮定すると、その再帰性わ、普遍 ( 訳注 : 汎用 ) 計算なユニバーサルトランスフォーマを成す。 ( 訳注 : リフォーマでメモリ効率大幅強化済 http://arxiv.org/abs/2001.04451# ) ? さらに、適応 ry して、シー ry 表現が改訂される回数をモデルが動的に調整できるようにします。 我々は更に適応型計算時間(ACT)メカニズムを採用してこのモデルに、シーケンス内の各位置の表現改訂回数の動的調整を許容します ? ry 量を節約するだけでなく、 ry を示しています。 計算量節約それだけでなくそれを越えて、ACTがモデルの精度を改善できることを我々わ示 す。 ? 私たちの実験によれば、さまざまなア ゙ム上のタスクや多種多様な大規模な言語理解タスクにおいて、ユニバー ーマーは、機械翻訳におけるバニラ ry 両方を大幅に向上させ、優れた性能を発揮し、bAbI ry と困難なLAMBADA ry タスクです。 アルゴリズムタスク各種と、そして、ユニバーサルトランスフォーマが機械翻訳にあってわバニラ ( 訳注 : プレーン ? ) トランスフォーマーとLSTMの両方よりも汎化にて良好性顕著であり且つ性能にて優秀である所の 又 bAbI言語推論タスクと挑戦的なLAMBADA言語モデリングタスクとにあってわ新定義的技術を達成する所の多種多様な言語理解大規模タスク群のセットと、( に付いて ) を我々の実験わご覧に入れます。 0038yamaguti垢版2022/01/18(火) 20:04:55.38ID:dKjOzdDu 1 はじめに
? ry な畳み込み型および完全注意型フィ ry 、一連のシー ry タスク、特に機械翻訳( ry 、 変圧器 )のためのリカレント ry ます。 Transformerモデルのような、畳込型そしてフルアテンション型なフィードフォワードアーキテクチャは 、シーケンスモデリングタスク、特に機械翻訳、の領域の為の、リカレントニューラルネットワーク(RNN)の実行可能な代替品として近年浮上しています( JonasFaceNet2017 、 ; transformer , )。 ? ry は、RNN の重大な欠点、すなわち入 ンスの要素間の並列化を防ぎ、消 ry 対処する本質的に連続的な計算に対処している。 これらのアーキテクチャわ、消失勾配問題( 消失 - 爆発 - 勾配 )に対処し続け乍ら一方で、RNNの顕著な欠点即ち、入力シーケンス要素間並列並行化を阻む本質的シーケンシャル演算、にも対処する。 ? Transformerモデルは、特に、自 ry )に完全に依存して、入力と出力のシンボルの一連 ry 付きベクトル空間表現を計算し、次 ry 使用して予測するモデルとしての後続のシンボルに対する分布は、シンボル毎に出 ンスを予測する。 これを具体的にわ、入力と出力との中の各シンボルそれらの一連のコンテキスト情報付ベクトル空間表現を自己アテンションメカニズム( decomposableAttnModel 、 lin2017structured )完全立脚で計算し 、次にそれを使用して後続シンボル群に亘る分布 ( 訳注 : ベクトル空間表現各々の ? ) を、出力シーケンスを各シンボル相互的予測するモデルとして予測、する事によって Transformer モデルわ達成する。 ? ry ルの表現も他のシンボルの ry 知されるため、 ry ゙ルな受容フィールドと ry 。 このメカニズムは簡単に並列化できるだけでなく、各シンボル表現も又他の全シンボルの表現によって直接通知 ( 原文 : directly informed ) されるので、効果的なグローバル受容野 ( 訳注 : シンボル粒度な強弱動的調節参照機構 ) となります ? ry 、典型的に制限された受容野を有する畳み込みアー ャとは対照的である。 これは、限定的受容野単一を典型的にわ有する例えば畳込みアーキテクチャそれとわ対照的地位にある。 ? しかしながら、ry するために、RNNの帰納的偏見に先立っている。 0039yamaguti垢版2022/01/18(火) 20:08:11.12ID:dKjOzdDu 特筆すべき事に、しかし乍らトランスフォーマは、反復的または再帰的な変遷変換を学習する事に向って、RNNの帰納的バイアスよりも先を行く。 ? Neural GPU ( ry stack_rnn )などのモデル ry 的に、複雑な複雑なアルゴリズムや言語を理解するためには、ト ォーマは、トレーニング中に遭遇しない長さの入力には一般化しない。 この帰納的バイアスわ、アルゴリズムのと言語理解のとの各タスクそれらの複雑性可変なもの幾つかにとって決定的であり得る、と我々の実験わ示す : Neural Turing Machine ( ntm14 , ) 、 Neural GPU ( neural_gpu )やStack RNN ( stack_rnn )といった各モデルとは対照的に、トランスフォーマわ、訓練中遭遇しなかった入力長それにとっての好適な汎化をしない ( ? 訳注 : 事前訓練での最適化 ) 。
本論文では、 Universal Transformerを提案する。 ? Transformer ry 並列化可能性とグローバルな受容性のフィールドを ry の反復誘導バイアス ry これは、ア ゙ムと自然言語を理解する一連の問題に適し ry 。 それわ、 Transformerモデルの並列 ( 化 ) 実効性とグローバル受容野とを、RNNの再帰帰納バイアスと組み合わせています。これわ、アルゴリズムのと自然言語理解のとのシーケンスtoシーケンス問題の領域に対し、より適しているようです ? ry ことが示される( ry 4 )。 その名前が示すように、標準のトランスフォ とは対照的に、特定の仮定の下では、ユニバーサルトランスフォーマーは計算上汎用的であることを示す事ができる(セクション4 )。