X



知能研究スレ2©2ch.net
0001オーバーテクナナシー 転載ダメ©2ch.net垢版2016/12/11(日) 07:08:46.32ID:p6adyiEV
  三           三三
      /;:"ゝ  三三  f;:二iュ  何でこんなになるまで放っておいたんだ!
三   _ゞ::.ニ!    ,..'´ ̄`ヽノン
    /.;: .:}^(     <;:::::i:::::::.::: :}:}  三三
  〈::::.´ .:;.へに)二/.::i :::::::,.イ ト ヽ__
  ,へ;:ヾ-、ll__/.:::::、:::::f=ー'==、`ー-="⌒ヽ   ←上坂すみれ
. 〈::ミ/;;;iー゙ii====|:::::::.` Y ̄ ̄ ̄,.シ'=llー一'";;;ド'
  };;;};;;;;! ̄ll ̄ ̄|:::::::::.ヽ\-‐'"´ ̄ ̄ll

          oノ oノ
          |  |  三
 _,,..-―'"⌒"~⌒"~ ゙゙̄"'''ョ  ミ
゙~,,,....-=-‐√"゙゙T"~ ̄Y"゙=ミ    |`----|
T  |   l,_,,/\ ,,/l  |
,.-r '"l\,,j  /  |/  L,,,/
,,/|,/\,/ _,|\_,i_,,,/ /
005352垢版2017/07/16(日) 17:39:43.49ID:Nam9FajQ
セル出力
HTM セルは 2 つの異なる二値出力を持つ: 1) セルがフィード・フォワード入力によって
(主要樹状突起経由で)アクティブである、2) セルが横方向の接続により
(末梢樹状突起経由で)アク ry 。前者を「アクティブ状態」と呼び、後者を「予測状態」 ry

冒頭の図では、この 2 つの出力は瑞ウ方形の細胞体bゥら出ている 2 つの線で表されている。
左側の線はフィード・フォワードによるアクティブ状態、右側の線は予測状態である。

フィード・フォワードによるアクティブ状態だけがリージョン内の他のセルに接続され、
これにより予測は常に現在の入力(及び文脈)に基づいて行われる。
予測に基づいて予測が行われることは望ましくない。 ry
そうなると、数回処理を繰り返しただけでリージョン内のほとんどすべてのセルが予測状態 ry

リージョンの出力はすべてのセルの状態を表すベクトルである。
もし階層構造の次のリージョンがあるなら、このベクトルがその入力となる。
この出力はアクティブ状態と予測状態の OR である。
アクティブ状態と予測状態を結合する ry 出力は入力よりも安定する(ゆっくりと変化する)。
このような安定性はリージョンの推論における重要な特性である。
0055yamaguti~貸垢版2017/07/23(日) 08:31:44.51ID:0TlGOkHF
Page 64

参考文献

ry 。ニューロサイエンス ry 膨大で、全般的知識を得るには多くの異なる文献 ry
。新しい発見は学術ジャーナル ry 、読み解くのが難しく大学関係者でない限り ry

この付録で ry 2 冊 ry

Stuart, Greg, Spruston, Nelson, Hausser, Michael, Dendrites, second edition
(New York: Oxford University Press, 2008)

この本は樹状突起に関するあらゆる ry
16 章では HTM 大脳皮質性学習アルゴリズムが用いている樹状突起セグメントの
非線形な性質 ry この章は、この分野で数多くの考察をした Bartlett Mel によって書 ry

Mountcastle, Vernon B. Perceptual Neuroscience: The Cerebral Cortex
(Cambridge, Mass.: Harvard University Press, 1998)

この本は新皮質に関するあらゆることに関する良い入門 ry 細胞の種類とその接続関係 ry
樹状突起の性質 ry 得るには古 ry 、読者は皮質性ニューロンに関するすぐれた見識 ry
0056yamaguti~貸垢版2017/07/30(日) 10:26:53.69ID:4w4cNgfm
Page 65

付録 B: 新皮質の層と HTM リージョンの比較

ここでは HTM リージョンと生体新皮質のリージョンの間の関係 ry

特に、HTM 大脳皮質性学習アルゴリズム、
及びそのカラムとセルが、新皮質の層やカラム構造とどのような関係 ry
。新皮質の「層」の概念やそれが HTM の層とどう関係 ry 、多くの人が困惑 ry
。本稿がこの混乱を解決し、また HTM 大脳皮質性学習アルゴリズムの生物学的基礎 ry

新皮質の神経回路網

人の新皮質は面積約 1,000cm2、厚さ 2mm のニューロンの皮である。
ry 食事に使うナプキンの布 ry 、新皮質の面積と厚さのちょうど良い近似 ry
。新皮質は十数種類の機能的なリージョン ry
、そのいくつかは視覚に関係し、あるいは聴覚、言語などに ry
。顕微鏡で見ると、異なるリージョンの物理的な特徴は驚くほど良く似ている。

新皮質全体を通じて各リージョンには器官原理69がいくつか見られる。

69 organizing principles。生体器官の働きの原理的しくみ。
0057オーバーテクナナシー垢版2017/07/30(日) 13:01:45.99ID:V6VGcFgE
>器官原理69 organizing principles。生体器官の働きの原理的しくみ。
"働きの原理"が詳しく知りたい。
0059yamaguti~貸垢版2017/08/20(日) 23:37:33.46ID:S+NGnK8E?2BP(0)

Page 66


新皮質は一般に 6 つの層を持つと言われている。
それらの層のうち 5 つはセルを持ち、1 つの層はほとんどが接続線である。
層は染色技術の出現と共に 100 年以上前に発見された。
上記の画像(Cajal による)は 3 種類の異なる染色法を用いて新皮質の小さな断片 ry
垂直方向の軸索は約 2mm の新皮質の厚さ全体に及んでいる。
画像の左側は 6 つの層 ry 最上部の第 1 層はセルがない層である。
最下部の「WM」は白質が始まるところを示しており、
セルからの軸索はそこから新皮質の他の部分や脳の他の部分へと伸びている。
画像の右側は髄鞘を持つ軸索だけを示す染色法である。(髄鞘形成70とは
一部の軸索を覆っている脂肪質の鞘71である。ただしすべての軸索 ry ではない)
この部分の画像から新皮質の 2 つの主要な器官原理である、層とカラムを見 ry
。多くの軸索はニューロンの本体から出た直後

70 myelination。ずいしょうけいせい。ミエリン化。
71 sheath。さや。
0060yamaguti~貸垢版2017/09/10(日) 18:05:56.76ID:vLQGrlPG
Page 67

に 2 つに枝分かれする。枝の一つは主に水平に伸び、他の枝は主に垂直 ry
。水平の方の枝は同じ層や近くの層の他のセルと多数の接続 ry
。 ry 新皮質の断片 ry
。多くの軸索がこの画像で示された部分から出たり入ったりしているので、
軸索は画像に見られるものよりも長い。
新皮質の 1mm の立方体に含まれる軸索や樹状突起の総延長は 2km から 4km ry

画像の中央部はニューロンの本体だけを示す染色法で、樹状突起や軸索は見えない。
ニューロンの大きさや密度が層によって変化する様子 ry
。この画像ではカラムは少ししか分からない。第 1 層にいくつかのニューロン ry
の数はあまりに少ないので、この層はやはりセルのない層 ry
。ニューロ科学者は新皮質の 1mm の立方体ごとに約100,000 個程度のニューロン ry

画像の左側はほんのわずかな数のニューロンの本体、軸索、樹状突起だけを示す染色法 ry
。異なる層や異なるセルごとに、樹状突起の「主軸」の大きさは異なっている様子 ry
。いくつかの「先端樹状突起」72 ry は細胞体からそびえ立ち、他の層と接続 ry
。先端樹状突起が存在するか否か、及びその接続先は各層ごとに特徴 ry

まとめると、新皮質の層とカラム構造73は ry 染色され顕微鏡で観察 ry 明らか ry
006160垢版2017/09/10(日) 18:08:33.13ID:vLQGrlPG
リージョンの違いによる層のバリエーション
新皮質のリージョンの違いによって層の厚さにバリエ ry 、層の数についても多少違う。
このバリエーションはどの動物を研究するかに依存し、
どのリージョンを観察するかにも依存し、また観察した人によっても違う。
例えば上記の画像では、第 2 層と第 3 層は容易に識別できるが一般的にはそうではない。
いくつかの科学者 ry この 2 つの層を識別できないと報告 ry まとめて「第 2/3 層」 ry
。他の科学者は逆の方向に向かい、例えば 3A と 3B のようなサブレイヤを定義 ry

第 4 層は、新皮質のリージョンの中で感覚器官にもっとも近い部分で最もよく定義されている。
いくつかの動物(例えばヒトやサル)では、第 1 視覚野の第 4 層は明確に細分化 ry
。他の動物ではそれは細分化されていない。
第 4 層は感覚器官から遠いリージョンでは階層構造から消えて無くなっている。

72 apical dendrite
73 columnar organization。一般には柱状構造。他と統一するためカラム構造とした。
0062yamaguti~貸垢版2017/09/10(日) 18:55:01.01ID:vLQGrlPG
Page 68

カラム
新皮質の 2 つ目の主要な器官原理はカラムである。
いくつかのカラム構造は染色された画像にも見られるが、カラムに関する多くの証拠は
異なる入力に対してセルがどのように反応するかに基づいている。

科学者が針を使って、何がニューロンをアクティブにするのかを見てみると、
異なる層を横断する垂直方向に揃った複数のニューロンがだいたい同じ入力に反応 ry


この図は、網膜からの情報を処理する最初の皮質性リージョンである V1 の、
セルのいくつかの応答特性 ry

最初の発見の一つは、V1 のほとんどのセルは
網膜の特定の領域で、異なる角度の線や縁に反応 ry
。カラム状に垂直に配列された複数のセルすべてが、同じ角度の縁に反応する。
図を注意深く見れば、各区画の最上部に異なる角度の小さな線が描かれている ry
。これらの線はその場所のセルがどの角度の線に反応するかを示している。
垂直に配列された複数のセル(うすい垂直の縞模様の一つに含まれる)は
同じ角度の線に反応する。

V1 にはいくつかの他のカラム型の特徴があり、そのうちの 2 つが図示されている。
左目と右目の情報の似た組み合わせにセルが反応する「眼球優位性カラム」74がある。

74 ocular dominance column。片方の眼からの入力に強く反応するセルの集まり。
0063yamaguti~貸垢版2017/09/10(日) 19:38:23.80ID:vLQGrlPG
Page 69

そしてセルが主に色を感知する「ブロブ」75がある。
眼球優位性カラムは図の大きなブロックである。各眼球優位性カラムは角度のカラムを含む。
「ブロブ」は濃い色の楕円である。

新皮質の一般的な規則は、角度と眼球優位性のようにいくつかの異なる応答特性が
互いに重ね合わさっているということである。皮質の表面を水平に移動してゆくに従って、
セルから出力される応答特性の組み合わせは変化する。
しかしながら、垂直に配列されたニューロンは同じ応答特性の組み合わせを共有している。
聴覚・視覚・体性感覚野についてはこのような垂直の配列になっている。
新皮質のあらゆる場所でそう ry 、全部ではなく多くの部分について言うならそれは正しい ry

ミニカラム
新皮質の最小のカラム構造はミニカラムである。ミニカラムは直径約 30μm で、
セルを持つ 5 つの層全体に及ぶ 80-100 個のニューロンが含まれている。
新皮質全体はミニカラムから構成されている。小さなスパゲッティのかけらを端同士を
積み重ねたものを思い浮かべるとよい。ミニカラムの間には
セルが少ししかないわずかなすきま ry 、染色された画像でそれを見 ry


左側は新皮質の一部の断片に見られるニューロンの細胞体を示す染色画像である。
ミニカラムの垂直の構造がこの画像から明白に分かる。
右側はミニカラムの概念図である(Peters と Yilmez による)。
実際にはこれよりずっと細い。カラムの中の各層に複

75 blob。小塊、小球体。
0064yamaguti~貸垢版2017/09/10(日) 21:11:24.72ID:vLQGrlPG
Page 70

数のニューロンがあることに注意してほしい。
ミニカラムのすべてのニューロンが類似の入力に反応する。
例えば、先ほど示した V1 の図では、ミニカラムは特定の眼球優位性を伴い、
特定の角度の線に反応するセルを含んでいる。隣にあるミニカラムのセルは
少し違う角度の線に反応し、違う眼球優位性を示すのかも知れない。

抑制ニューロンがミニカラムを定義する本質的な役割を果たしている。
ry 画像や図に示されていないが、抑制ニューロンはミニカラムの間のまっすぐな線に沿って
軸索を送っており、ミニカラムの一部を物理的に分離している。抑制ニューロンはまた、
ミニカラム中のニューロンが同じ入力に反応するよう強制することに役立っていると ry

ミニカラムは HTM 大脳皮質性学習アルゴリズムで用いられているカラムの原型である。

カラム反応の例外
カラム反応の例外が一つあって、それは HTM 大脳皮質性学習アルゴリズムにも関係する。
科学者は通常、実験動物に単純な刺激を与えることでセルが何に反応するのかを発見する。
例えば、動物の視覚空間の小さな部分に 1 つの線を見せて、V1 のセルの応答特性を調べ ry
。単純な入力を用いると、科学者はセルが常に同じ入力に反応することを発見するかも ry
。しかしながら、もしその単純な入力が自然な場面の動画像に組み込まれたなら、
セルはもっと選択的になる。あるセルが高い信頼性で独立した垂線に反応するとしても、
その垂線が自然な場面の複雑な動画像に組み込まれた場合は必ずしも反応するとは ry
006564垢版2017/09/10(日) 21:12:20.16ID:vLQGrlPG
HTM 大脳皮質性学習アルゴリズムでは
カラム中のすべての HTM セルが同じフィード・フォワード応答特性を共有しているが、
時間的なシーケンスを学習すると HTM カラムの 1 つのセルだけがアクティブになる。
このメカニズムは可変長シーケンスを表現する手段であり、
ニューロンについて先ほど説明した特徴と似ている。
文脈を伴わない単純な入力はカラム中のすべてのセルをアクティブにする。
同じ入力でも、学習したシーケンスに含まれるときは 1 つのセルだけがアクティブになる。
ミニカラム中で一度に 1 つのニューロンだけがアクティブになると提唱しているわけではない。
HTM ry 、予期しない入力に対してはカラム中のある層のすべてのニューロンがアクティブ ry
、予期した入力に対してはその一部のニューロンがアクティブ ry
0066yamaguti~貸垢版2017/09/10(日) 21:48:56.38ID:vLQGrlPG
Page 71

なぜ層とカラムがあるのか?

新皮質になぜ層があり、なぜカラムがあるのか、はっきりしたことは誰も知らない。
HTM 大脳皮質性学習アルゴリズムは、カラム状に構成したセルの層が
可変長の状態遷移を記憶する大容量メモリとなりうることを示した。
もっと単純に言えば、セルの層はたくさんのシーケンスを学習できる ry
。同じフィード・フォワード反応を共有するセルのカラムは可変長の遷移を学習 ry の鍵 ry

この仮説はなぜカラムが必要なのかを説明しているが、しかし 5 つの層については ry ?
もし 1 層の皮質でシーケンスを学習して予測できるのであれば、なぜ ry 5 つ ry ?

我々が提唱するのは、新皮質に観察される異なる層はすべて同じ基本メカニズムを用いて
シーケンスを学習しているが、各層で学習したシーケンスは異なる方法で使用 ry
。これについて我々が理解していないことはたくさん ry 考えを述べることはできる。
その前に、各層のニューロンが何に接続しているのかを述べる ry


上の図は 2 つの新皮質のリージョンとそれらの間の主要な接続関係 ry
このような接続は新皮質の中の互いに関係し合う 2 つのリージョンで一般によく見 ry
。左の箱は、右の(箱の)リージョンよりも低い階層構造にある皮質性のリージョン
を表しているので、フィード・フォワード情報は図の左から右へと流れる。
各リージョンは層に分け ry 2 層と第 3 層は一緒にして第 2/3 層として表されている。
0067yamaguti~貸垢版2017/09/10(日) 21:56:13.71ID:vLQGrlPG
Page 72

色のついた線は異なる層からのニューロンの出力 ry
その層のニューロンから出ている軸索の束である。軸索はすぐに 2 つに分か ry
一つの枝は主にそれと同じ層の中で、リージョン内で水平方向に広がる。
よって各層のすべてのセルは相互によく接続し合っている。
ニューロンと水平方向の接続は図に示されていない。

2 つのフィード・フォワード・パス76がある。オレンジ色で示した直接パスと、
緑色で示した間接パスである。第 4 層は主要なフィード・フォワード入力層で、
両方 ry から入力を受け取る。第 4 層は第 3 層に向かう。

第 3 層は直接フィード・フォワード・パスの始点でもある。
よって、直接フィード・フォワード・パスは第 4 層と第 3 層に限定 ry

いくつかのフィード・フォワード接続は第 4 層を飛ばして直接第 3 層に至る。
そして、上記で述べたように、第 4 層はセンサ入力から遠くにあるリージョンでは
消えて無くなっている。
そこでは直接フォワード・パスは単に第 3 層から次のリージョンの第 3層に繋 ry

2 つめのフィード・フォワード・パス(緑色で示した)は第 5 層から始まる。
第 3層のセルは次のリージョンに至る道筋の中で第 5 層へと接続している。
皮質性の皮から出発した後、第 5 層のセルからの軸索は再び枝分かれする。
1 つの枝は運動の生成に関わる脳内の皮質下部77へと向かう。
これらの軸索は運動指令(下方向の矢印で示した)であると信じられている。
他の枝は脳内の視床78と呼ばれる門として働く部分へと向かう。
視床は次のリージョンに情報を通したり止めたりする。

最後に、黄色で示した主要フィードバック・パスが第 6 層から第 1 層に向かっている。
第 2, 3, 5 層のセルは先端樹状突起(図に示されていない)を経由して第 1 層に向か ry
。第 6 層は第 5 層から入力を受け取る。
006867垢版2017/09/10(日) 21:57:02.82ID:vLQGrlPG
この説明は層から層への接続に関して知られていることを限定的に概説 ry 。 ry

異なる層が何をするのかに関する仮説

我々は第 3, 4, 5 層がすべてフィード・フォワード層でありシーケンスを学習していると ry
。第 4 層は一次シーケンスを学習する。第 3 層は可変長シーケンスを学習

76 pathway。通り道。
77 sub-cortical area。大脳皮質の下の神経中枢。
78 thalamus。ししょう。
0069yamaguti~貸垢版2017/09/10(日) 22:01:19.08ID:vLQGrlPG
Page 73

する。第 5 層はタイミングを含む可変長シーケンスを学習する。 ry

第4層
HTM 大脳皮質性学習アルゴリズムを用いて一次シーケンスを学習するのは容易である。
もしカラム中のセルが互いに抑制するように強制しなかったとしたら、
つまりカラム中のセルが以前の入力の文脈を区別しなかったとしたら、一次学習が起こる。
新皮質では、同じカラム内のセルを抑制する効果を取り除くことで成されるだろう。
ry HTM ry では、単にカラムごとに1 つのセルを割り当てることで同様の結果を生む。

一次シーケンスは入力の空間的変形79を表す不変表現80を作る上で必要 ry
例えば視覚では、x-y 変換、縮尺、回転はすべて空間的変形である。
移動する物体について、一次の記憶を持つ HTM リージョンを訓練すると、
異なる空間的パターンが同等であることを学習する。
結果の HTM セルは「複雑型細胞」と呼ばれるもののように振舞う。
その HTM セルはある範囲の空間的変形に対してアクティブな状態(予測状態)を保つ。

Numenta では、視覚についてこのメカニズム ry 実験を行い、
いくつかの空間的不変性が各レベルで達成 ry 。

第 4 層で一次シーケンスを学習していることは、第 4 層で複雑型細胞が見られることや、
なぜ新皮質の高階層のリージョンで第 4 層が消えて無くなるのかということと符合している。
階層構造を上がるにつれて、その時点での表現はすでに不変のものになっているため
それ以上空間的不変性を学習することはできなくなる。
007069垢版2017/09/10(日) 22:02:36.18ID:vLQGrlPG
第3層
第 3 層は第 2 章で述べた HTM 大脳皮質性学習アルゴリズムに最も近い。
それは可変シーケンスを学習し、予測を行い、その予測は入力よりも安定している。
第 3 層は常に階層構造の次のリージョンに向かい、そのため ry 時間的安定性 ry 増 ry
。可変シーケンス記憶は「方位選択性複雑型細胞」81と呼ばれるニューロンに形成され、
それは第 3 層で最初に観察された。
方位選択性複雑型細胞は例えば左に動いている線と右に動いている線など、
時間的文脈による識別をする。

79 spatial transformation
80 invariant representation
81 directionally-tuned complex cell
0071yamaguti~貸垢版2017/09/10(日) 22:23:19.92ID:vLQGrlPG
Page 74

第5層
最後のフィード・フォワード層 ry 3 層と似ているが 3 つの違い ry
。第一の違いは第 5 層が時間の概念を付加 ry
。第 3 層は次に「何」が起こるかを予測するが、それが「いつ」起こるかを教えてくれない。
しかしながら、話し言葉 ry 音の間の相対的なタイミングが重要 ry
運動動作 ry 筋肉の活性化のタイミング ry
。我々は、第 5 層のニューロンが期待した時刻の後にだけ次の状態を予測すると提唱する。
この仮説を裏付ける生物学上の詳細がいくつかある。一つは第 5 層が新皮質の運動出力層 ry
。いま一つは第 5 層が視床の一部から発して第 1 層から来る入力(図に示されていない)
を受け取るということである。我々はまた、この情報こそが時間をコード化したものであり、
視床を経由して第 1 層に入力される多くのセル(図に示されていない)
にこの情報が分散されると提唱する。

ry の第二の違いは第 3 層が可能な限り未来を予測して
時間的安定性をもたらすことが望ましいということである。
第 2 章で述べた HTM 大脳皮質性学習アルゴリズムはこれを行う。
対照的に、第 5 層については次の項目(ある特定の時点の)を予測することしか求めていない。
我々はこの違いをモデル化していないが、
遷移が常に時間を伴って保存されるならそれは自然に起こる。

ry 第三の違いは図から見て取れる。
第 5 層の出力は常に皮質下部の運動中枢に向かい、
そのフィード・フォワード・パスは視床の門を通る。
第 5 層の出力は、あるときは次のリージョンへと通過し、またあるときは止められる。
我々(及び他の人)はこの門の働きが潜在的注意82に関係すると提唱する
(潜在的注意は運動行動を伴わずに貴方が入力に注目することである)。
007271垢版2017/09/10(日) 22:24:24.96ID:vLQGrlPG
まとめると、第 5 層は特定のタイミング、注意、運動行動を結びつける。
これらが互いにどのように関わりあうかについては多くの謎 ry 。
ry ポイントは、HTM 大脳皮質性学習アルゴリズムのバリエーションが
特定のタイミングを容易に組み入れることができ、別々の皮質の層を結合することができる ry

第2層と第6層
第 6 層は下位のリージョンへフィードバックする軸索の起点である。
第 2 層についてはほとんど知られていない。 ry 2 層が第 3 層と比べて
ユニークな点があるかどうかですら、しばしば議論 ry
いまのところ ry 言えることはほとんどないが、他のすべての層と同様に ry
層はたくさんの水平方向の接続パターンを持ち、カラム単位で反応する特徴があること

82 covert attention
0073yamaguti~貸垢版2017/09/10(日) 22:54:45.25ID:vLQGrlPG
Page 75

だけは指摘することができる。よって我々はこれらもまた、
HTM 大脳皮質性学習アルゴリズムの一形態を実行していると提唱する。

HTM リージョンは新皮質の何に相当するか?
我々は 2 種 ry 実装した。
一方は可変長記憶のためにカラムごとに複数のセルを持たせるもので、
他方は一次記憶のためにカラムごとに単一のセルを持たせるものである。
我々はこの 2 種類が新皮質の第 3 層と第 4 層に相当 ry
。これら 2 種類を単一の HTM リージョンに結合することを我々はまだ試みていない。

HTM 大脳皮質性学習アルゴリズム(カラムごとに複数のセルを持つ)が
新皮質の第 3 層に最も近いものの、我々のモデルは脳にもない柔軟性 ry
新皮質のどの層にも相当しない複合型のセルを持つ層を創ることができる。
例えば、我々のモデルでは樹状突起セグメント上でシナプスが形成される順序が分かる。
我々はこの情報を使って、将来起こることのすべてをより一般的に予測した上で
次に何が起こるかを予測 ry 。我々は多分、同様にしてタイミング特有のことを追加 ry
。従って単一の層の HTM リージョンに第 3 層と第 5 層の機能を結合したものを作 ry
007473垢版2017/09/10(日) 22:59:37.17ID:vLQGrlPG?2BP(0)

まとめ

HTM 大脳皮質性学習アルゴリズムは我々が新皮質の神経器官の基本構成要素
と信じているものを具現化するものである。それは水平接続されたニューロンの層が
どのようにして疎分散表現のシーケンスを学習するのかを示している。
HTM 大脳皮質性学習アルゴリズムの各バリエーションが、
互いに関連するが異なる目的を持つ、新皮質の異なる層で使われる。

我々は新皮質リージョンへのフィード・フォワード入力は、
第 4 層であれ第 3 層であれ、主要樹状突起に主に入力されると提唱する。
それは抑制セルの働きにより、入力の疎分散表現を作成する。
我々はまた、第 2, 3, 4, 5, 6 層のセルがこの疎分散表現を共有していると提唱する。
このことは、それらの層をまたがるカラム中のすべてのセルが
同じフィード・フォワード入力に反応するように強制することによって達成される。

ry 4 層のセルが、もしそれが存在するなら、HTM 大脳皮質性学習アルゴリズムを用いて
一次の時間的遷移を学習する ry 。これは空間的遷移に対して不変の表現を構成する。
第 3 層のセルは HTM 大脳皮質性学習アルゴリズムを用いて可変長の時間的遷移を学習し、
皮質の階層を上っていって安定した表現を構成する。
第 5 層のセルはタイミングを伴う可変長の遷移を学習する。
第 2 層と第 6 層については特に提唱
0075yamaguti~貸垢版2017/09/10(日) 23:01:06.59ID:vLQGrlPG?2BP(0)

Page 76

するものはない。しかしながら、これらの層でよく見られる水平接続を考えると、
何らかの形でシーケンス記憶を学習 ry
0076yamaguti~貸垢版2017/09/24(日) 19:11:04.82ID:ma5WYMpw?2BP(0)

Page 77

用語の説明

ノート: ry 、一般的な意味とは異なるものもある。
説明文中で大文字で示されたもの83は、この用語説明で説明されていることを示す。
007776垢版2017/09/24(日) 19:15:45.10ID:ma5WYMpw?2BP(0)

アクティブ状態
(Active State)
フィード・フォワード(Feed-Forward)入力によってセル(Cells)がアクティブになった状態
ボトムアップ
(Bottom-Up)84
フィード・フォワード(Feed-Forward)と同義語
セル
(Cells)
HTMにおいて、ニューロン(Neuron)に対応するもの。
セル(Cells)はHTMのリージョンにおいてカラムを構成する。
同時発生アクティビティ
(Coincident Activity)
同時に2個又はそれ以上のセルがアクティブになること
カラム
(Column)
1個又はそれ以上のセルのグループで、HTMリージョンの中で1単位として機能するもの。
カラム中のセルは、同じフィード・フォワード入力の異なる文脈を表現する。
樹状突起セグメント
(DendriteSegment)
シナプスが集約した単位で、セルやカラムに結び付けられる。
HTMには二つの異なるタイプの樹状突起セグメントがある。
一つは、あるセルの横方向の接続に結び付けられる。
樹状突起セグメントのアクティブなシナプスの数がしきい値を超えると、
結び付けられたセルが予測状態になる。
もう一方は、あるカラムのフィード・フォワード接続に結び付けられる。
あるカラムのアクティブなシナプスの数がしきい値を超えると、
フィード・フォワードによるアクティブ状態になる。

83 用語説明では、例えば Cell の場合「セル(Cell)」のように示した。
84 原文では Bottom-Up と Feed-Forward ry 、同様の意味 ry 「フィード・フォワード」と訳 ry
0078yamaguti~貸垢版2017/09/24(日) 19:19:00.49ID:ma5WYMpw?2BP(0)

Page 78

望ましい密度
(Desired Density)
リージョン( Region )へのフィード・フォワード(Feed-Forward)入力によって
アクティブになるカラム(Column)の望ましいパーセンテージ。
このパーセンテージは、フィード・フォワード入力のファンアウト85に依存して変化
する半径86内にのみ適用される。パーセンテージは個別の入力に応じて変化するものなので
ここでは「望ましい」と呼んでいる。
フィード・フォワード
(Feed-Forward)
階層構造(Hierarchy)の中で、入力が低いレベル(Level)から高いレベル(Level)
に向かって移動すること(しばしば、Bottom-Upと呼ぶ)
フィードバック
(Feedback)
ry 、高いレベル(Level)から低 ry に向かって移動 ry (しばしば、Top-Downと呼ぶ)
一次予測
(First Order Prediction)
過去の入力には無関係に、 ry 予測 ry 。可変長予測(Variable Order Prediction)参照。
HTM
(Hierarchical Temporal Memory)
新皮質の構造的・アルゴリズム的機能のいくつかを模写する技術
階層構造
(Hierarchy)
要素間の接続がフィード・フォワード(Feed-Forward)ないし
フィードバック(Feedback)によってユニークに識別されるネットワーク
HTM大脳皮質性学習アルゴリズム
(HTM Cortical Learning Algorithms)
空間プーリング(Spatial Pooling)、時間プーリング(Temporal Pooling)、
学習と忘却を行う関数一式。HTMリージョン(HTM Region)を構成する。
またの名をHTM学習アルゴリズム(HTM Learning Algorithms)と言う。
007978垢版2017/09/24(日) 19:21:16.24ID:ma5WYMpw?2BP(0)

HTMネットワーク
(HTM Network)
HTMリージョン(HTM Region)の階層構造(Hierarchy)
HTMリージョン
(HTM Region)
HTMにおいて、記憶と予測(Prediction)を行う主要構成要素。
ry 、カラムの中に配置された高度に相互接続された層からなる。
現状 ry 一層のセルからなるが、
新皮質では(そして完璧なHTMでは)リージョンは複数のセルの層からなる。
階層構造の中の位置という文脈 ry 、リージョンはレベルと呼ばれることがある。

85 fan-out。広がり具合
86 radius
0080yamaguti~貸垢版2017/09/24(日) 19:25:21.56ID:ma5WYMpw?2BP(0)

Page 79

推論
(Inference)
空間的ないし時間的入力パターンが、以前に学習したパターンと似ていると認識すること
抑制半径
(InhibitionRadius)
カラム(Column)の周囲の領域で、その範囲でアクティブなカラムが抑制をする ry
横方向の接続
(Lateral Connections)
同じリージョン内でのセル(Cells)間の接続関係
レベル
(Level)
階層構造(Hierarchy)の中の HTMリージョン(HTM Region)
ニューロン
(Neuron)
脳内で情報処理を行うセル(Cells)。
本書では、特に生物学的な意味でセルを示すときにニューロンという用語を用い、
単にセルと表記したときはHTMの計算単位を意味する。
永続値
(Permanence)
シナプス候補(Potential Synapse)の接続状態を表すスカラー値。
永続値がしきい値を下回るときシナプスは形成されていないことを表す。
ry しきい値を超えていたら、そのシナプスは有効である。
HTMリージョン(HTM Region)の学習は
シナプス候補(Potential Synapse)の永続値を変更すること ry
シナプス候補
(Potential Synapse)
ある樹状突起セグメント(Dendrite Segment)でシナプスを形成する可能性があるセル(Cells)
の部分集合。ある時刻においては、シナプス候補の一部分だけが、有効なシナプスとなる。
有効なシナプスは永続値に基づいて決まる。
008180垢版2017/09/24(日) 19:27:11.74ID:ma5WYMpw?2BP(0)

予測
(Prediction)
フィード・フォワード(Feed-Forward)入力によって、
セル(Cells)が近い将来アクティブになるであろうということを、
(予測状態の)アクティブ化によって示すこと。
HTMリージョン(HTM Region)はしばしば、将来起こりうる入力を同時に多数予測する。
受容野
(Receptive Field)
カラム(Column)ないしセル(Cells)が接続されている入力の集合。
HTMリージョン(HTM Region)への入力がビットの2D配列で構成されているとき、
受容野は入力空間内のある半径範囲で表現することができる。
センサー
(Sensor)
HTMネットワーク(HTM Network)への入力源
疎分散表現
(Sparse Distributed Representation)
多くのビットで構成され、 ry わずかなパーセンテージだけがアクティブであり、
単一のビットだけでは意味を表現するには不十分であるような表現。
0082yamaguti~貸し多大垢版2017/09/24(日) 19:30:33.55ID:ma5WYMpw?2BP(0)

yamaguti~貸し多大


Page 80

空間プーリング
(Spatial Pooling)
入力に対して疎分散表現を計算する処理。空間プーリングの一つの特徴は、
オーバラップする入力パターンを同じ疎分散表現に対応付けられることである。
サブサンプリング
(Sub-Sampling)
大きなパターンのうちのほんのわずかなアクティブビットをマッチングするだけで、
大きな分散パターンを認識すること
シナプス
(Synapse)
学習によって形成されるセル(Cells)間の接続
時間プーリング
(Temporal Pooling)
入力パターンのシーケンスの表現を計算する処理。結果の表現は入力よりも安定 ry
トップダウン
(Top-Down)
フィードバック(Feedback)の同義語
可変長予測
(Variable Order Prediction)
それが依存する直前の文脈の量が変化するような予測。一次予測(First Order Prediction)参照。
直前の文脈を維持管理するためのメモリを必要に応じて割り当てるため、「可変長」と呼ばれる。
そのため ry 、指数関数的 ry メモリ ry なく、文脈を時間的に後戻りすることができる。
0083yamaguti~貸垢版2017/09/24(日) 19:46:14.55ID:ma5WYMpw?2BP(0)

>492 :オーバーテクナナシー:2017/09/23(土) 19:54:47.75 ID:vY4r2i0B
> 脳の大脳新皮質の学習は100ミリ秒未来の予測と実際との誤差を教師信号として学習される説を提案。
> 視床枕が予測を映し出すスクリーンの役目を担い、α波に従って予測と実際を切り替えその誤差が各領域に伝搬され逆誤差伝搬法と同じ更新がされる
>http://arxiv.org/abs/1709.04654
>http://mobile.twitter.com/hillbig/status/911091101024399362

http://translate.google.jp/
コーネル大学 図書館
定量的生物学>ニューロンと認知
タイトル:深い予測学習:3つのビジュアルストリームの包括的なモデル 著者: Randall C. O'Reilly 、 Dean R. Wyatte 、 John Rohrlich

要旨:新皮質 ry 高次認知能力の基礎を学び、どのように発展 ry ?
レベル間の明確な理論的連続性を持ち、生物学的、計算的、および認知的なレベルにわたる
包括 ry 提示し、各レベルでの広範なデータによって ry 一貫した答えを提供する。
学習は、感覚が100msec( ry )間隔 ry 、予測精度 ry シナプスの重みを ry に基づいている。
視床の脊髄核は、複数の脳領域からの深層6大脳皮質の入力および抽象化のレベルによって、
予測 ry 投影スクリーン ry
。層5内因性バーストニュ ry の疎駆動入力は標的信号 ry 予測との間の時間差は皮質全体に反映され、
詳細な生物物理学 ry の局所活性化信号のみを用いて誤差逆伝播に近似するシナプス変化を引き起こすモデル。
ビジョンでは、予測学習には、 ry 、3つの経路(What、Where、W ry e)の ry と解剖学 ry 必要 ry
。低レベルの感覚 ry 予測のために; ry 抽象化の学習を促進する分離可能な因子の抽出 ry ために、
集合的な低レベルの予測誤差を漸進的かつ機敏に分割しなけ ry
モデルは、 ry ムービーから100種類のオブジェクトを体系的に不変なオブジェクト表現で構成し、
幅広いデータを扱い、多くのテスト可能な予測を

コメント: 64ページ、24図、291の参照。 出版のために提出
次のように引用: arXiv:1709.04654 [q-bio.NC] (またはこのバージョンではarXiv:1709.04654v1 [q-bio.NC] )
投稿者:Randall O'Reilly [ 電子メールを見る ] [v1] Thu, 14 Sep 2017 08:02:37 GMT (6601kb,D)
0084yamaguti~貸垢版2017/09/26(火) 16:44:33.68ID:KkB3K1pk?2BP(0)

> 750 オーバーテクナナシー 2017/09/26(火) 15:15:40.52 ID:g8erRGmf
> Intelがクラウドに依存せずチップ単体で自律的に学習していけるAIチップ「Loihi」を開発中 - GIGAZINE
> http://gigazine.net/amp/20170926-intel-loihi
> ほんとぉ?

> 752 オーバーテクナナシー 2017/09/26(火) 15:21:41.28 ID:lqqUzEBp
> Intelがクラウドに依存せずチップ単体で自律的に学習していけるAIチップ「Loihi」を開発中
> http://gigazine.net/news/20170926-intel-loihi/


Google Translate | url = http://newsroom.intel.com/editorials/intels-new-self-learning-chip-promises-accelerate-artificial-intelligence/

> Loihiテストチップの機能は次のとおりです。
>
> * 完全に非同期のニューロモルフィックな多数のコアメッシュ。
> 幅広いスパース、階層、リカレントニューラルネットワークトポロジをサポートし、
> 各ニューロンは何千もの他のニューロンと通信できます。
> * 各ニューロモルフィックコアには、運転 ( 翻訳ミス : チップ稼働 ) 中に
> ネットワークパラメータを適応させるようにプログラムすることができる学習エンジンが含まれ、
> 監督付き、監督なし、強化およびその他の学習パラダイムをサポートします。
> * ry 14nmプロセス ry
> * ry 130,000のニューロンと1億3000万のシナプス。
> * パスプランニング、制約充足、スパースコーディング、辞書学習、動的パターン学習および適応
> を含む問題に対する高いアルゴリズム効率 ry
0086yamaguti~貸垢版2017/10/12(木) 18:20:45.42ID:uqwJ7Vy7?2BP(0)

>167 オーバーテクナナシー 2017/10/09(月) 23:01:57.90 ID:5Ggq/e4S
:
> 再帰型ニューラルネットワーク(RNN)による長期的な学習の困難さを解決する方法として、DilatedRNN というモデルが提案された。
> 再帰の間隔を空けた層を用いることで、勾配消失問題が緩和され、並列計算も容易になる。
>http://arxiv.org/abs/1710.02224


> Title: 拡張リカレントニューラルネットワーク
> 著者: Shiyu Chang , Yang Zhang , Wei Han , Mo Yu , Xiaoxiao Guo , Wei Tan , Xiaodong Cui , Michael Witbrock , Mark Hasegawa-Johnson , Thomas Huang
>
>要約:悪名高いことに、長いシーケンス上の ry (RNN)を用いた学習は難 ry
>。 3つの大きな課題 ry :1)複雑な依存関係の抽出、2)消滅と爆発の勾配、3)効率的な並列化です。
>本稿では、シンプルで効果的なRNN接続構造であるDILATEDRNNを紹介 ry これらの課題を同時に解決します。
>ry 、多重解像度拡張再帰スキップ接続 ry 、異なるRNNセルと柔軟に組み合 ry
>。さらに、 ry 、パラメータの数を減らし、トレーニングの効率を大幅に向上 ry
>、非常に長期間の依存性を伴うタスクで最先端のパフォーマンス(バニラRNNセル ry ) ry
>。 ry メモリ容量測定値、すなわち平均反復長さを導入する。これは、長いスキップ接続を有するRNNが ry 適し
>
>次のように引用: arXiv:1710.02224 [cs.AI] (またはこのバージョンではarXiv:1710.02224v1 [cs.AI] )
> [v1] Thu, 5 Oct 2017 21:28:01 GMT (2327kb,D) [v1]
008786垢版2017/10/12(木) 18:23:57.41ID:uqwJ7Vy7?2BP(0)

http://webcache.googleusercontent.com/search?q=cache:numenta.com/assets/pdf/whitepapers/hierarchical-temporal-memory-cortical-learning-algorithm-0.2.1-jp.pdf#71##72#74#
http://rio2016.5ch.net/test/read.cgi/future/1481407726/66-75##67-68#71-72# HTM
http://google.jp/search?q=skiplist+hash+array&;tbm=isch
http://google.jp/?q=bomberman+password+algorithm+guide+OR+4tanni+OR+comptiq+OR+377221725030600705
http://google.jp/search?q=mpeg1+ipb+4frame+OR+4tanni
ttp://google.jp/?q=algorithm+tereka+jiki+data+OR+4tanni
0089オーバーテクナナシー垢版2017/12/24(日) 09:23:12.85ID:hjyZKgB0
参考までに、未来技術というか自分で簡単にPCで収入を得られる方法など
⇒ 『山中のムロロモノス』 というブログで見ることができるらしいです。

グーグル等で検索⇒『山中のムロロモノス』

SB27GME400
0090ウルトラスーパーハイパービジネスフォンドルルモンバーストモード垢版2018/01/18(木) 10:16:37.23ID:g1AG1xN1
アルマジモンは強烈だよ
アルマジモンは強豪だよ
アルマジモンは強剛だよ
アルマジモンは強靭だよ
アルマジモンは強者だよ
アルマジモンは強大だよ
アルマジモンは強力だよ
アルマジモンは強いよ
アルマジモンの連勝
アルマジモンの戦勝
アルマジモンの制勝
アルマジモンの優勝
アルマジモンの楽勝
アルマジモンの圧勝
アルマジモンの全勝
アルマジモンの完勝
アルマジモンの必勝
アルマジモンの奇勝
アルマジモンの完全勝利
アルマジモンの大勝利
アルマジモンの勝利
アルマジモンの勝ち
0091オーバーテクナナシー垢版2018/02/04(日) 16:32:33.90ID:Ie7zZ0o6
>>83
ホーキンスはこれを15年以上前に気づいていた。

感覚器官からの入力とは逆向きの入力が、記憶の連想による予測を行っているというホーキンスの理論は正しかった。
0092オーバーテクナナシー垢版2018/02/04(日) 16:36:41.60ID:Ie7zZ0o6
>>83
ホーキンスはこれを15年以上前に気づいていた。

感覚器官からの入力とは逆向きの入力が、記憶の連想による予測を行っているというホーキンスの理論は正しかった。
0094オーバーテクナナシー垢版2018/02/04(日) 16:57:35.70ID:Ie7zZ0o6
あらゆる思考は感覚器官とは逆向きの入力、つまり連想と言える。

推論や想像などの言葉は普遍的な連想パターンで区別しているにすぎない。

これがホーキンス氏が提唱する知能の本質。

>>93
ホーキンス氏は現在、この「シナプスの結合パターン」、
脳の柔軟な認識が可能な記憶の繋がりがどのようにして形成されているのか研究している。
0095ウルトラスーパーハイパークルーソードルルモンバーストモード垢版2018/02/09(金) 03:05:25.22ID:rSEeg8uX
デジモンフロンティアの連勝
デジモンフロンティアの奇勝
デジモンフロンティアの全勝
デジモンフロンティアの完勝
デジモンフロンティアの必勝
デジモンフロンティアの優勝
デジモンフロンティアの制勝
デジモンフロンティアの戦勝
デジモンフロンティアの楽勝
デジモンフロンティアの圧勝
デジモンフロンティアの完全勝利
デジモンフロンティアの大勝利
デジモンフロンティアの勝利
デジモンフロンティアの勝ち
デジモンフロンティアは強烈だよ
デジモンフロンティアは強豪だよ
デジモンフロンティアは強剛だよ
デジモンフロンティアは強靭だよ
デジモンフロンティアは強者だよ
デジモンフロンティアは強大だよ
デジモンフロンティアは強力だよ
デジモンフロンティアは強いよ
0096オーバーテクナナシー垢版2018/03/10(土) 23:45:22.75ID:M5WGwYKK
>>94
んなコターねぇー、だから、ダメなんだ。
もっとよく考えて見ろ、違うだろ、気づかないのか?
0097オーバーテクナナシー垢版2018/03/10(土) 23:53:58.68ID:NPHL/5lq
>>94
プログラムの動作は演算の組み合わせだ
みたいなことを言うのと同じだと思う。
あたりまえだしだったらあれするには
こう作ればいいにできない。
0098オーバーテクナナシー垢版2018/05/17(木) 12:55:21.17ID:6koctVbj
いろいろと役に立つPCさえあれば幸せ小金持ちになれるノウハウ
暇な人は見てみるといいかもしれません
グーグルで検索するといいかも『ネットで稼ぐ方法 モニアレフヌノ』

UDKLJ
0100yamaguti垢版2018/06/29(金) 12:37:19.26ID:kHBj2QJM?2BP(0)

>844 オryー 180628 1126 8Ecc/3xB
> DeepMindが偽(既存)のAI特許出願をしている ベン・ゲーツェル[馬鹿馬鹿しい]
> http://multiverseaccordingtoben.blogspot.com/2018/06/google-deep-minds-bogus-ai-patent.html

>851 オryー 0628 1246 TPCgic+r
> >844
> やっぱりヌメンタがナンバーワン!


> Google 翻訳
>
> Saturday, June 23, 2018
> 2018年6月23日土曜日
> Google Deep Mind's Bogus AI Patent Filings
> Google Deep Mindの●のAI特許提出
> :
>ry Google Deep Mind has filed a bunch of patent applications for well-known ry , all or nearly all of which certainly are not their original inventions.
>ry 、 Google Deep Mindがよく知られている ry の特許申請 ry 。そのほとんどまたはすべてが確かにオリジナルの発明ではありませ
:
0101yamaguti垢版2018/06/29(金) 12:49:01.96ID:kHBj2QJM?2BP(0)

>>100
> , for instance:
> 。たとえば、
:
> 溺ethods, systems, and apparatus, including computer programs encoded on a computer storage medium, for environment simulation.
> "環境シミュレーションのためのコンピュータ記憶媒体上にコード化されたコンピュータプログラムを含む方法、システム、および装置。
> In one aspect, a system comprises a recurrent neural network configured to, at each of a plurality of time steps, receive a preceding action for a preceding time step,
> update a preceding initial hidden state of the recurrent neural network from the preceding time step using the preceding action,
> update a preceding cell state of the recurrent neural network from the preceding time step using at least the initial hidden state for the time step,
> and determine a final hidden state for the time step using the cell state for the time step.
> 一態様では、システムは、複数の時間ステップのそれぞれにおいて、先行する時間ステップのための先行するアクションを受信し、
? > 前の時間ステップから前の時間ステップから先行 ry 備える。
前の時間ステップから先行する初期の隠れた状態を更新するように構成されたリカレントニューラルネットワークを備える。
> 時間ステップのための少なくとも初期隠れ状態を使用して前の時間ステップからリカレントニューラルネットワークの先行セル状態を更新し、
> 時間ステップのセル状態を使用して時間ステップの最終隠れ状態を決定する。
> The system further comprises a decoder neural network configured to
> receive the final hidden state for the time step and process the final hidden state to generate a predicted observation characterizing a predicted state of the environment at the time step.”
> システムは、時間ステップの最終隠れ状態を受信し、最終隠れ状態を処理して、時間ステップで環境の予測状態を特徴付ける予測観察を生成する
ように構成されたデコーダニューラルネットワークをさらに備える。
:
> Posted by Benjamin Goertzel
> 投稿者 ベンジャミンGoertzel
0102yamaguti垢版2018/06/29(金) 13:00:17.27ID:kHBj2QJM?2BP(0)

>>100-101
>174 yamaguti 180527 1946 36TMfdUR?
> >152-173
> http://rio2016.2ch.net/test/read.cgi/future/1504872499/116-117# Hannyou AI/AL / HTM Kapuseru # SoBunsan NN
> http://rio2016.2ch.net/test/read.cgi/future/1504872499/138-139# Hannyou AI/AL / HTM # YuugouGijutu <-> NN TuijuuYosoku
> http://rio2016.2ch.net/test/read.cgi/future/1504872499/136-137# HTM Kapuseru


>535 yamaguti~貸 171018 2218 3to/BWop?
> >525
> × 補助なし深層学習ではまともに時間データを扱えないので強い AL 実現絶望的
> ○ 補助なし深層学習ではリージョン化向きとは言えないので強い AL 実現コスト問題
:


>160 : 155 180204 0533 XY7pbVXo? \>178 yamaguti 180528 1227 x4HB0Rxw?
> >152 >155 >149-150
:
> http://rio2016.5ch.net/test/read.cgi/future/1517369897/29#13# HTM ZenHitei
>http://rio2016.2ch.net/test/read.cgi/future/1481407726/6-8## HTM
> http://rio2016.2ch.net/test/read.cgi/future/1511446164/36-89#-#819-#831-837#868##823-826# HTM Ronbun
0103yamaguti垢版2018/06/29(金) 15:41:12.77ID:kHBj2QJM?2BP(0)

>924 180629 0633 NiYm+KPI
> 特化型AIをブロックチェーンでつないで汎用型AIを作る=SingularityNet
>http://aishinbun.com/comment/20180627/1591/
> 画像認識AI、自然言語解析AI、音声認識AI、翻訳AI、文書生成AI・・・。特化型AIはものすごい勢いで進化
>
> 香港在住のAI技術者Ben Goertzel氏率いるSingularityNetは、こうした特化型AIを結びつけることで汎用型AIを構築できるプラットフォームの開発
>
> プラットフォーム ry 、ベースになるのはブロックチェーン
>
> SinularityNetでは、DApp(非中央集権型アプリ)に必要なAI技術の提供を受けることのできるマーケットプレイスの開発 ry
>。マーケットプレイスには特化型AIの開発者が開発した特化型AIが展示され、DAppの開発者が必要なAIの機能を購入できる
>
> とはいっても人間がAI機能の売買をするのではなく、 ry スマートコントラクトと呼ばれる仕様書兼契約書 ry 、DAppと各種AIが自動的に結びつく形
>
> ry トークン機能によって、機能を提供したAIに対してDAppから仮想通貨が支払われ
>
> 特化型AIを組み合わせることによって汎用型AIを作ろうという動きは世界中あちらこちらで進んでいるが、
> マーケットプレイスを作り仮想通貨というインセンティブ ry 加速 ry SingularityNetのやり方
>
> 新しい特化型AIが次々と開発され、 ry マーケットプレイスを通じて自由自在に結びつき、これまでにないような機能やサービス
>
>汎用型AI ry 、こういう仕組 ry 、意外と早く実現するかも
>
> SingularityNetはこれまでに何度かニュース
>
> 昨年末に同社がICOしたところ、1分間で40億円を調達。大きな話題
>
> 人間型ロボットSophiaを開発したことでも有名
0104ウルトラスーパーハイパーフォーマットスパーダモンバーストモード垢版2018/08/06(月) 04:22:09.16ID:mUbSQdkd
拙者はアンドロモンが好きだよ、拙者はアンドロモンが御好みだよ、拙者はアンドロモンが大好きだよ、拙者はアンドロモンを愛好するよ、拙者はアンドロモンを嗜好するよ、拙者はアンドロモンは友好するよ
寧ろ逆にアンドロモンを大切にするよ、他に別にアンドロモンを大事にするよ、例え仮に其れでもアンドロモンを重視するよ、特にアンドロモンを尊敬するよ、もしもアンドロモンを褒めるよ
十中八九アンドロモンを希望するよ、森羅万象アンドロモンを渇望するよ、無我夢中アンドロモンを要望するよ、五里霧中アンドロモンを切望するよ、天上天下アンドロモンを熱望するよ、是非ともアンドロモンを祈願するよ
100%アンドロモンに決定だよ、十割アンドロモンに限定だよ、確実にアンドロモンに指定だよ、絶対にアンドロモンに認定だよ、必ずアンドロモンに確定だよ
当然アンドロモンは斬新奇抜だよ、無論アンドロモンは新機軸だよ、勿論アンドロモンは独創的だよ、一応アンドロモンは個性的だよ、多分アンドロモンは画期的だよ
アンドロモンは強いよ、アンドロモンは強力だよ、アンドロモンは強大だよ、アンドロモンは強者だよ、アンドロモンは強豪だよ、アンドロモンは強剛だよ、アンドロモンは強靭だよ、アンドロモンは強烈だよ
アンドロモンの勝ち、アンドロモンの勝利、アンドロモンの大勝利、アンドロモンの完全勝利、アンドロモンの圧勝、アンドロモンの楽勝
アンドロモンの連勝、アンドロモンの優勝、アンドロモンの戦勝、アンドロモンの制勝
アンドロモンの奇勝、アンドロモンの必勝、アンドロモンの全勝、アンドロモンの完勝
0105yamaguti垢版2018/08/12(日) 18:51:21.66ID:ltAhnLdz?2BP(0)

Google 翻訳

arXiv:1803.06617v1 [cs.AR] 2018年3月18日  http://arxiv.org/abs/1803.06617
Microsoft Researchテクニカルレポート
2014年1月に作成。 2018年3月リリース

面積の効率的な高ILP EDGEソフトプロセッサの実装に向けて

ジャングレイ
グレイリサーチLLC
jsgrayATacm.org

アーロン・スミス
マイクロソフトリサーチ
aaron.smithATmicrosoft。

 抽象- In-OrderスカラーRISCアーキテクチャは、20年にわたってFPGAソフトプロセッサ設計の支配的 ry
? ry 順序外スーパスカラ ry 。
従来のアウトオブオーダスーパスカラ実装は、競合領域または絶対性能を示さなかった。
本稿では、EDGE(Explicit Data Graph Execution)命令セットアーキテクチャを利用して、高速かつエリア効率の優れた順序外のスーパースカラソフトプロセッサを構築 ry
。 EDGEマイクロアーキテクチャ、特にそのデータフロー命令スケジューラを慎重にマッピングすることにより、アウトオブオーダFPGA ry 実証します。
2つのスケジューラ設計の選択肢が比較されます。
 索引用語 - 明示的データグラフ実行(EDGE); ハイブリッドフォンノイマンデータフロー; FPGAソフトプロセッサ
0106>>105垢版2018/08/12(日) 19:02:06.08ID:ltAhnLdz?2BP(0)

1. 前書き

 設計の生産性は、リコンフィギュラブル ry の課題 ry
? ワークロードをゲートに移植し、 ry 。
ワークロードをゲートに移し、10^2〜10^4秒のビットストリーム再設計の設計反復に耐えるのは高価です。
ソフトプロセッサアレイオーバーレイは、これらのコストを軽減 ry
? 高価な初期ポートは、ソフトプロセッサーを対象 ry 。
コストがかかる最初の移植は、ソフトプロセッサを対象とした単純なクロスコンパイルとなります。ほとんどのデザインターンは、迅速な再コンパイルです。
? ry 、または相互接続 として公開されているカスタムハードウェア ry 。
アプリケーションのボトルネックは、新しい命令、機能ユニット、自律アクセラレータ、メモリ、または相互接続の公開済機能を持つカスタムハードウェアにオフロードできます。
?  異種のFPGA ry 相補的な有用性 ry 。
 ヘテロジニアス FPGA とハードARMコアの出現は、ソフトコアの相補的有用性を低下させません。
FPGAの容量が倍増 ry ソフトプロセッサも倍増します。
? いくつかのハード・プロセッサーが一致しないスループット ry 。
中規模のFPGAは現在、何百ものソフトプロセッサとそのメモリ相互接続ネットワー ry 。そのような超並列プロセッサとアクセラレータアレイ(MPPAA)は、サイクルごとに数百のメモリアクセスとブランチ -- 一部のハードプロセッサを越えるスループッ
?   ry 20年後にはほとんど変わりません。
 汎用ソフトプロセッサーのマイクロアーキテクチャーは20年間余り変わっていません。
? ry インラインパイプライン型スカラーRISC ry 。
Philip Freidinの16ビットRISC4005(1991)は、j32、xr16、NIOS、MicroBlaze [1] -- [4]のように、インオーダパイプライン型スカラ RISC であり、最新バージョンと同様です。
何年もの間、ソフトプロセッサは命令レベルの並列性を高めるためにキャッシュ、分岐予測器、 ry 、基本的なスカラーRISCマイクロアーキテクチャが依然として支配的です。
? ry と1つのライト/サイクルLUT RAM ry 。
これは、この単純なマイクロアーキテクチャと、 ry FPGAプリミティブ要素、特にLUTとライトパーサイクル LUT RAM との間の良好な適合を反映しています。
残念なことに、このようなアーキテクチャでキャッシュミス ry 、実行は停止 ry 。
0107>>106垢版2018/08/12(日) 19:05:50.98ID:ltAhnLdz?2BP(0)

?   ry ソフトプロセッサの代わりにVLIW [5]、[6]またはベクトル[7]、[8]コア。
 より高い命令レベル並列(ILP)マイクロアーキテクチャをターゲットとする設計研究は、典型的には、アウトオブオーダー(OoO)[9] -- [11]ソフトプロセッサコアの代替としてのVLIW [5]、[6]またはベクトル[7]、[8] アーキテクチャを挙げれます。
スーパースカラOoOマイクロアーキテクチャの問題は、レジスタの名前を変更し、命令をデータフロー順にスケジューリングし、誤特定した後にクリーンアップし、正確な例外のために結果を順序通りにリタイアさせるために必要な機械の複雑さです。
? これは、 ry 多数ポートCAM、 ry 、これらのすべてがFPGAで面積が集中する。
これにより、深い多ポートレジスタファイル、データフロー命令スケジューリングウェイクアップのための多ポートCAM、および多くのワイドバスマルチプレクサおよびバイパスネットワークなどの高価な回路を必要とし、これらのすべてがFPGAの面積消費を加速する。
? ry 、マルチリード、マルチライトRAMは、レプリケーション、 ry 。
例えば、マルチリード、マルチライトRAMは、転送形態の混在、マルチサイクル動作、クロックダブリング、バンクインターリーブ、ライブバリューテーブル、その他の高価な技術を必要とします。
?  現在の作業は、
 この度の取組は、複雑さとオーバーヘッドのほとんどを伴わずに、高いILP OoOスーパースカラソフトプロセッサを構築 ry
、面積とエネルギー効率の高い高ILP実行 ry 明示的データグラフ実行(EDGE)[12]、[13]命令セットアーキテクチャを実装 ry

1


? ry 、順不同のプロセッサーをインライン・スカラーRISCより ry 。
EDGEアーキテクチャーとそのコンパイラーは、レジスタの名前変更、CAM、複雑さを払拭し、アウトオブオーダプロセッサーをインオーダスカラ RISC よりも数百LUTだけ有効にします。
?   ry が、今日のFPGA上で一般的なインオーダRISCとどのように似ているかを解説します。
 本稿では、 ry EDGEマイクロアーキテクチャと、今日のFPGA上で一般的なインオーダRISCとの共通性を解説します。
重要な課題と論文の主な貢献点は、FPGAに小型で高速なデータフロー命令スケジューラを構築する方法です。
最小面積のEDGEソフトプロセッサを開発する途中で、2つの代替FPGA実装を開発して対比 ry 。
0109>>107垢版2018/08/12(日) 19:11:09.35ID:ltAhnLdz?2BP(0)

II. EDGE の概要


z = x + y;
if (z <= 5) {

    x=R0, y=R7
    ヘッダ
    I[0] READ  R0  T[2R]
    I[1] READ  R7  T[2L]
    I[2] ADD    T[3L]
    I[3] TLEI  #5  B[1P]
    I[4] BRO.T  B1
    I[5] BRO.F  B1



  x += 1;
  y -= 1;
  x /= y;

    ヘッダ
    I[0] READ  R0  T[2L]
    I[1] READ  R7  T[3L]
    I[2] ADD  #1  T[4L]
    I[3] SUB  #1  T[4R]
    I[4] DIV    W[R0]
    I[5] BRO

}
0110>>109垢版2018/08/12(日) 19:12:00.63ID:ltAhnLdz?2BP(0)

インストラクションウィンドウ

? オペラ・バッファ  BP 0 1
オペランド・バッファ  BP 0 1
READ    R0
  2R
READ    R7
  2L
ADD
  3L
TLEI    #5

BRO.T

BRO.F


図1: 擬似コードおよび対応する命令ブロック。


 7b     2b   2b   3b    9b    9b
OPCODE  PR  BID  XOP  TARGET1  TARGET0

PR= PREDICATE
BID= BROADCAST ID
XOP= EXTENDED OPCODE


図2: 一般的な命令フォーマット
0111>>110垢版2018/08/12(日) 19:14:18.99ID:ltAhnLdz?2BP(0)

 EDGEアーキテクチャ[12]、[14] -- [16]は、アトミックにフェッチ、実行、およびコミットされる命令ブロック内で編成された命令を実行する。
ブロック内の命令はデータフローの順番で実行されるため、高価なレジスタの名前変更の必要性がなくなり、効率的なアウトオブオーダ ry 。
? ry 明示的に符号化し、、マイクロアーキテクチャが実行時にこれらの依存性を再発見するのを解放する。
コンパイラは、命令セット・アーキテクチャを通じてデータ依存性を明示的にエンコードし、これらの依存性の実行時再探索からマイクロアーキテクチャを解放する。
? ry 直接データ依存です。
述語を使用すると、ブロック内のすべてのブランチはデータフロー命令に変換され、メモリ以外のすべての依存関係は直接データ依存となる。
このターゲット・フォーム・エンコーディングは、ブロック内の命令がオペランド・バッファを介して直接オペランドを通信することを可能にし、電力を必要とするマルチポート物理レジスタ・ファイルへのアクセス回数を減らします。
ブロック間では、命令はメモリとレジスタを使用して通信します。
? ry サポートしますが、インオーダーの電力効率と複雑さを備えたアウトオブオーダー実行のメリットを享受します。
EDGEアーキテクチャは、ハイブリッドデータフロー実行モデルを利用することにより、命令型プログラミング言語とシーケンシャルメモリセマンティクスをサポートしますが、電力効率と複雑さをインオーダ並に抑えつつアウトオブオーダ実行のメリットを享受します。
 図1は、2つのEDGE命令ブロックの例と、命令がそのターゲットを明示的にエンコードする方法 ry >>109-110 >>109 >>110
。この例では、各ブロックは基本ブロックに対応する。
最初の2つのREAD命令は、ADD命令の左オペランド(T [2L])と右(T [2R])オペランドを対象としています。
READは、グローバル・レジスタ・ファイルから読み取る唯一の命令です(しかし、どの命令もターゲットにすることができます。 例 グローバルレジスタファイルへの書き込み)。
ADDが両方のレジスタ読み出しの結果を受け取ると、それは準備完了となり、実行されます。
0112>>111垢版2018/08/12(日) 19:15:45.53ID:ltAhnLdz?2BP(0)

 図2に一般的な命令フォーマットを示します。 >>110
各EDGE命令は32ビットで、最大2つのターゲット命令のエンコードをサポートしています。
? ry 消費者の指示については、コンパイラは移動命令を使用して ry 高いファンアウト命令を割り当てることができます[15]。
ターゲットフィールドより多くのコンシューマを伴う命令については、コンパイラは move 命令を使用してファンアウトツリーを構築するか、ブロードキャストに高ファンアウトな命令を割り当てることができます[15]。
ブロードキャストは、軽量ネットワーク上のオペランドをブロック内の任意の数のコンシューマ命令に送信することをサポートします。
? ry 、TLEI命令(テスト無しイミディエイト命令) ry 。
図1では、TLEI命令(Less / Equal イミディエイトテスト命令)がADDから単一の入力オペランドを受け取ると、それは準備完了となり、実行されます。
? ry 生成されます。
このテストでは、チャネル1(B [1P])からブロードキャストチャネルでリッスンするすべての命令(この例では2つの分岐予測命令(ry .F))にブロー ry トされる述語オペランドがプロデュースされます。
一致する述部を受け取ったブランチは起動します。

?  EDGE実装のスペクトルは、
  EDGE スペクトル実装は、さまざまな面積と性能のトレードオフで可能です。
? 以前のEDGEの研究では、スカラーワークロードのパフォーマンスを向上させるために、非常に幅広い問題実装[12]、[13]、複数のコアの融合[14]〜[16]
以前のEDGEの研究では、スカラ処理パフォーマンス向上の為に、超ワイドなイシューの実装[12]、[13]、複数のコアの融合[14]〜[16] 、を用いました。
? この作業では、
この度の取組では、競争力のあるパフォーマンス/面積のコンパクトEDGEソフトプロセッサを使用したMPPAAシナリオに焦点を当てます。
したがって、データとポインタは32ビットです。ブロックは最大32命令までです。 マイクロアーキテクチャはクロックごとに1-2命令をデコードし、1命令を発行します。
? 、分岐またはメモリ依存の予測を省略します。
本研究では、ロードストアキュー(LSQ)をシンプルで非投機的な設計に制限し、分岐又はメモリに依存する予測を省略します。
0114>>112垢版2018/08/12(日) 19:18:17.99ID:ltAhnLdz?2BP(0)

III. FPGAでのEDGE


IF
  INSN キャッシュデータ
  nK x 32 x 2 ポート
  ブロック RAM

DC
  デコーダー(S)

IS
  インストラクションウィンドウ
    INSN スケジューラ
    32 ENTRIES

      T1 T0 IID

    デコードされた INSNS
    32 x n LUT-RAM(S)

    ? オペラのバッファ  オペランドバッファ
    32 x 32 LUT-RAMS
0115>>114垢版2018/08/12(日) 19:19:00.60ID:ltAhnLdz?2BP(0)

EX
  EX パイプラインの REGS

  EX
  TS

  OPS0
  32x32

  ×

LS
  ロード/ストア
  キュー

  データキャッシュデータ
  nK x 32
  ブロック RAM

  LS PIPELINE REGS

  ×2

  REGISTER FILE
  32 x 32 LUT-RAM


? ry 2つのデコード、シングル発行の ry 。
図3: 2 デコード、シングルイシューのEDGEマイクロアーキテクチャ。
0116>>115垢版2018/08/12(日) 19:20:48.94ID:ltAhnLdz?2BP(0)

A. マイクロアーキテクチャ
 図3は、コンパクトEDGEプ ry 例 ry >>114-115 >>114 >>115
? ry 、およびメモリ/データキャッシュアクセスを含む命令およびデータキャッシュおよび5段階パイプライン(従来のインオーダスカラーRISC) LS)。
これは、命令フェッチ(IF)、デコード(DC)、オペランドフェッチ、実行(EX)、およびメモリ/データキャッシュアクセス ( LS ) を含む I/D キャッシュおよび5段階パイプラインを持つほぼ従来型のインオーダスカラ RISC です。
? ry 読み出されます。
インオーダ・プロセッサとは異なり、命令オペランドはレジスタ・ファイルではなくオペランド・バッファから読出され、
? ry データフローの
又データフローの順序で次に実行する命令は、IS(発行)パイプラインステージによって決定されます。
これは、データフロー命令スケジューラと、デコードされた命令バッファと、オペランドバッファとを含む命令ウィンドウを使用する。
? 単純な ry プログラム命令 ry 。
その際に単純なロードストアキューを使用してプログラムされた順の通りのメモリ命令群を発行します。
 フロントエンド(IF、DC)はバックエンド(IS、EX、LS)から切り離 ry
。クロックごとに2つの命令をフェッチし、命令ウィンドウにデコードします。
命令ウィンドウのデータフロースケジューラは、各デコードされた命令の入力すなわち
? その述語とオペランド。
その述語とオペランドのレディステートを保持します。
? 準備完了状態になると、 ry 。
すべての入力(ある場合)がレディ状態になると、命令は起動し、発行準備が整います。
最も低い番号のレディ命令IIDが各サイクルで選択され、そのデコードされた命令および入力オペランドが読 ry
。データマルチプレクサとファンクションユニット制御信号のほかに、この命令は最大2つのレディイベントをエンコードします。
? ry および/またはイベント ry 準備状態を更新する。
スケジューラは、これらの and/or イベントを他のソース(T0およびT1に多重化)から受け取り、ウィンドウ内の他の命令のレディ状態をアップデートする。
このようにして、データフローの実行が開始され、ブロックのレディ0入力命令、次にこれらがターゲットとする命令など ry 。
0117>>116垢版2018/08/12(日) 19:21:49.32ID:ltAhnLdz?2BP(0)

B. EDGEデータフロー命令のスケジューリング要件
?   ry、コアのリンチピンです。
 命令ウィンドウとスケジューラは、コアの鎹です。
それらの領域、クロック周期、能力、および制限によって、EDGEコアの実現性能と ry が大きく左右されます。

2


 命令スケジューラは、多様な機能と要件を備えています。
? ry 同時です。
それは非常に同時並行的です。
? ry 、デコーダは、命令をデコードし、デコードされた ry 。
各サイクルにおいて、デコーダは、デコードされたレディ状態及びデコードされた命令をウィンドウに書き込む。
? ry バックエンドは準備完了イベント ry 。
各サイクルで、スケジューラは発行する次の命令を選択し、それに応答してバックエンドはレディイベント --
特定の命令の入力スロット(述語、オペランド#0、オペランド#1)をターゲットとするターゲットレディイベント、またはブロードキャストIDで待機しているすべての命令をターゲットとしたブロードキャストレディイベントのいずれかを送信します。
これらは命令毎のアクティブレディ状態ビットをセットし、デコード済みレディ状態と共に命令が発行可能であることを知らせる。
? ry を受け付け、発行されたレディ命令の再発行を禁止する必要があることに注意してください。
スケジューラは、まだデコードされていないターゲット命令のイベントを受付けるので、発行されたレディ命令の再発行を禁止 ry
?   ry 、または述語の真または偽である可能性 ry 。
 EDGE命令は、述語ではないか、又は true か false という述語である可能性があります。
? ry 、別の命令の述語結果によって ry 。
述語化された命令は、別の命令の述語評価結果によってターゲットにされ、その結果が述語条件と一致するまで、準備ができません。
? ry 発行しません。
述語が一致しない場合、命令は決して発行されません。
0118>>117垢版2018/08/12(日) 19:24:42.29ID:ltAhnLdz?2BP(0)

 新しいブロックへの分岐では、すべての命令ウインドウレディ状態がフラッシュクリアされる(ブロックリセット)。
しかし、ブロックがそれ自身に分岐すると(ブロックリフレッシュ)、アクティブレディ状態のみがクリアされ、
デコードされたレディ状態は保存されるので、 ry 再フェ ry 必要はない。
ry 節約するための鍵です。
 ソフトウェアクリティカルパスの一部は、依存する命令の1つのチェーン ( 例
? ry 、連続するバックツーバック命令ウェイクアップのためにパイプラインバブルを追加しないことが重要です。
A → B → C と順にターゲット ) で構成されており、データフロースケジューラは、連続するバックツーバック命令の起動の為のパイプラインバブルを追加しない点は重要です。
? ry レディ・イグジット・ターゲット・レディ・パイプラインの再発行は、クロック・サイクルに深刻 ry
したがって、ISステージのレディ・イシュー・ターゲット・レディ・パイプラインの再発行は、クロック周波数に深刻な影響を与えないと仮定すると、1サイクル ry
 ADDのような命令は、1サイクルの待ち時間を有する。
? ry 、スケジューラはターゲットステージの命令をISステージでウェイクさせることができます。
EXステージの結果転送では、命令が完了する前であっても、スケジューラはISステージでターゲットがターゲットする命令を起動させることができます。
他の命令の結果は、ALUの比較を待つか、複数のサイクルを取るか、または未知の待ち時間 ry
? これらは後で目標を起こすまで待たなければなりません。
これらの場合はターゲットを後で起動する様にウェイトせねばなりません。
0119>>118垢版2018/08/12(日) 19:27:23.26ID:ltAhnLdz?2BP(0)

?   ry 、予想されるEDGE実装のスペクトルにわたってスケーラブルでなければなりません。各サイクルは、 ry 、1サイクルあたり1〜2の命令を発行します。
 最後に、スケジューラ設計は、予想されるEDGEのスペクトル実装にわたってスケーラブル --
各サイクルは、少なくとも1〜4のデコードされた命令と2〜4つのターゲットレディイベントを受入れ、1サイクルあたり1〜2の命令を発行します -- でなければなりません。
 2つの代替的なデータフロー命令スケジューラ設計を考える:
? ry 、各命令のレディステータスが各サイクルで再評価されます。
FPGAのDフリップフロップ(FF)で命令のレディ状態が明示的に表現されているブルートフォース並列スケジューラでは、各命令のレディステータスが各サイクルで再評価されます。
? よりコンパクトなインクリメンタルスケジューラで、 ry 。
そしてよりコンパクトなインクリメンタルスケジューラでは、LUT RAMにレディ状態を保持し、1サイクルあたり2〜4ターゲット命令のみのレディステータスを更新します。
0121>>119垢版2018/08/12(日) 19:29:15.90ID:ltAhnLdz?2BP(0)

C. 並列命令スケジューラ


BID
T1
T0
ENs

31
...
3
  DBID    DRT  DRF  DR0  DR1

  NEXT RDYS
  RDY  RT  RF  R0  R1  INH

2
1
0

DEC.RDYS
リセット
RESETv リフレッシュ

32→(5,1)
? 優先エンコーダ  優先度エンコーダ

IID,V


図4: エントリ#2をより詳細に示す、並列データフロースケジューラのブロック図。
0122>>121垢版2018/08/12(日) 19:30:35.06ID:ltAhnLdz?2BP(0)

 図4は、図3の命令ウィンドウのための並列命令スケジューラを示す。 >>121
? アクティブ準備完了状態は、ターゲット準備完了イベントT0、T1および ry )によって設定され、 ry 。
アクティブレディステートは、ターゲットレディイベントT0、T1及びブロードキャストID BID(存在する場合)によってセットされ、さまざまな入力タイプによって修飾されてENをイネーブルにすることに注意してください。
? ry 、1命令準備回路のインスタンス ry 。
32エントリウィンドウの場合、1命令分の回路のインスタンスが32個あります。
どのサイクルにおいても、32個のRDY信号のうちの1つ以上がアサートされてもよい。
? ry 、これを発行する次の命令の5ビットIIDに縮小する。
32ビット優先度エンコーダは、これを次の発行される命令の5ビットIIDに縮小する。
 各エントリに対して、復号されたレディ状態の6ビットがあり、
? すなわち、それらは命令デコーダによって初期化される。
それらは、例えば次の様に命令デコーダによって初期化される :

• DBID: 2ビットのバイナリブロードキャストID。存在しない場合は00
? • ry が準備完了です。
• DRT, DRF: decoder:述語true(false)がレディ状態です。
• DR0, DR1: デコーダ:オペランド#0(オペランド#1)がレディ状態

? ry 符号化し、恐らくブロードキャストチャネルを介して述語および/またはいくつかのオペランドを待つか、 ry 。
これらのビットはともに、命令がデコードされたかどうかを符号化し、述語および/またはいくつかのオペランドを恐らくブロードキャストチャネルを介して待つか、またはすぐに発行する準備ができているかどうかをエンコードする。
これらのビットは、ブロック・リセット時にのみクリアされます。
0123>>123垢版2018/08/12(日) 19:32:45.64ID:ltAhnLdz?2BP(0)

? アクティブ・レディ状態の ry :
 アクティブレディステータスの6ビットもあります:

? • ryが準備完了です。
• RT, RF: 述語true(false)がレディです。
• R0, R1: オペランド#0(オペランド#1)がレディ状態
? • ry 命令を禁止する - 既に発行済み
• INH: 禁止指令 - 既にイシュー済
• RDY: 命令は発行可能です

3


? 命令は、if(RT&RF&R0&R1&〜INH)の準備ができています。
命令は、(RT&RF&R0&R1& ~INH)の場合にのみレディです。
? ry 、RT、RF、R0、R1のいずれかを設定 ry 。
以下の場合、 RT、RF、R0、R1 をどれでも設定することができます。

• 対応するDRXがデコーダによって設定されるか、または
• 実行命令は、明示的に、またはブロードキャストイベント(ブロードキャストID、入力)を介して入力をターゲットにします。

アクティブ・レディ状態ビットは、ブロック・リセットまたはリフレッシュ時にクリアされます。
0124>>123垢版2018/08/12(日) 19:34:19.75ID:ltAhnLdz?2BP(0)

        デコード済みレディ状態      アクティブレディ状態
命令      DBID  DRT  DRF  DR0  DR1    RT  RF  R0  R1  INH  RDY
READ       00   1   1   1   1     1   1   1   1   1   0
READ       00   1   1   1   1     1   1   1   1   0   1
ADD        00   1   1   0   0     1   1   1   0   0   0
TLEI        00   1   1   0   1     1   1   0   1   0   0
BRO.T B1      01   0   1   1   1     0   1   1   1   0   0
BRO.F B1      01   1   0   1   1     1   0   1   1   0   0
デコードされていない 00   0   0   x   x     0   0   x   x   x   0

? 表I:命令インストラクション・レディ状態
表I:命令スケジューラのレディ状態の例


 表Iは、6つの命令をデコードして最初の命令を発行した後のブロックの命令スケジューラ状態を示す。 >>123
? ry 特定の述語結果を待たないことを反映するDRTおよびDRFセットを有する。
最初の4つの非述語命令は、それらが特定の述語評価結果を待たないことを反映するDRTおよびDRFセットを有する。
? ry )はすぐに発行する準備ができています。
2つのREAD命令(予測されず、入力オペランドがゼロ)は即時イシューの準備ができています。
? 最初のものが発行されました - そして現在は再発行が禁止されています - R0が設定されているADDのオペランド0を対象とします。
最初のものがイシューされて -- そして現在は再発行が禁止されている -- ADD 命令のオペランド0が対象とされている時、その R0 が設定されます。
2番目のREADは、次のISパイプラインサイクルで発行されます。
0125>>124垢版2018/08/12(日) 19:36:10.39ID:ltAhnLdz?2BP(0)

? ry 述語結果をブロードキャストします。
TLEI(test-lessthan-or-equal-immediate)命令は、チャネル1でその述語評価結果をブロードキャストします ;
? 2つの分岐命令、
2つの分岐命令に付いて、
述語部が夫々 true か false か
? 、この述語の結果を待つ。
、この述語の結果を待って。
? ry デコードされていない: ry 。
第7のエントリはデコードされていない命令:(DRT | DRF)= 0。
?  ry デコードされた命令バッファに ry 。
 データフロースケジューリングのクリティカルパスを減らすために、フロントエンドはデコードされた命令用のバッファにプリデコードされたEDGE命令を書き込む。
命令IIDが発行されると、そのデコードされた命令がバックエンドによって読み取られる。
? とりわけ、命令の0-2(IID、入力)明示的ターゲットを指定する2つのターゲットオペランド準備完了イベントフィールド_T0および_T1、ならびに入力イネーブルの4ビットベクトルを含む:ENs = {RT EN 、RF EN、R0 EN、R1 EN}である。
とりわけ、0-2(IID、入力)で命令のターゲットを明示指定する 2 つのターゲットオペランドレディイベントフィールド_T0および_T1を含む、謂うなれば 4 ビットベクトルとしての入力は以下に示すイネーブル効果を持つ:ENs = {RT EN 、RF EN、R0 EN、R1 EN}
? 図3を参照すると、これらの信号は、他のパイプラインステージからのレディイベントとスケジューラによって入力されたT0およびT1とに多重化される。
図3 に遡るが、これらの信号、他のパイプラインステージからのレディイベントは、スケジューラによって入力されたT0およびT1とに mux される。
0126>>125垢版2018/08/12(日) 19:43:56.87ID:ltAhnLdz?2BP(0)

D. 並列スケジューラのFPGA実装
 スケジューラの面積とクロック周期を最小限にするには、FPGA回路設計に注意 ry
? 32命令ウィンドウは、準備完了状態のために32 *(6 + 6)= 384FFを、準備完了イベントを復号して各入力の準備完了状態を更新するために32 *多くのLUTを必要とする。
32 個ある命令ウィンドウは、それらのレディステートの為に 32 *(6 + 6)= 384FF を、レディイベントを復号して各入力のレディステートを更新するために32 *多くのLUTを必要とする。
?  最新のFPGAは、 ry 。
 現代的 FPGA は、一連のLUT( ry )とDフリッ ry (FF)をロジッククラスタにまとめ ry
? ry 各スライスのクラスタに ry 。
ry 、ザイリンクス7 ry 、4つの6-LUTと8つのFFを各 `` スライス ''クラスタにグループ化します。
各LUTは2つの出力を持ち、1つの6-LUT、または5つの共通入力を持つ2つの5-LUTとして ry
? ry 登録することができます。
各出力はFFに登録されるかも知れません。
フリップフロップにはオプションのCE(クロックイネーブル)とSR(セット/リセット)入力 ry 、これらの信号はクラスタ内の8つのFFすべてに共通です。
ry 、アルテラのFPGAに似ています。
 これから、2つの設計上の考慮事項 ry
?  Fracturable 6-LUTデコーダ: ry 。
 分割可能な 6-LUTデコーダ:ターゲット命令インデックスのデコードでは、インデックスが≦5ビットである限り、2つのデコーダが1つの6-LUTに収まる可能性があります。
 スライスFFパッキングとクラスタ制御セットの制限:領域と配線の遅延を最小限に抑えるため、デザインはクラスタごとに4〜8 FFの高密度FFをパックします。
すべての6ビットデコード済みレディ状態エントリは一緒に書き込まれ(共通RSTおよびCE)、1つまたは2つのスライスにパック ry
 アクティブレディ状態のFFにはもっと注意 ry
? これらの32ラ6 ry 。
これらの32*6 = 192個のFFの各々は個別に設定 ry が、スライス当たり4つのFFをパックすることにより、1つのFFがクロックイネーブルされると、全てがクロックイネーブルされる。
準備完了イベントによってFFが設定されると、そのスライス内の他のFFは変更されるべきではありません。
これには、各FFの入力LUTにCE機能を実装し、その出力をその入力にフィードバックする ry 。FF_NXT = FF |(EN&入力)。
0128>>126垢版2018/08/12(日) 19:45:03.52ID:ltAhnLdz?2BP(0)

generate for (i = 0; i < N; i = i + 1) begin: R
  always @* begin
    // ターゲット・デコーダ
    T00[i]  = T0 == i;
    T01[i]  = T0 == (i|N);
    T10[i]  = T1 == i;
    T11[i]  = T1 == (i|N);
    B[i]  = BID == DBID[i];

    // 次のアクティブレディ状態ロジック
    RT_NXT[i]  = RT[i] | DRT[i]
        | (RT_EN & (T01[i]|T11[i]|B[i]));
    RF_NXT[i]  = RF[i] | DRF[i]
        | (RF_EN & (T00[i]|T10[i]|B[i]));
    R0_NXT[i]  = R0[i] | DR0[i]
        | (R0_EN & (T00[i]|T10[i]|B[i]));
    R1_NXT[i]  = R1[i] | DR1[i]
        | (R1_EN & (T01[i]|T11[i]|B[i]));
    INH_NXT[i]  = INH[i] | (INH_EN & (IID == i));
    RDY_NXT[i]  = RT_NXT[i] & RF_NXT[i] & R0_NXT[i]
        & R1_NXT[i] & ~INH_NXT[i];
  end
end endgenerate

リスト1:並列スケジューラー `` next readys ''ロジック
0129>>128垢版2018/08/12(日) 19:46:50.84ID:ltAhnLdz?2BP(0)

 リスト1は、N-entry並列スケジューラー用の `` next readys ''を生成するVerilogです。 >>128
4つのレディ・イベント入力タイプ(述部真、偽、オペランド#0、オペランド#1)がありますが、
? ry 、真/オペランド#1ターゲットから偽/オペランド#0ターゲットを区別するのに単一のターゲットインデックスビットで十分である。
述部ターゲットイベントがオペランドターゲットイベントと同じサイクルで発生しないことを保証することによって、真/オペランド#1ターゲットと偽/オペランド#0ターゲットを区別する為のターゲットインデックスビットは一つで済む。
? N = 32エントリの命令ウィンドウの場合、T0とT1は6ビット{入力#1:0}である(すなわち、特定の{RT / RF / R0 / R1} .
? IID:5}。
(特定の{RT / RF / R0 / R1} EN がイネーブル化する事によってデコーディングが促進される )
すなわち、 N = 32エントリの命令ウィンドウの場合、T0とT1は6ビット{入力#1: IID:5}である。
? ry (ターゲット0の入力0等)は、ブロードキャスト選択デコーダB ry 。
ターゲットデコーダT00、T01、T10、T11(ターゲット0の入力0 、等)は、放送選択デコーダBと同様に、それぞれ6-LUTである。
? ry 、現在アクティブでデコードされたレディステートでターゲットデコーダ出力を一緒にフォールドします。
次のアクティブレディ状態ロジックは、現在アクティブかデコードされたレディステートでターゲットデコーダ出力を一緒に畳みます。
これにはさらに7つのLUT(INH_NXTでは2つ)が必要で、合計32 * 12 = 384のLUTが必要です。
 これは、32エントリスケジューラを偶数および奇数命令の2つの16エントリバンクに分割 ry 改善 ry
? ある銀行内では、4ビットの銀行IIDで十分である。
1 つのバンクに付き、4ビットのバンク IID で十分である。
? ry 、T5、T10、T11は2つの5,5-LUT、 ry 。
次に、T0、T1は5ビットに狭くなるので、T00、T01、T10、T11は2つの5,5-LUT、INH_NXTは1つの6-LUT、または2 * 16 *(3 + 6)= 288のLUTに収まります。

4
0130>>129垢版2018/08/12(日) 19:49:12.10ID:ltAhnLdz?2BP(0)

?   ry :LUTまたはキャリーロジックまたはツリー、キャリーロジックゼロスキャン、および ry ワンショット変換を含む、多くの32ビットエンコーダデザインが評価されました。
 優先順位エンコーダ:LUTまたはキャリーロジックの OR ツリー、キャリーロジックのゼロスキャン、およびF7MAP / F8MAPマルチプレクサを使用したワンホット変換を含む、多くの32ビットエンコーダデザインが評価検討されました。
? ry 、2つのLUT遅延で完了する。
現在の設計では、バンク当たり2つの16→4エンコーダを使用し、2つの LUT の遅延で完了する。
ワン・イシュー・プロセッサでは、後続の2:1マルチプレクサがこれらのエンコーダ出力の1つを選択します。
 特に、各16ビットエンコーダ入力I [15:0]はI [15]、I [14:10]、I [9:5]、I [4:0]にチャンクされる。
? 各5ビットグループは32x4 LUT ROMにインデックスを付け、そのグループのエンコーダ出力を事前計算します。
各5ビットグループはそのグループのエンコーダ出力を事前計算してある 32x4 LUT ROM をインデックスします。
? 3つの5ビットゼロコンパレータ出力とともに、 ry 。
5ビットゼロコンパレータ出力 3 つは共に、3つのグループがすべてゼロのときに 'b1111'を出力するカスタム4ビット3:1セレクタに供給されます。
?   ry RPM(Relativeally配置されたマクロ) ry 。
 技術マッピングとフロアプランニング: このデザインではRPM(関連配置マクロ)手法を使用してエリアと相互接続の遅延を改善し、モジュール構成と大規模な複製で簡単なルーティングとタイミングクロージャのための繰り返し可能なレイアウトを実現します。
構造RTLはモジュールをインスタンス化し、それらをスケジューラにタイルします。
6入力モジュール上のXST注釈(* LUT MAP = "yes" *)は、そのロジックを1つのLUTにロックします。(* RLOC = "XxYy" *)は、FPGAプリミティブをクラスタにパックし、相互に相対的にクラスタを配置します。
0132>>130垢版2018/08/12(日) 19:51:58.10ID:ltAhnLdz?2BP(0)

図5: 並列スケジューラのFPGA実装

?   ry 、およびデコードされた命令バッファ ry 。
 図5は、スケジューラ、プライオリティエンコーダ、およびデコード済命令用バッファを含む図4のザイリンクス7シリーズの実装であり、クリティカルパスが白 ry
 FPGAスライスの2つの水平な行はそれぞれ、命令ウィンドウの4つのエントリに対応します。
左から右へ:

? • 淡黄色:4つの6ビットデコード済み状態フリップフロップ。
• 淡黄色:4つの6ビットデコード済レディ状態フリップフロップ。
• 黄/緑:B、T00、T01、T10、T11ターゲット・デコーダ;
• オレンジ:アクティブレディ状態のLUT / FF RT_NXT / RTなど。
• 紫色:INH_NXTおよびINH。
• 赤:RDY_NXTとRDY。

? 右側には、複数の32x6ビットトゥルーデュアルポートLUT RAMに実装された、合成された優先エンコーダとマルチプレクサ(青)とデコードされた命令バッファ(白) ry 。
右側には、合成された優先度エンコーダとマルチプレクサ(青)と、複数の 32 x 6 ビットトゥルーデュアルポート LUT RAM に実装されたデコード命令用バッファ(白 ry
?   ry デコード済命令LUT RAM、 ry 。
 パフォーマンス:Kintex-7 -1スピードグレードでは、クリティカルパスにRDYクロックトゥーアウト、プライオリティエンコーダ、マルチプレクサ、デコードされた命令LUT RAM、次のreadysロジック、RDYセットアップを含む5.0 nsが必要です。
相互接続遅延はクリティカルパスの85%です。残念ながら、RDYからRDYまでのすべてのパスは、比較的大きな直径のネットリストを通過 ry
?   ry バックツーバック問題(連続サイクルで) ry 。
スケジューラクリティカルパス(命令バッファLUT RAMの出力ポート)の途中でパイプラインレジスタを追加することにより、サイクルタイムを2.9nsに短縮することができますが、
これは、単一の従属命令チェーンのバックツーバックイシュー(連続サイクルで)を達成することはできません。
0133>>131垢版2018/08/12(日) 19:52:35.34ID:ltAhnLdz?2BP(0)

? ry 準備完了状態
E. 増分データフロースケジューラレディー状態
 並列スケジューラは簡単ですが、32x12bのレディステート(LUT RAMの数少ないLUT)を維持するために何百ものLUTとFFを消費し、命令ウィンドウのサイズが2倍になるとこの領域も2倍になります。
? また、発行された各命令が多くても2つの他の準備完了状態に影響を与えても(ブロードキャストにもかかわらず)、各命令の次のreadys LUTの各サイクルはすべての命令の準備を再計算します。
又、発行された各命令が大抵 2 つの他のレディー状態に影響を与えても(ブロードキャストにもかかわらず)、LUT での各レディーは次の各サイクルで全ての命令のレディーステートを再計算させます。 ?
? ry 、キュー内のレディ命令のフロンティアを維持し、 ry 。
対照的に、インクリメンタルスケジューラは、LUT RAMでデコードされたアクティブレディ状態を保持し、キュー内のレディ命令のフロンティアを整備し、1サイクルあたりわずか2〜4ターゲット命令のレディステータスを評価します。

5


FFの配列と比較して、LUT RAMは高速で高密度ですが、いくつかの欠点があります。フラッシュする方法がなく、1サイクルあたり1つの書き込みしかサポートしていません。
0135>>133垢版2018/08/12(日) 19:54:36.01ID:ltAhnLdz?2BP(0)

DRDYSS
  WA ←   DC_IID
  RA ←   EVT_IID
  I ←   DC_DRDYS
  O →   READY LOGIC  DRDYS

ARDYSS
  WA ←   EVT_IID
  RA ←   EVT_IID
  I ←   READYLOGIC  ARDYS_NXT
  O →   READYLOGIC  DRDYS

DVS ←   RESET
  O →   READYLOGIC  DV
  WA ←   DRDYSS  WA
  RA ←   DRDYSS  RA

AVS ←   RESETvREFRESH
  WA ←   ARDYSS  WA
  RA ←   ARDYSS  RA
  O →    READYLOGIC  AV

READY LOGIC
  READY →
  DV ←   DVS  O
  DRDYS ←   DRDYSS  O
  AV ←   AVS  O
  ARDYS →   ARDYSS  O
  ARDYS_NXT →   ARDYSS  I
  EVT_RDYS ←   EVT_RDYS
0136>>135垢版2018/08/12(日) 19:57:14.42ID:ltAhnLdz?2BP(0)

? ry :準備状態、検証、および準備論理。
(a)設計:レディー状態、検証、およびレディーロジック。



(b)FPGAの実装。

図6: 16エントリスケジューラバンク。
0137>>136垢版2018/08/12(日) 19:58:48.86ID:ltAhnLdz?2BP(0)

?   ry とFFの `` RAM ''の ry 。
 代わりに、スケジューラはLUT RAMとFF `` RAM '' のハイブリッドを使用します。
? ry 16x4真のデュアルポートLUT RAMのいくつかのバンクに格納され、16x1フラッシュクリア可能セット - 「FC-SO-RAM」
デコードされた(DRT、DRF、DR0、DR1)およびアクティブ(RT、RF、R0、R1)レディ状態は16x4の真のデュアルポート LUT RAM を構成する「 FC-SO-RAM 」に批准する 16 x 1 フラッシュクリア可能セットオンリー RAM であるいくつかのバンクに格納される。
? これには、16個 ry )すべて。
これは、16個のFF(共通リセット付き)、16個のライトポートアドレスデコーダ(8個の5,5-LUT)、16:1のリードポートマルチプレクサ(4個の6-LUT、2個のMUXF7、1個のMUXF8)の全 3 つのスライスで構成されています。
このハイブリッドからの各読み出しは、4b LUT RAMエントリおよびその有効ビットを読み取る。
各書き込みはLUT RAMを更新し、その有効ビットをセットする。
 複数のLUT RAM書込みポート。
d命令/サイクルのフェッチ/デコード速度およびi命令/サイクルの発行速度を維持するためには、各サイクルでd + 2iレディ状態エントリを更新する必要がある。
? これは1つのライト/サイクル ry 。
これは 1 ライト / サイクルLUT RAMの課題です。
? ry なく、4つ(またはそれ以上)のインタリーブされたディスジョイントバンクにレディ状態を分割します。 (偶数、奇数)命令の(デコードされた、アクティブな)準備完了状態を示す。
増分スケジューラは、クロックダブリングまたは複製されたRAMバンクをライブ値テーブルで使用するのではなく、レディ状態を 4つ(またはそれ以上)のインタリーブされたディスジョイントバンクに分割します :
(偶数、奇数)命令の(デコードされた、アクティブな)レディステートを示す。

? その後、フロントエンドは、偶数および奇数のデコード済みレディ状態を書き込むことができ、バックエンドは、偶数および/または奇数ターゲット命令のアクティブレディ状態を更新する。
その後、バックエンドが偶数および/または奇数ターゲット命令のアクティブレディ状態を更新する状態である限りは、フロントエンドは偶数および奇数のデコード済レディ状態を書込む事ができる。
0138>>136垢版2018/08/12(日) 20:00:37.05ID:ltAhnLdz?2BP(0)

// ? 準備完了のロジック  レディーロジック
always @* begin
  ARDYS_NXT = (DV ? DRDYS : 4'b0000)
      | (AV ? ARDYS : 4'b0000)
      | EVT_RDYS;
  READY = &ADRYS_NXT;
end

? ry :準備完了ロジック
リスト2:レディーロジック


 図6は、結果として16エントリスケジューラバンクの設計と実装を示しています。 >>135-136 >>135 >>136
? 青でデコードされ ry 。
青のデコードされアクティブな状態のLUT RAM DRDYSSおよびARDYSSは、オレンジ/赤のFC-SO-RAM DVSおよびAVSによって検証されます。
各サイクルにおいて、デコーダは、命令DC IIDのデコード済みレディ状態DC DRDYSおよびその有効ビットを書き込む。
? また、各サイクルで銀行の目標準備完了EVT :: = {EVT_IID; EVT_RDYS}は、そのDRDYSおよびEVT_RDYSを使用してEVT_IIDのARDYSの読み取り - 変更 - 書き込みを介して処理されます。
また、バンクのターゲットレディイベント EVT :: = {EVT_IID; EVT_RDYS}は各サイクルで、リードモディファイライトを行う EVT _ID の ARDYS を介し又その DRDYS 及び EVT_RDYS をも使用して処理されます。
リスト2を参照してください。
4つのARDYSビットがすべてセットされると、命令はレディ状態になります。
? このロジック(シアン)はすべて1つのスライスで済みます。 最適化として、READYの縮小はキャリーロジックになります。
このロジック(シアン)の全ては 1 つのスライスで済み、 最適化として、READY 縮小の為の and はキャリーロジックになります。

?   ry ・バンクの競合が存在する可能性があります。
 EDGEコンパイラは、命令の両方のターゲットがディスジョイント・バンクにあることを保証するわけではないため、スケジューラ・バンクの競合が発生する可能性 ry
。 ADD命令は、命令10のオペランドと命令12のオペランドを対象 ry
? ry できないため、1つのイベントが処理され、もう1つのイベントが後のサイクルでキューに入れられます。
同じサイクルで2つの偶数バンク・ターゲットのアクティブ・レディ状態を更新することはできないため、 1 つのイベントが処理された後のサイクルで、もう 1 つのイベントがキュー ry
0139>>138垢版2018/08/12(日) 20:01:53.31ID:ltAhnLdz?2BP(0)

F. インクリメンタルなデータフロースケジューラの設計、運用、実装
 スケジューラのコア(図7)は次のように構成されています。

• INSN: 2つのターゲットイベントフィールドを持つデコードされた命令
• EVT0, EVT1: 偶数/奇数ペンディングイベントレジスタ
• 偶数/奇数イベントマルチプレクサ、プリデコードされたセレクトによって制御される
• SCH0, SCH1: 偶数/奇数16エントリスケジューラバンク
? • 3つの準備命令IIDキュー:
• 3つのレディ命令IIDキュー:
-- DCRDYQ: デコーダレディキュー。
? -- ISRDYQ: 発行( ry 。
-- ISRDYQ: イシュー(スケジューラ)レディキュー。
-- LSRDYQ: ロード/ストアレディキュー
• 次のIIDを選択する2つの3:1セレクタ
? • INSNS: デコードされた命令RAM( ry )
• INSNS: デコード済命令RAM(リードポート)

? ry 、デコードされた命令レジスタ ry 。
この設計では、スケジューラの繰り返しサイクルが開始され、デコード済命令レジスタで終了 ry
 図1の最初のEDGEコードブロックの実行を検討してください。
? ry 、DVS、SCH0、SCH1のAVSがクリアされます。
スケジューラがリセットされ、 SCH0 、 SCH1 の DVS 、 AVS がクリアされます。
? ry 、その命令をINSNSにフェッチしてデコードします。
フロントエンドはブロックのヘッダをフェッチし、その命令をフェッチして INSNS にデコードします。
? 2つのREADは発行する準備ができているため、 ry 。
2つのREADはイシュー待ちレディーである為、IIDがDCRDYQにエンキューされます。
? これはバックエンドのために ``ポンプを準備する ''。
これはバックエンドの為の ``ポンプの準備 '' 。
? ry 、準備ができていないため、エンキューされません。
他の命令はオペランドまたは述部を待機し、レディーでない為、エンキューされません。

6
0141>>139垢版2018/08/12(日) 20:03:39.12ID:ltAhnLdz?2BP(0)

0
  INSN
    T1
    T0

1
  EVT1
  EVT0

2 3 4
  LSRDYQ
  DCRDYQ
  ISRDYQ
  SCH1
    READY →
    EVT ←
    EVT_IID →
  SCH0
    READY →
    EVT ←
    EVT_IID →

5
  IID

6
  INSNS:
    ? デコードされた指示  デコード済命令
  32xn LUT RAM

(a)デザイン。
0142>>141垢版2018/08/12(日) 20:05:03.71ID:ltAhnLdz?2BP(0)

(b)FPGAの実装。

? ry 、デコードされた命令バッファ、レディキューを含む。
図7: 32エントリスケジューラ、デコード済命令バッファ、レディキュー。


?  ry データフロー実行は次のように実行されます。
 バックエンドのデータフロー実行継続は次の様に承認されます。
? ry 、両方のREADYが否定されます。
最初はINSNが無効で、両方のREADYがネゲートです。
IIDセレクタツリーは、DCRDYQから最初のREAD命令(IID = 0)を選択/デキューします。
デコードされたREAD命令語は、INSNSからINSNに読み出される。
 READ対象ADDオペランド#1
? そのINSN.T0(バンク対象準備完了イベント) ry 、そのマルチプレクサはSCH0のEVT =(2、 'b0001)を選択する。
そのINSN.T0(偶数バンクターゲットレディーイベント)フィールドは有効であり、そのマルチプレクサは SCH0 用に EVT =(2、 'b0001)を選択する。
これはADDのアクティブレディ状態を更新します: 'b1100 |' b0000 | 'b0001 =' b1101、現在は左オペランド(オペランド#0)のみを待ちます。
どちらのスケジューラ・バンクもREADY命令を検出していないので、IIDセレクタ・ツリーはDCRDYQからの2番目のREADを選択/デキューします。

 このREADはADDオペランド#0を対象としています ; そのINSN.T0はEVT =(2、 'b0010)である。
SCH0はADDのレディー状態を 'b1111'に更新し、READYをアサートしてADD(IID = 2)を発行します。
 ADDのT1はSCH1のTLEIレディ状態をターゲットにしています。
? TLEIは準備ができて問題になります。
TLEIはレディーとなりイシューされます。
?   ry ISステージ準備完了イベントを指定しない。
 TLEIに関しては、どちらのT0 / T1フィールドもISステージレディーイベントを指定しない。
どうして?
ADDのような単純な1サイクルレイテンシ命令とは異なり、テスト命令のターゲットは、テストがEXステージで実行されるまでレディイベントを受け取ることができません。
テストが完了すると、その真/偽の述語イベントが通知されます。
これらは待ち行列および/またはマルチプレクサ(図示せず)を介してEVT0、EVT1ペンディングイベントレジスタに進み、アイドルスケジューライベントスロットを待つ。
0144>>142垢版2018/08/12(日) 20:14:12.13ID:ltAhnLdz?2BP(0)

?   ry 、多くのエラスティックFIFOレディキュー ry 。
 キュー: このデザインでは、多くの弾力的 FIFO レディキューとイベントキューが採用されています。
? アップダウンカウンタと ry 。
それらは小さく且つ高速でありアップダウンカウンタとザイリンクスSRL32CE 32ビット可変長シフトレジスタLUTで構成されています。
DCRDYQに加えて、現在の設計には2つの他のレディキューがあります。
?  ISRDYQ: 命令が発行され、それが2つを目覚めさせ、偶数命令が次に発行し、奇数命令がISRDYQにキューイングされるときの「1つの問題」の設計では、
 ISRDYQ: 「 1 イシュー」の設計に於ては、命令が発行され、それが他の 2 つを目覚めさせ、偶数命令が次に発行し、奇数命令がキューイングされるキューは ISRDYQ
 LSRDYQ: EDGEプロセッサは、ロード・ストア・キューを使用してシーケンシャル・メモリ・セマンティクスを提供します。
? ry 並べ替えます。 (ready)ロード/ストアが ry 。
1つのシンプルなエリア最適化LSQは、特定のアクセスを保護して並べ替えます ; (レディ/)ロード/ストアがメモリに発行可能になると、LSQはそれをLSRDYQにエンキューします。
 ブロードキャストウェイクアップ: 各EDGE結果ブロードキャストは、ウィンドウ内の任意の数の命令をターゲットにしてウェイクさせることができる。
? ry 、増分スケジューラーではコストがかかります。
これは並列スケジューラーにとっては簡単ですが、インクリメンタルスケジューラではコスト ry
。結果がブロードキャストされると、スケジューラは、そのブロードキャスト入力でデコードされた各命令のレディ状態を順次更新 ry
? ry )を維持する。
したがって、デコーダは、所定のブロードキャスト入力を有する命令のIIDの待ち行列(BR1Q、BR2Q、BR3Q)を整備する。
? ry SCH0、SCH1に提示されたEVTにデキューし始める。
ブロードキャスト結果が分かれば、スケジューラはBRnQ IIDをSCH0、SCH1へ提示されたEVTにデキューし始める。
0145>>144垢版2018/08/12(日) 20:16:00.33ID:ltAhnLdz?2BP(0)

 パフォーマンス: 図7aのラベル0〜6は、スケジューラクリティカルパスの各ポイントへの「LUT遅延」の数を示します。図7bの白いパスです。 >>141
? ry を含む4.3 nsです。
Kintex-7 -1スピードグレードでは、INSNクロックトゥーアウト、EVTマルチプレクサ、SCH1のAVSリードポートマルチプレクサ、ARDYS_NXTとREADYロジック、IIDセレクタ、INSNSリード、およびINSNセットアップを含めて 4.3 ns です。
? ry LUTローカルMUXF7 / MUXF8 / CARRY4ネットの使用 ry 。
ここで、相互接続遅延は、比較的短いネットとLUTローカルなMUXF7/MUXF8/ CARRY4ネットなりの使用を反映するクリティカルパスのわずか70%です。
? ry バックトゥーバック問題が排除されます。
スケジューラのクロック周期は、LUT RAMおよびFC-SO-RAMの読み取り後のパイプラインレジスタを追加することで2.5 nsに減らすことができますが、並列スケジューラと同様に、パイプライン処理によって依存命令のバックトゥーバックイシューの余地がなくなります。
0146>>145垢版2018/08/12(日) 20:17:17.24ID:ltAhnLdz?2BP(0)

? G. 並列スケジューラと増分スケジューラの比較
G. 並列とインクリメンタルとのスケジューラの比較


メトリック    パラレル  インクリメンタル  ユニット

エリア, 32エントリ  288  78    LUTs
面積、合計、32エントリ 340  150    LUTs
期間         5.0  4.3    ns
期間、パイプライン  2.9  2.5    ns
面積、合計*期間  1700  645    LUT*ns

ブロードキャスト    ? フラッシュ反復  フラッシュインタリーブ
イベントバンクの競合?  決してない  sometimes

エリア、4イベント/サイクル  288  156    LUTs
エリア、64エントリ    576  130    LUTs

? 表II: 並列スケジューラと増分スケジューラの比較
表II: 並列とインクリメンタルとのスケジューラの比較
0147>>146垢版2018/08/12(日) 20:18:03.97ID:ltAhnLdz?2BP(0)

 表2は、2つのデータフロースケジューラ設計の違いをまとめたものです。 >>146
インクリメンタルスケジューラのコアは、並列スケジューラのサイズの3分の1以下ですが、キューとマルチプレクサの追加オーバーヘッドが追加されるとサイズの利点が小さくなります。
? ry 、エリア*期間のメトリック ry 。
インクリメンタルスケジューラも高速で、エリア*時間のメトリックは2.6倍優れています。

7


しかし、並列スケジューラはいくつかの強引な利点を保持しています。
? 増分スケジューラは、 ry 割合でブロードキャストキューを反復的に排除する必要があります。
インクリメンタルスケジューラは、ブロードキャストイベントを1サイクルで処理できますが、1サイクルあたり1〜2命令の割合で反復的にブロードキャストキューから排出させる必要があります。
? ry で問題が発生する可能性 ry 。
これにより、一部のワークロードでイシューがストールする可能性があります。
インクリメンタルスケジューラはまた、偶数/奇数のターゲットバンクの衝突を受けやすく、命令ウェイクアップを遅らせる可能性がある。
? ry 実質的な期間の利点を覆い隠す ry 、実際の作業負荷の調査が必要です。
これらの影響が実質的な面積*時間の利点を覆隠すかどうかを測定するには、実際のワークロードの調査 ry
?  最後に、将来のスケールアップをより広い問題とより大きな命令ウィンドウにまで考慮する。
 最後に、より幅広のイシューとより大きな命令ウィンドウの為の将来のスケールアップを考察する。
? ry 細分されたときには増加せず、 ry 。
並列スケジューラは、サイクルごとに2倍のイベントを処理するために、より多くのバンクに細分されたときには拡大せず、インクリメンタルスケジューラコア領域は2倍になります。
命令ウィンドウを64エントリに拡張するために、並列スケジューラは2倍の面積を必要とし、インクリメンタルスケジューラ領域はより穏やかに増加する。
0148>>147垢版2018/08/12(日) 20:18:57.51ID:ltAhnLdz?2BP(0)

IV. 結論
?   ry 取り組みを紹介します。
 本稿では、FPGAのための実用的な ry に向けた取組を紹介しました。
ASICのより単純な高ILPマイクロアーキテクチャに最適化された新しいEDGE命令セットアーキテクチャが、FPGAに適しているか、または汎用ソフトプロセッサがスカラーRISC低速レーンに停滞しているかどうか ry
 我々は、2つの異なるデータフロー命令スケジューラ設計と ry を検討した。
? ry 、いずれかのデザインのFPGAリソースコストとクロック周期の影響は限定的であり、 ry 。
市販の200MHz、1,000-2,000のLUTソフトプロセッサのコンテキストでは、いずれのデザインのFPGAリソースコストとクロック周期のインパクトも限定的であり、許容可能で実用的なようです。
? ry 4デコード/ 2つの実装形態に適しています。
両方の設計選択肢は、将来の4デコード/ 2イシュー実装形態へのスケールに適しています。
0150>>148垢版2018/08/12(日) 20:21:26.79ID:ltAhnLdz?2BP(0)

参考文献
? ry 、「FPGAでRISCをつくる」、 ry
[1] J. Gray、1996年8月、「 FPGA で 自家製 RISC をつくる」、 http://fpgacpu.org/papers/j32.ppt
[2] ----、 「FPGAにRISCシステムを構築する」 サーキットセルラーインク、no。 116 - 118、March、April、2000年5月。
[オンライン]。 利用可能な: http://fpgacpu.org/papers/xsoc-series-drafts.pdf
[3]アルテラ・コーポレーション、 「Niosエンベデッド・プロセッサ・ソフトウェア開発リファレンス・マニュアル」、2001年3月。
[4]ザイリンクス社の「MicroBlazeプロセッサリファレンスガイド」、 2002。
[5] AK Jones、R. Hoare、D. Kusic、J. Fazekas、およびJ. Foster、 「カスタムハードウェア実行によるFPGAベースのVLIWプロセッサ」、
? ry 、2005年、107〜117頁。
フィールドプログラマブルゲートアレイに関する第13回国際シンポジウム予稿集、2005年、pp 107〜117頁。
[6] KOI TiliとJG Steffan、 「チルト:マルチスレッドVLIWソフトプロセッサフ​​ァミリ」、
フィールドプログラマブルロジックとアプリケーションに関する国際会議の議事録、2013年8月。
[7] P. Yiannacouras、JG Steffan、およびJ. Rose、 「VESPA:ポータブル、スケーラブル、フレキシブルなFPGAベースのベクタ・プロセッサ」
? 、および組み込みシステムに関する ry 。
コンパイラ、アーキテクチャ、および組み込みシステムの統合に関する国際会議の議事録、2008、pp。61-70。
[8] J. Yu、G. Lemieux、およびC. Eagleston、
? ry 、第16回国際プログラマブルゲートアレイシンポジウム講演予稿集、 ry 。
「ソフトコアCPUアクセラレータとしてのベクトル処理」、第16回プログラマブルゲートアレイ国際 ACM/SIGDA シンポジウム講演予稿集、2008年、pp。222-232。
0151>>150垢版2018/08/12(日) 20:22:38.10ID:ltAhnLdz?2BP(0)

[9] R. Carli、 柔軟なMIPSソフトプロセッサアーキテクチャ、 修士論文、マサチューセッツ工科大学、2008年5月
[10] K. AasaraaiとA. Moshovos、 「実行可能な順序外ソフトコアへ:コピーフリー、チェックポイント付きレジスタの名前変更、
フィールドプログラマブルロジックとアプリケーションに関する第19回国際会議の講演会、2009年8月。
[11] BH Dwiel、NK Choudhary、およびE. Rotenberg、 「多様なスーパースカラー・プロセッサのFPGAモデリング」、
? ry 」、2012年、188〜199頁。
IEEE国際シンポジウム「システムとソフトウェアの性能解析」 論文集 、2012年、 pp 188〜199頁。
[12] D. Burger、SW Keckler、KS McKinley、M. Dahlin、LK John、C. Lin、CR Moore、
J. Burrill、R.G. McDonald、W.Yoder、X.Chen、R.Disikan、S.Drolia、J.Gibson、MSS Govindan、
P. Gratz、H。Hanson、C. Kim、SK Kushwaha、H. Liu、R。Nagarajan、N. Ranganathan、
E. Reeber、K.Sankaralingam、S.Sethumadhavan、P.Sivakumar、およびA.Smith、
「EDGEアーキテクチャを用いてシリコンの端までスケーリングする」、IEEE Computer、vol。 37、no。 7、pp。44-55、2004年7月。
[13] M. Gebhart、BA Maher、KE Coons、J. Diamond、P. Gratz、M. Marino、N. Ranganathan、B. Robatmili、A. Smith、J. Burrill、SW Keckler、D. Burger、およびKSマッキンリー、
? ry 、2009年、1〜12頁。
「TRIPSコンピュータシステムの評価」、 プログラミング言語とオペレーティングシステムのアーキテクチャサポートに関する第14回国際会議の講演会、2009年、 pp 1〜12頁。
0152>>151垢版2018/08/12(日) 20:23:14.09ID:ltAhnLdz?2BP(0)

[14] C. Kim、S. Sethumadhavan、MS Govindan、N. Ranganathan、D. Gulati、D. Burger、およびSW Keckler、
? ry 、2007年、381〜394頁。
「構成可能な軽量プロセッサ」、 第40回マイクロアーキテクチャシンポジウム講演予稿集、2007年、 pp 381〜394頁。
[15] B. Robatmili、D. Li、H. Esmaeilzadeh、S. Govindan、A. Smith、A. Putnam、D. Burger、およびSW Keckler、
? 「ヒューズブル ry 」
「フューザブルダイナミックマルチコアアーキテクチャのための効果的な予測とフォワーディングの実装方法」
ry 、2013年、第460 - 471頁。
第19回高性能計算機アーキテクチャ国際シンポジウム講演予稿集、2013年、pp 第460 - 471頁。
[16] MSS Govindan、B. Robatmili、D. Li、B. Maher、A. Smith、SW Keckler、およびD. Burger、
「プロセッサのコンフィギュラビリティによるパワーと性能のスケーリング」、
IEEE Transactions on Computers、2013年3月。

8
レスを投稿する


ニューススポーツなんでも実況