(強いAI)技術的特異点/シンギュラリティ177

**オーバーテクナナシー** · 2019/10/30(水) 03:34:13.72

2045年頃に人類は技術的特異点(Technological Singularity)を迎えると予測されている。
未来技術によって、どのような世界が構築されるのか？人類はどうなるのか？
などを様々な視点から網羅的に考察し意見交換する総合的なスレッド

■技術的特異点：収穫加速の法則とコンピュータの成長率に基づいて予測された、
生物的制約から開放された知能[機械ベース or 機械で拡張]が生み出す、
具体的予測の困難な時代が到来する起点

■収穫加速の法則：進歩のペースがどんどん早くなるという統計的法則
ここでの進歩とは、技術的進歩だけでなく生物的進化、生化学的秩序形成も含む

★ 関連スレ(特化した話はこちらで)
(AI) 技術的特異点と政治・経済・社会 (BI)
goo.gl/riKAbq
(情報科学) 技術的特異点と科学・技術 (ナノテク)
goo.gl/RqNDAU
★姉妹スレ（ワッチョイ付）
(強いAI)技術的特異点/シンギュラリティ173
https://agree.5ch.net/test/read.cgi/mango/1569076583/

※前スレ
(強いAI)技術的特異点/シンギュラリティ176
https://rio2016.5ch.net/test/read.cgi/future/1571573897/

**yamaguti** · 2019/10/30(水) 06:01:29.29

5 リスクだらけ
_ttp://wired.jp/2019/08/25/terrifying-potential-of-the-5g-network/##bShjyDOWHZg#b8n2PnYPujc##

**オーバーテクナナシー** · 2019/10/30(水) 06:03:30.04

銀行で人工知能の置き換えによってリストラがあったみたいだな

**yamaguti** · 2019/10/30(水) 06:08:26.13

【櫻LIVE】齊藤元章・PEZY Computing代表取締役社長 × 櫻井よしこ（プレビュー版）
_ttp://m.youtube.com/watch?v=9cGdcLAbSu4
ZettaScaler/PEZY-SCの紹介と今後の方向性～自動チューニング技術の現状と応用に関するシンポジウム発表資料
_ttp://rio2016.2ch.net/test/read.cgi/future/1489922543/217-266
「健康医療分野のデータベースを用いた戦略研究」
_ttp://rio2016.2ch.net/test/read.cgi/future/1519958054/60-78# PEZY

Google 翻訳 _ttp://arxiv-vanity.com/papers/1612.00530/#
? ry として提供しているので、PDFを詳しく読む必要 ry 。
arXiv Vanityは、 arXivの学術論文をレスポンシブWebページとしてレンダするので、PDF に煩わされる必要はありません。 arXiv.orgでこの論文を読んでください。

　
PEZY-SCプロセッサ上の不規則格子反復法のためのデータ圧縮アルゴリズムの実装と評価

　
Naoki Yoshifuji , Ryo Sakamoto † , Keigo Nitadori ‡ and Jun Makino ｧ
Fixstars , 〒141-0032 東京都品川区大崎1-11-1 ゲートシティ大崎ウエストタワー18F ? 大町西タワー18F GateCity
Eメール： yoshifujiATfixstars
† Fixstars , 〒141-0032 東京都品川区大崎1-11-1 18F GateCity大崎ウエストタワー
電子メール： sakamotoATfixstars
現在の住所：101-0052 東京都千代田区神田小川町1-11 5F千代田小川町クロスタ5Fペジーコンピューティング
現在の E メール： sakamotoATpezy ? プレゼントメール
‡ RIKEN AICS , 650-0047 兵庫県神戸市中央区港島南町7-1-26
Eメール： keigoATriken
ｧ 657-8501神戸市灘区六甲台1-1神戸大学理学研究科惑星学専攻 ? 惑星学科
電子メール： jmakinoATpeople.kobe-u.ac.

HarmonyOS ロンチイベントファーウェイデベロッパカンファレンス 2019
_ttp://rio2016.2ch.net/test/read.cgi/future/1571573897/25-31#-36
Subleq ベースのシンプルなマルチプロセッサコンピュータ
_ttp://rio2016.2ch.net/test/read.cgi/future/1562240845/27-43#-50##1562869232/24

**yamaguti** · 2019/10/30(水) 06:11:52.75

>13 YAMAGUTIseisei 180610 0212 OGJRAL12? \|>12 \||>19 yamaguti 180523 0329 nChEz1ni?
|>18
|>人工知能エンジンの性能を1000倍 PEZYが新会社
|> _ttp://news.mynavi.jp/articles/2016/05/20/deep_insights/001.html
|>2 いかにして1000倍
|>Hisa Ando 160520
|>実現の方法、スパコン同様チップの極薄化と磁界結
||。慶應黒田先生考案の磁界結合による3D 薄く
|>コイル小さくでき、データレート 8倍
|| 図
|>ニューロンは、多数のシナプス。電気回路、非常に大きなファンアウト
||。磁界は複数の極薄チップを通り抜、大きなファ
||、アナログ現象、磁界結合の強さ、シナプスの結合の重みを変え可能性
||ｰロンを模倣するのに適し
|| 図
|>ロードマップ ry 17年? には100PFlops、2019年? には1Exa ry スパコンと並列して、
|>人工知能の開発ロードマッ。ハードウェアの7割は共通技術
|>研究・臨床機関やWBAI 、脳の機能の解明が進む
|>PEZY 、2025 ｰドウェアが脳の機能、自己進化機能、人工知能が爆発的に進歩特異点
|| 図
|>グループは、メニーコア PEZY ry ｰタシステムを開発するExaScaler、
|>磁界結合の3D ry UltraMemoryの 3社体制、この6月 Deep Insightsを創立
|>ノイマン型、独自の構成と製造手法、Deep Learningなど大幅に高速
|>7nmプロセス 10倍、磁界結合メモリを多チャンネル化( 帯域100TB/s)してダイ上に取り込などで10倍、
|>ダイナミックな計算精度変更 10倍の性能、全体 1,000倍
|| 図
|>齊藤社長は、WBAIの山川氏などに人工知能エンジンを供給、研究を加速熱望強調
|| 図 : _ttp://news.mynavi.jp/photo/articles/2016/05/20/deep_insights/images/017l.jpg
|>
|> _ttp://rio2016.5ch.net/test/read.cgi/future/1427220599/553-554

**yamaguti** · 2019/10/30(水) 06:16:11.35

抄録
不規則格子上の反復法は、複雑な幾何学を持つ偏微分方程式を解くために、計算科学および工学のすべての分野で広く使用されてきた。
それらは、比較的低い計算コストで複雑な形状を表現柔軟性を提供。
しかし、過去20年高性能プロセッサの進化の方向性は、比較的低いメモリ帯域幅のために、不規則グリッド上の反復法の計算効率の深刻な低下を引き起。
データ圧縮は、原則、反復方式に必要メモリ帯域削、効率を向上できます。
例 HPCGベンチマーク用に生成された行列、PEZY-SCプロセッサにいくつかのデータ圧縮アルゴリズムを実装。
? ry 帯域幅のために理論 ry 。
HPCGベンチマークのSpMV（Sparse Matrix-Vector Multiplication）部分では、データ圧縮なしの最良の実装では11.6Gflops /チップを達成。これはメモリメモリ帯域幅に沿った理論上の限界に近い値。
データ圧縮を使った私たちの実装は32.4Gflopsを達成。
HPCGで使用グリッドは幾何学的に規則的、したがって圧縮効率が非常に高いため、これはもちろんかなり極端なケース
? しかし、実際 ry 。
とは言え、実際のアプリでは、特に解像度が高い場合は、グリッドの大部分を規則的なジオメトリにする可
? データ ry 。
註記しますがデータ圧縮/解凍サブルーチンを追加以外は、プログラムの構造を変更要はありませ
? ry なると考えています。
したがって、データ圧縮は、不規則なグリッドに依存する多アプリパフォーマンスを向上に非常に有用な方法になると我々は信じます。

索引用語 -有限要素解析、スパース行列、データ圧縮

**yamaguti** · 2019/10/30(水) 06:17:12.61

>55 YAMAGUTIseisei 180726 0104 2wrAcqec? \>46 YAMAGUTIseisei 180610 0359 OGJRAL12?
>> >98 ｰ 171206 2312 itknZEZk
>>> 金井良太氏：
>>>PEZYの事件、意味がわからな、、普通ではない事情がありそうだ。、憶測が飛び交っ、わからなすぎる。
>>>_ttp://mobile.twitter.com/kanair_jp/status/938410492745224192
>>
>>
>> >152 ｰ 171207 0916 mrk/DpRl
>>> >145
>>>8年で35億どれだけ出し渋
>>>PEZY-SC2の技術でエクサ目指すなら最低 200億出し
>>
>>
>> >987 ｰ 171210 0914 o2+RJy7u
>>> >714-716-717 >714-717
>>> 松田先生に概ね同意見だ。
>>>
>>> 今回の斎藤氏逮捕の件ほど日本という国に対してガッカリしたことはない。
>>>PEZY社はＧｒｅｅｎ５００で首位を独占してTOP５００でも世界４位国内１位、
>>>更に圧倒的な省エネを目指し、TOP５００でも世界首位をという世界に誇る企業。
>>> 更に汎用ＡＩ開発、国力を大きく左右する極めて重要な日本のキーとなる企業。
:
>>>PEZYに不備があったと感じたのなら慎重を期すべきだった。
:
https://twitter.com/5chan_nel (5ch newer account)

**yamaguti** · 2019/10/30(水) 06:18:51.10

I. はじめに

本稿では、PEZY-SCプロセッサ上でのスパース行列とベクトルの乗算（以下、SpMV乗算）の実装と性能述べる。
特に、パフォーマンスに対するさまざまなデータ圧縮方式の影響に焦点。
スパース行列とベクトルの乗算は、不規則グリッドを使用する多くの実際のアプリの中で最も時間がかかる部分。
最もよく知られている例は、構造解析と他の多くのCAEアプリのためのFEM（有限要素法）。
不規則なグリッドは、複雑な形状を持つオブジェクトの分析を可能にするために不可欠
? ry が、一般的に不規則なッドははるか ry 数の自由でより ry します。
規則的なグリッドを複雑な形状に適用は不可能ではありませんが一般的には、不規則なグリッドは遥かに少数の freedoms で、より正確な結果。

? ry 乗算で合理的な効率 ry 。
しかしながら、現代のHPCシステム上でのSpMV乗算に於ては合理的効率さえ達成は非常に困難
? この問題には主に2つの理由 ry 。
この困難には 2 つの主たる理由。
最初のものはメモリ帯域幅
? ry ます。
行列Aとベクトルxの乗算を考えます、
ｙ＝Ａｘ。（1）

? 実際のアでは、行列Aは大きすぎてキャッに収まりません。
現実のアプリには行列Aは、キャッシュメモリに収めるには大き過ぎます。
? ry yははるかに小さいので、常に広範囲のデータを再利用する可能性があ。
一方、ベクトルxとyそれらは遥かに小さく、そしてそれらの為の広範囲データ再利用の実現性が常にあります。
? ry 、ＳｐＭＶ動作のため ry の主な部分 ry 。
したがって、 SpMV オペレーションのためのメモリアクセスの支配的部分は、（スパース）行列Ａの読み取り。

**yamaguti** · 2019/10/30(水) 06:19:18.18

? ry Aのゼロ以外の要素数 ry 。
行列Aの正確なデータサイズは、データ形式によって異なりますが、 A の要素である所の非ゼロなものの個数より小さくできません
? Aの 1つの非ゼロ要素あたり ry 。
A の非ゼロ要素 1 つあたりの浮動小数点演算の数は2
したがって、倍精度フォーマットである場合、2 浮動小数点演算ごとに8バイトのメモリ読み取り
? つまり、「 ry 。
言換えれば、「必須」B / F（byte per flops）数は8/2 = 4
? ここでは、インデックス用に読み込まれたメモリを無視したことに ry 。
インデックス用に読込まれるメモリを我々が無視している事に注意
? FLLア ry 50100 ry 。
FEM アプリで行列を保存に最も効率的な形式 ELL形式、必要な帯域幅は50～100％増加する可能性
従って、Ｂ／Ｆ数に関して要求されるメモリ帯域幅は、６から８の間であり得る。

? ry かなりの部分を ry 。
1980年代のベクトルマシンのハードウェアB / F数は4から12の間だったので、1980年代にはベクトルスーパーコンピュはSpMV動作のメモリ帯域幅要求の少なくともかなりの割合をサポートできるメモリサブシステムを持っていました。

**yamaguti** · 2019/10/30(水) 06:19:41.50

_ttp://webcache.googleusercontent.com/search?q=cache:arxiv.org/pdf/1612.00530#2

? マシン ry 秒あたりの浮動 ry の理論上のピーク ry 。
ここでハードウェアB / F数は、1秒当り浮動小数点演算数で測定浮動小数点演算ピーク性能理論値で割った、バイト/秒での理論的な（または測定）メモリ帯域幅と定義。
1980年代のベクトルマシンは、SpMV乗算のために浮動小数点ユニットをビジー状態に保つ十分なメモリ帯域持っていました。

しかし、最近のHPCシステムで使用されているマイクロプロセッサのB / F数ははるかに少
? ry 、Kコンピュータ ry 。
、京コンピュータのB / F数は0.5 、今日の標準ではかなり例外的に高
?ry of around 0.2.
最近のXeonベースのシステムでは、B / F値は約0.2です。
? ry around or less than 5%.
必要なB / F数が6の場合、現代のHPCシステムの理論上の最大効率が約5％以下意味します。

? ry マシンのHPLパフォーマンスの測定値 ry パフォーマンスの測定値の比率 ry 。
、2016年6月のHPCGベンチ ※1 のトップ10 マシン HPLパフォーマンス測定値とHPCGパフォーマンス測定値との間の比率は0.4～5％の範囲であり、Xeonベースのシステムの数は2～3％。

? ry は、明らかにそれらに対するSpMV乗算の非常に低い効率の主な理由です。
したがって、現代のHPCシステムの低メモリ帯域幅は、それらでのSpMV乗算の非常に低い効率の明らかな筆頭の理由。

※1 _ttp://www.hpcg-benchmark.org/custom/index.html?lid=155&slid=288

**yamaguti** · 2019/10/30(水) 06:20:08.55

第二の理由は、現代の設計者がやや広い幅（４～８ワード）のＳＩＭＤ演算装置を採用する傾向
? ry 、ベクトルまたは行列のいずれかの要素 ry 。
不規則行列に対するSpMV演算の計算カーネルは、ベクトルのか行列のかどちらかの要素への間接アクセス要。
ワイドSIMDユニットを搭載最新のプロセッサでの間接アクセスのパフォーマンスは非常に低。
一部のプロセッサは、間接メモリアクセス用のSIMD操作をサポートしていません。
間接メモリアクセスのためのSIMD命令を持つマシン上でさえ、それらのスループットは単純なSIMDロード/ストア命令よりはるかに低。
一部のマシンでは、この非効率によってSpMV操作のパフォーマンスがさらに低下可能性。

? ry は、要素ごと（EbE）の方法です。
必要なメモリ読み取りを減らすための1つの方法は、 EbE ( element-by-element : 要素ごと ) メソッド
? ry では、スパース行列Aは、各要素の元の ry データからその場で構築 ry 。
EbE法では、各要素の、元の物理データと位相データとから、オンザフライでスパース行列 A が構築
? すべての要素 ry は生成 ry を減らす ry 。
その全要素の総データ量は、生成された行列のサイズよりもかなり小、メモリアクセスの量を我々は減。
行列のオンザフライ構成の計算コストがかなり高い場合でも、EbE法に移行で総計算時間を大幅に減。
EbE法は、計算コストが増加しても実際の計算速度を大幅に向上、多くのFEMアプリで広く使。

**yamaguti** · 2019/10/30(水) 06:22:34.99

必要メモリアクセス量を減に潜在的に有用であり得る別法は、行列を圧縮。
ただし、HPCアプリでのデータ圧縮の使用に関する多研究論文があるにもかかわらず、SpMV乗算へのデータ圧縮の適用に関する研究はほとんどない
? ry するためには、1つの行列要素あたり ry 。
考えられる理由の 1 つは、実際の高速化を達成際の、行列要素 1 つあたりの浮動小数点演算の数が2つだけなので、データ圧縮解除アルゴリズムは非常に効率的でなければならないこと
? 解凍アが２、３以上の命令を必要 ry それは総費用のかなり ry 。
ほんの幾つかでなく更なる命令をもしも解凍アルゴリズムが必要ならば、トータルコストのかなりの増加を引き起
? ry に、一般に、解凍アはいくつかのテーブル ry 操作、すなわち現代 ry 特に効率的ではない間接的なメモリアクセスを必要 ry 。
さらに、現代のマイクロプロセッサにとって特に非効率的な、テーブルルックアップ操作即ち間接メモリアクセスをいくつか、一般に解凍アは必要とする。

一方、システムのハードウェアB / F数が極端に小場合は、データの圧縮/解凍で、SpMVの乗算でパフォーマンスが大幅に向上可能性。

本稿では、HPCGベンチマーク[ 4 ] 、 [ 5 ]のSpMV部分におけるZettaScaler-1.5スーパーコンピュータ[ 7 ]の性能について、データの圧縮/解凍を使用した場合としない場合について報告。

ZettaScaler（以前はExaScalerと呼ばれ）システムは、第一世代のPEZY-SC 1024コアプロセッサチップをベースにしています
2014年11月のTOP500リストに掲載され、Green500 2位
2015年6月のGreen500 、3つのExaScalerシステムが上位3つ占めました。
? ry されたシステムは ry の数を大幅 ry 。
＃1 のシステムは、7 Gflops / W を達成し、2014年11月の＃1システムを大幅に上回りました。
2016年6月現在、Green500 では依然としてナンバー1 維持。

**yamaguti** · 2019/10/30(水) 06:22:55.66

データ圧縮アルゴリズムのテストベッドとしてZettaScalerシステムを使用は、ハードウェアのB / F数が0.05程度とかなり低いため。
? ry 将来プロセッサに ry 。
したがって、近い将来に於てのプロセッサの為に役立つようなアﾉﾞムのテストベッドとして理想的
? さらに、その ry 。
付加えると、そのプロセッサコアはSIMDユニットを持っていません。
したがって、データ圧縮を使用してSpMV乗算をかなり高速化できます。

ZettaScalerシステムは、GPGPUがPCIe を介してIntel Xeonプロセッサーに接続、Xeon がInfinibandネットワーク接続される、最新のGPGPUベースのシステムとかなり似ています。
、ZettaScalerシステムには2 独自の機能
? 最初のものはもちろん物理的に共有されたメモリと階層的なキャッシュを ry 。
1 つ目は勿論、物理共有メモリと階層的キャッシュとを持った1024コアMIMDプロセッサであるPEZY-SC チップ
? ry
日本のベンチャー企業、PEZY Computingによって開発
2つ目の特長は、フルオロカーボン（3M Fluorinert FC-43）液浸冷却システム。
ZettaScalerシステムでは、高密度実装を実現ために、Xeon 用のマザーボードとPEZY-SC 用のプロセッサカードを設計
? ry チップの接合部温度を低下させる ry 的な操作が ry 。
液浸冷却は、ＰＵＥ減少させ、さらにチップの連接部温度をも又減少させる利点、、エネルギー効率優。
ただし、ZettaScalerシステムワッパが高い主な理由は、PEZY-SCプロセッサ自体の設計。

? ry プロセッサは、TSMC ry 使用して、それぞれ完全 ry を備えた1024個のMIMDコアを ry ダイに統合します。
PEZY-SC は、完全にパイプライン化された倍精度乗算加算（MAD）ユニットを各々備えた MIMD コア × 1024 個を 400mm ^ 2のダイに、TSMCの28HPMプロセスを使用して統合しています。
公称消費電力は733 MHzクロックでの動作でわずか65 W 。

**yamaguti** · 2019/10/30(水) 06:23:32.70

_ttp://webcache.googleusercontent.com/search?q=cache:arxiv.org/pdf/1612.00530#3

? ry 倍精度稠密 ry 低い（わずかに低い）にも ry 達成HPLでは50％以上。
少なくともHPLベンチマーク、またはより具体的にはDGEMM演算（倍精度密行列乗算）の場合、理論ピーク比効率は依然としてかなり低い ( HPL では、 50 % よりも僅かに良好 ) にもかかわらず、PEZY-SC はワットあたり非常に優れた性能を達成。
一方、PEZY-SC は階層型（ただし非コヒーレント）のキャッシュと物理的に共有されたメモリを備えたMIMDメニーコアプロセッサであるため、アプリ移植は比較的簡単。
、OpenCLのかなりよく設計されたサブセットであるPZCLもサポート。

? ry 最初のPEZY ry 性能を紹介し、これまでの研究では通常 ry 適用した。
本稿では最初に、これまでの研究での通常の最適化を適用した PEZY-SC でのHPCGの性能を示す。
次に、オンザフライでのデータ圧縮解凍したSpMV操作の「最適化」実装のパフォーマンス説明。

この論文は以下のように構成。
、セクションII 、PEZY-SCプロセッサとZettaScalerシステムの概要を説明。
セョンIII 、PEZY-SC 上でのHPCGの実装説
ョンIV 、パフォーマンス結果を示
Vで、私たちが実装したデータ圧縮/解凍アルゴリズムとPEZY-SC上で測定された性能を提
VI 、論文を要約し、研究開発の今後の方向性。

**yamaguti** · 2019/10/30(水) 06:24:31.42

>7 yamaguti 181214 0647 QfhBU4VJ \ \>78 yamaguti 180811 1931 v5kZKb/x?
:
>>>> >18 ｰ 180807 1036 Hj9UY+by
>>>> :
>>>>>テスラが「AIチップ」を自社開発、型破り
>>>>>_ttp://wired.jp/2018/08/07/tesla_selfdriving/
:
>>>>_ttp://google.jp/search?q=pezy-sc##
>>> _ttp://m.pc.watch.impress.co.jp/docs/news/1091458.html
>>>>
>
>>>>>>14 YAMAGUTIseisei 180610 0214 OGJRAL12?
:
> >514 ｰ 180529 1650 Eyr5VUGH
>> NVIDIAの人がPEZYの話をしてた、HPC分野でNVIDIAを超える可能性のあった唯一の企業だって
>>_ttp://mobile.twitter.com/raven_38_/status/1001258888149139457
:

>652 ｰ 190919 1100 6eCVk23p
>AI開発、チップでも競
>_ttp://r.nikkei.com/article/DGXMZO49938360Y9A910C1TJN000

>651 ｰ 190919 1050 6eCVk23p
> 2019年時点の世界のエクサスパコンの開発状況
>_ttp://news.mynavi.jp/article/isc2019_sterling-2/
https://twitter.com/5chan_nel (5ch newer account)

**yamaguti** · 2019/10/30(水) 06:26:46.85

>>5-11 PEZY
_ttp://google.jp/search?q=2ch+future+furou+cyouju+OR+tokuiten