X



(強いAI)技術的特異点/シンギュラリティ177
■ このスレッドは過去ログ倉庫に格納されています
0001オーバーテクナナシー垢版2019/10/30(水) 03:34:13.72ID:dJlHJ5Ds
2045年頃に人類は技術的特異点(Technological Singularity)を迎えると予測されている。
未来技術によって、どのような世界が構築されるのか?人類はどうなるのか?
などを様々な視点から網羅的に考察し意見交換する総合的なスレッド

■技術的特異点:収穫加速の法則とコンピュータの成長率に基づいて予測された、
生物的制約から開放された知能[機械ベース or 機械で拡張]が生み出す、
具体的予測の困難な時代が到来する起点

■収穫加速の法則:進歩のペースがどんどん早くなるという統計的法則
ここでの進歩とは、技術的進歩だけでなく生物的進化、生化学的秩序形成も含む

★ 関連スレ(特化した話はこちらで)
(AI) 技術的特異点と政治・経済・社会 (BI)
goo.gl/riKAbq
(情報科学) 技術的特異点と科学・技術 (ナノテク)
goo.gl/RqNDAU
★姉妹スレ(ワッチョイ付)
(強いAI)技術的特異点/シンギュラリティ173
https://agree.5ch.net/test/read.cgi/mango/1569076583/


※前スレ
(強いAI)技術的特異点/シンギュラリティ176
https://rio2016.5ch.net/test/read.cgi/future/1571573897/
0014yamaguti垢版2019/10/30(水) 06:01:29.29ID:mUIxiXRX
5 リスクだらけ
_ttp://wired.jp/2019/08/25/terrifying-potential-of-the-5g-network/##bShjyDOWHZg#b8n2PnYPujc##
0016yamaguti垢版2019/10/30(水) 06:08:26.13ID:mUIxiXRX
【櫻LIVE】 齊藤元章・PEZY Computing代表取締役社長 × 櫻井よしこ(プレビュー版)
_ttp://m.youtube.com/watch?v=9cGdcLAbSu4
ZettaScaler/PEZY-SCの紹介と今後の方向性 〜自動チューニング技術の現状と応用に関するシンポジウム発表資料
_ttp://rio2016.2ch.net/test/read.cgi/future/1489922543/217-266
「健康医療分野のデータベースを用いた戦略研究」
_ttp://rio2016.2ch.net/test/read.cgi/future/1519958054/60-78# PEZY

Google 翻訳 _ttp://arxiv-vanity.com/papers/1612.00530/#
? ry として提供しているので、PDFを詳しく読む必要 ry 。
arXiv Vanityは、 arXivの学術論文をレスポンシブWebページとしてレンダするので、PDF に煩わされる必要はありません。 arXiv.orgでこの論文を読んでください。

 
PEZY-SCプロセッサ上の不規則格子反復法のためのデータ圧縮アルゴリズムの実装と評価

 
Naoki Yoshifuji , Ryo Sakamoto † , Keigo Nitadori ‡ and Jun Makino ァ
Fixstars , 〒141-0032 東京都品川区大崎1-11-1 ゲートシティ大崎ウエストタワー18F ? 大町西タワー18F GateCity
Eメール: yoshifujiATfixstars
† Fixstars , 〒141-0032 東京都品川区大崎1-11-1 18F GateCity大崎ウエストタワー
電子メール: sakamotoATfixstars
現在の住所:101-0052 東京都千代田区神田小川町1-11 5F千代田小川町クロスタ5Fペジーコンピューティング
現在の E メール : sakamotoATpezy ? プレゼントメール
‡ RIKEN AICS , 650-0047 兵庫県神戸市中央区港島南町7-1-26
Eメール: keigoATriken
ァ 657-8501神戸市灘区六甲台1-1神戸大学理学研究科惑星学専攻 ? 惑星学科
電子メール: jmakinoATpeople.kobe-u.ac.


HarmonyOS ロンチイベント ファーウェイデベロッパカンファレンス 2019
_ttp://rio2016.2ch.net/test/read.cgi/future/1571573897/25-31#-36
Subleq ベースのシンプルなマルチプロセッサコンピュータ
_ttp://rio2016.2ch.net/test/read.cgi/future/1562240845/27-43#-50##1562869232/24
0017yamaguti垢版2019/10/30(水) 06:11:52.75ID:mUIxiXRX
>13 YAMAGUTIseisei 180610 0212 OGJRAL12? \|>12 \||>19 yamaguti 180523 0329 nChEz1ni?
|>18
|>人工知能エンジンの性能を1000倍 PEZYが新会社
|> _ttp://news.mynavi.jp/articles/2016/05/20/deep_insights/001.html
|>2 いかにして1000倍
|>Hisa Ando 160520
|>実現の方法 、スパコン 同様 チップの極薄化と磁界結
||。慶應 黒田先生考案の磁界結合による3D 薄く
|>コイル 小さくでき、データレート 8倍
|| 図
|>ニューロンは、多数のシナプス 。電気回路 、非常に大きなファンアウト
||。磁界は複数の極薄チップを通り抜 、大きなファ
||、 アナログ現象 、磁界結合の強さ 、シナプスの結合の重み を変え 可能性
||ーロンを模倣するのに適し
|| 図
|>ロードマップ ry 17年? には100PFlops、2019年? には1Exa ry スパコン と並列して、
|>人工知能の開発ロードマッ 。ハードウェアの7割は共通技術
|>研究・臨床機関やWBAI 、脳の機能の解明が進む
|>PEZY 、2025 ードウェアが脳の機能 、自己進化機能 、人工知能が爆発的に進歩 特異点
|| 図
|>グループは、メニーコア PEZY ry ータシステムを開発するExaScaler、
|>磁界結合の3D ry UltraMemoryの 3社体制 、この6月 Deep Insightsを創立
|>ノイマン型 、独自の構成と製造手法 、Deep Learningなど 大幅に高速
|>7nmプロセス 10倍、磁界結合 メモリを多チャンネル化( 帯域100TB/s)してダイ上に取り込 などで10倍、
|>ダイナミックな計算精度変更 10倍の性能 、全体 1,000倍
|| 図
|>齊藤社長は、WBAIの山川氏などに 人工知能エンジンを供給 、研究を加速 熱望 強調
|| 図 : _ttp://news.mynavi.jp/photo/articles/2016/05/20/deep_insights/images/017l.jpg
|>
|> _ttp://rio2016.5ch.net/test/read.cgi/future/1427220599/553-554
0018yamaguti垢版2019/10/30(水) 06:16:11.35ID:mUIxiXRX
抄録
不規則格子上の反復法は、複雑な幾何学を持つ偏微分方程式を解くために、計算科学および工学のすべての分野で広く使用されてき た。
それらは、比較的低い計算コストで複雑な形状を表現 柔軟性を提供 。
しかし、過去20年 高性能プロセッサの進化の方向性は、比較的低いメモリ帯域幅のために、不規則グリッド上の反復法の計算効率の深刻な低下を引き起 。
データ圧縮は、原則 、反復方式に必要 メモリ帯域 削 、 効率を向上 できます。
例 HPCGベンチマーク用に生成された行列 、PEZY-SCプロセッサにいくつかのデータ圧縮アルゴリズムを実装 。
? ry 帯域幅のために理論 ry 。
HPCGベンチマークのSpMV(Sparse Matrix-Vector Multiplication)部分では、データ圧縮なしの最良の実装では11.6Gflops /チップを達成 。これはメモリメモリ帯域幅に沿った理論上の限界に近い値 。
データ圧縮を使った私たちの実装は32.4Gflopsを達成 。
HPCGで使用 グリッドは幾何学的に規則的 、したがって 圧縮効率が非常に高いため、これはもちろんかなり極端なケース
? しかし、実際 ry 。
とは言え、実際のアプリ では、特に解像度が高い場合は、グリッドの大部分を規則的なジオメトリにする 可
? データ ry 。
註記しますがデータ圧縮/解凍サブルーチンを追加 以外は、プログラムの構造を変更 要はありませ
? ry なると考えています。
したがって、データ圧縮は、不規則なグリッド に依存する多 アプリ パフォーマンスを向上 に非常に有用な方法になると我々は信じます。

索引用語 -有限要素解析、スパース行列、データ圧縮
0019yamaguti垢版2019/10/30(水) 06:17:12.61ID:mUIxiXRX
>55 YAMAGUTIseisei 180726 0104 2wrAcqec? \>46 YAMAGUTIseisei 180610 0359 OGJRAL12?
>> >98 ー 171206 2312 itknZEZk
>>> 金井良太氏:
>>>PEZYの事件、 意味がわからな 、 、普通ではない事情がありそうだ。 、 憶測が飛び交っ 、 わからなすぎる。
>>>_ttp://mobile.twitter.com/kanair_jp/status/938410492745224192
>>
>>
>> >152 ー 171207 0916 mrk/DpRl
>>> >145
>>>8年で35億 どれだけ出し渋
>>>PEZY-SC2の技術 でエクサ 目指すなら最低 200億 出し
>>
>>
>> >987 ー 171210 0914 o2+RJy7u
>>> >714-716-717 >714-717
>>> 松田先生に概ね同意見だ。
>>>
>>> 今回の斎藤氏逮捕の件ほど日本という国に対してガッカリしたことはない。
>>>PEZY社はGreen500で首位を独占してTOP500でも 世界4位国内1位 、
>>>更に圧倒的な省エネを目指し、TOP500でも世界首位を という 世界に誇る 企業 。
>>> 更に汎用AI開発 、 国力を大きく左右する極めて重要な 日本のキーとなる企業 。
:
>>>PEZYに不備があったと感じたのなら 慎重を期すべきだった。
:
https://twitter.com/5chan_nel (5ch newer account)
0020yamaguti垢版2019/10/30(水) 06:18:51.10ID:mUIxiXRX
I. はじめに

本稿では、PEZY-SCプロセッサ上でのスパース行列とベクトルの乗算(以下、SpMV乗算)の実装と性能 述べる。
特に、パフォーマンスに対するさまざまなデータ圧縮方式の影響に焦点 。
スパース行列とベクトルの乗算は、不規則グリッドを使用する多くの実際のアプリ の中で最も時間がかかる部分 。
最もよく知られている例は、構造解析と他の多くのCAEアプリ のためのFEM(有限要素法) 。
不規則なグリッドは、複雑な形状を持つオブジェクトの分析を可能にするために不可欠
? ry が、一般的に不規則な ッドははるか ry 数の自由でより ry します。
規則的なグリッドを複雑な形状に適用 は不可能ではありませんが一般的には、不規則なグリッドは遥かに少 数の freedoms で、より正確な結果 。

? ry 乗算で合理的な効率 ry 。
しかしながら、現代のHPCシステム上でのSpMV乗算に於ては合理的効率さえ達成 は非常に困難
? この問題には主に2つの理由 ry 。
この困難には 2 つの主たる理由 。
最初のものはメモリ帯域幅
? ry ます。
行列Aとベクトルxの乗算を考えます、
y = A x 。 (1)

? 実際のア では、行列Aは大きすぎてキャッ に収まりません。
現実のアプリ には行列Aは、キャッシュメモリに収めるには大き過ぎます。
? ry yははるかに小さいので、常に広範囲のデータを再利用する可能性があ 。
一方、ベクトルxとyそれらは遥かに小さく、そしてそれらの為の広範囲データ再利用の実現性が常にあります。
? ry 、SpMV動作のため ry の主な部分 ry 。
したがって、 SpMV オペレーションのためのメモリアクセスの支配的部分は、(スパース)行列Aの読み取り 。
0021yamaguti垢版2019/10/30(水) 06:19:18.18ID:mUIxiXRX
? ry Aのゼロ以外の要素数 ry 。
行列Aの正確なデータサイズは、 データ形式によって異なりますが、 A の要素である所の非ゼロなものの個数より小さく できません
? Aの 1つの非ゼロ要素あたり ry 。
A の非ゼロ要素 1 つあたりの浮動小数点演算の数は2
したがって、 倍精度フォーマットである場合、2 浮動小数点演算ごとに8バイトのメモリ読み取り
? つまり、「 ry 。
言換えれば、「必須」B / F(byte per flops)数は8/2 = 4
? ここでは、インデックス用に読み込まれたメモリを無視したことに ry 。
インデックス用に読込まれるメモリを我々が無視している事に注意
? FLLア ry 50100 ry 。
FEM アプリ で行列を保存 に最も効率的な形式 ELL形式 、必要な帯域幅は50〜100%増加する可能性
従って、B / F数に関して要求されるメモリ帯域幅は、6から8の間であり得る。

? ry かなりの部分を ry 。
1980年代のベクトルマシンのハードウェアB / F数は4から12の間だったので、1980年代にはベクトルスーパーコンピュ はSpMV動作のメモリ帯域幅要求の少なくともかなりの割合をサポートできるメモリサブシステムを持っていました。
0022yamaguti垢版2019/10/30(水) 06:19:41.50ID:mUIxiXRX
_ttp://webcache.googleusercontent.com/search?q=cache:arxiv.org/pdf/1612.00530#2

? マシン ry 秒あたりの浮動 ry の理論上のピーク ry 。
ここで ハードウェアB / F数は、1秒当り浮動小数点演算数で測定 浮動小数点演算ピーク性能理論値で割った、バイト/秒での理論的な(または測定 )メモリ帯域幅と 定義 。
1980年代のベクトルマシンは、SpMV乗算のために浮動小数点ユニットをビジー状態に保つ 十分なメモリ帯域 持っていました。

しかし、最近のHPCシステムで使用されているマイクロプロセッサのB / F数ははるかに少
? ry 、Kコンピュータ ry 。
、京コンピュータのB / F数は0.5 、 今日の標準ではかなり例外的に高
?ry of around 0.2.
最近のXeonベースのシステムでは、B / F値は約0.2です。
? ry around or less than 5%.
必要なB / F数が6の場合、 現代のHPCシステムの理論上の最大効率が約5%以下 意味します。

? ry マシンのHPLパフォーマンスの測定値 ry パフォーマンスの測定値の比率 ry 。
、2016年6月のHPCGベンチ ※1 のトップ10 マシン HPLパフォーマンス測定値とHPCGパフォーマンス測定値との間の比率は0.4〜5%の範囲であり、Xeonベースのシステムの数は2〜3% 。

? ry は、明らかにそれらに対するSpMV乗算の非常に低い効率の主な理由です。
したがって、現代のHPCシステムの低メモリ帯域幅は、それらでのSpMV乗算の非常に低い効率の明らかな筆頭の理由 。

※1 _ttp://www.hpcg-benchmark.org/custom/index.html?lid=155&slid=288
0023yamaguti垢版2019/10/30(水) 06:20:08.55ID:mUIxiXRX
第二の理由は、現代の設計者がやや広い幅(4〜8ワード)のSIMD演算装置を採用する傾向
? ry 、ベクトルまたは行列のいずれかの要素 ry 。
不規則行列に対するSpMV演算の計算カーネルは、ベクトルのか行列のかどちらかの要素への間接アクセス 要 。
ワイドSIMDユニットを搭載 最新のプロセッサでの間接アクセスのパフォーマンスは非常に低 。
一部のプロセッサは、間接メモリアクセス用のSIMD操作をサポートしていません。
間接メモリアクセスのためのSIMD命令を持つマシン上でさえ、それらのスループットは単純なSIMDロード/ストア命令よりはるかに低 。
一部のマシンでは、この非効率によってSpMV操作のパフォーマンスがさらに低下 可能性 。

? ry は、要素ごと(EbE)の方法です。
必要なメモリ読み取りを減らすための1つの方法は、 EbE ( element-by-element : 要素ごと ) メソッド
? ry では、スパース行列Aは、各要素の元の ry データからその場で構築 ry 。
EbE法では、各要素の、元の物理データと位相データとから、オンザフライでスパース行列 A が構築
? すべての要素 ry は生成 ry を減らす ry 。
その全要素の総データ量は、生成された行列のサイズよりもかなり小 、メモリアクセスの量を我々は減 。
行列のオンザフライ構成の計算コストがかなり高い場合でも、EbE法に移行 で総計算時間を大幅に減 。
EbE法は、計算コストが増加しても実際の計算速度を大幅に向上 、多くのFEMアプリ で広く使 。
0024yamaguti垢版2019/10/30(水) 06:22:34.99ID:mUIxiXRX
必要 メモリアクセス量を減 に潜在的に有用であり得る別 法は、 行列を圧縮 。
ただし、HPCアプリ でのデータ圧縮の使用に関する多 研究論文があるにもかかわらず、SpMV乗算へのデータ圧縮の適用に関する研究はほとんどない
? ry するためには、1つの行列要素あたり ry 。
考えられる理由の 1 つは、実際の高速化を達成 際の、行列要素 1 つあたりの浮動小数点演算の数が2つだけなので、データ圧縮解除アルゴリズムは非常に効率的でなければならないこと
? 解凍ア が2、3以上の命令を必要 ry それは総費用のかなり ry 。
ほんの幾つかでなく更なる命令をもしも解凍アルゴリズムが必要 ならば、 トータルコストのかなりの増加を引き起
? ry に、一般に、解凍ア はいくつかのテーブル ry 操作、すなわち現代 ry 特に効率的ではない間接的なメモリアクセスを必要 ry 。
さらに、現代のマイクロプロセッサにとって特に非効率的な、テーブルルックアップ操作即ち間接メモリアクセスをいくつか、一般に解凍ア は必要とする。

一方、システムのハードウェアB / F数が極端に小 場合は、データの圧縮/解凍 で、SpMVの乗算でパフォーマンスが大幅に向上 可能性 。

本稿では、HPCGベンチマーク[ 4 ] 、 [ 5 ]のSpMV部分におけるZettaScaler-1.5スーパーコンピュータ[ 7 ]の性能について、データの圧縮/解凍を使用した場合と しない場合について報告 。

ZettaScaler(以前はExaScalerと呼ばれ )システムは、第一世代のPEZY-SC 1024コアプロセッサチップをベースにしています
2014年11月のTOP500リストに掲載され、Green500 2位
2015年6月のGreen500 、3つのExaScalerシステムが上位3つ 占めました。
? ry されたシステムは ry の数を大幅 ry 。
#1 のシステムは、7 Gflops / W を達成し、2014年11月の #1システム を大幅に上回りました。
2016年6月現在、Green500 では依然としてナンバー1 維持 。
0025yamaguti垢版2019/10/30(水) 06:22:55.66ID:mUIxiXRX
データ圧縮アルゴリズムのテストベッドとしてZettaScalerシステムを使用 は、ハードウェアのB / F数が0.05程度とかなり低いため 。
? ry 将来プロセッサに ry 。
したがって、近い将来に於てのプロセッサの為に役立つようなアノ ゙ムのテストベッドとして理想的
? さらに、その ry 。
付加えると、そのプロセッサコアはSIMDユニットを持っていません。
したがって、データ圧縮を使用してSpMV乗算をかなり高速化 できます。

ZettaScalerシステムは、GPGPUがPCIe を介してIntel Xeonプロセッサーに接続 、Xeon がInfinibandネットワーク 接続される、最新のGPGPUベースのシステムとかなり似ています。
、ZettaScalerシステムには2 独自の機能
? 最初のものはもちろん物理的に共有されたメモリと階層的なキャッシュを ry 。
1 つ目は勿論、物理共有メモリと階層的キャッシュとを持った1024コアMIMDプロセッサであるPEZY-SC チップ
? ry
日本のベンチャー企業、PEZY Computingによって開発
2つ目の特長は、フルオロカーボン(3M Fluorinert FC-43) 液浸冷却システム 。
ZettaScalerシステムでは、高密度実装を実現 ために、Xeon 用のマザーボードとPEZY-SC 用のプロセッサカードを設計
? ry チップの接合部温度を低下させる ry 的な操作が ry 。
液浸冷却 は、PUE 減少させ、さらに チップの連接部温度をも又減少させる 利点 、 、 エネルギー効率 優 。
ただし、ZettaScalerシステム ワッ パ が高い 主な理由は、PEZY-SCプロセッサ自体の設計 。

? ry プロセッサは、TSMC ry 使用して、それぞれ完全 ry を備えた1024個のMIMDコアを ry ダイに統合します。
PEZY-SC は、完全にパイプライン化された倍精度乗算加算(MAD)ユニットを各々備えた MIMD コア × 1024 個を 400mm ^ 2のダイに、TSMCの28HPMプロセスを使用して統合しています。
公称消費電力は733 MHzクロックでの動作でわずか65 W 。
0026yamaguti垢版2019/10/30(水) 06:23:32.70ID:mUIxiXRX
_ttp://webcache.googleusercontent.com/search?q=cache:arxiv.org/pdf/1612.00530#3

? ry 倍精度稠密 ry 低い(わずかに低い)にも ry 達成HPLでは50%以上。
少なくともHPLベンチマーク、またはより具体的にはDGEMM演算(倍精度密行列乗算)の場合、理論 ピーク 比 効率は依然としてかなり低い ( HPL では、 50 % よりも僅かに良好 ) にもかかわらず、PEZY-SC はワットあたり非常に優れた性能を達成 。
一方、PEZY-SC は階層型(ただし非コヒーレント)のキャッシュと物理的に共有されたメモリを備えたMIMDメニーコアプロセッサであるため、アプリ 移植は比較的簡単 。
、OpenCLのかなりよく設計されたサブセットであるPZCLもサポート 。

? ry 最初のPEZY ry 性能を紹介し、これまでの研究では通常 ry 適用した。
本稿では最初に、これまでの研究での通常の最適化を適用した PEZY-SC でのHPCGの性能を示す。
次に、オンザフライでのデータ圧縮 解凍 したSpMV操作の「最適化 」実装のパフォーマンス 説明 。

この論文は以下のように構成 。
、セクションII 、PEZY-SCプロセッサとZettaScalerシステムの概要を説明 。
セ ョンIII 、PEZY-SC 上でのHPCGの実装 説
ョンIV 、パフォーマンス結果を示
Vで 、私たちが実装したデータ圧縮/解凍アルゴリズムとPEZY-SC上で測定された性能を提
VI 、論文を要約し、研究開発の今後の方向性 。
0027yamaguti垢版2019/10/30(水) 06:24:31.42ID:mUIxiXRX
>7 yamaguti 181214 0647 QfhBU4VJ \ \>78 yamaguti 180811 1931 v5kZKb/x?
:
>>>> >18 ー 180807 1036 Hj9UY+by
>>>> :
>>>>>テスラが「AIチップ」を自社開発 、 型破り
>>>>>_ttp://wired.jp/2018/08/07/tesla_selfdriving/
:
>>>>_ttp://google.jp/search?q=pezy-sc##
>>> _ttp://m.pc.watch.impress.co.jp/docs/news/1091458.html
>>>>
>
>>>>>>14 YAMAGUTIseisei 180610 0214 OGJRAL12?
:
> >514 ー 180529 1650 Eyr5VUGH
>> NVIDIAの人がPEZYの話をしてた、HPC分野でNVIDIAを超える可能性のあった唯一の企業だって
>>_ttp://mobile.twitter.com/raven_38_/status/1001258888149139457
:

>652 ー 190919 1100 6eCVk23p
>AI開発、チップでも競
>_ttp://r.nikkei.com/article/DGXMZO49938360Y9A910C1TJN000

>651 ー 190919 1050 6eCVk23p
> 2019年時点の世界のエクサスパコンの開発状況
>_ttp://news.mynavi.jp/article/isc2019_sterling-2/
https://twitter.com/5chan_nel (5ch newer account)
0028yamaguti垢版2019/10/30(水) 06:26:46.85ID:mUIxiXRX
>>5-11 PEZY
_ttp://google.jp/search?q=2ch+future+furou+cyouju+OR+tokuiten
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況