技術的特異点/シンギュラリティ184【技術・AI】

**オーバーテクナナシー** · 2020/02/12(水) 09:09:09.56

2045年頃に人類は技術的特異点(Technological Singularity)を迎えると予測されている。
未来技術によって、どのような世界が構築されるのか？人類はどうなるのか？
などを様々な視点から網羅的に考察し意見交換するスレッド

※社会・経済・政治の変化やベーシックインカムなどに関する話題は別スレへ

■技術的特異点：収穫加速の法則とコンピュータの成長率に基づいて予測された、
生物的制約から開放された知能[機械ベース or 機械で拡張]が生み出す、
具体的予測の困難な時代が到来する起点

■収穫加速の法則：進歩のペースがどんどん早くなるという統計的法則
ここでの進歩とは、技術的進歩だけでなく生物的進化、生化学的秩序形成も含む

★避難所スレ（ワッチョイ付）
(強いAI)技術的特異点/シンギュラリティ
https://agree.5ch.net/test/read.cgi/mango/1569076583/

※前スレ
技術的特異点/シンギュラリティ183【技術・AI】
https://rio2016.5ch.net/test/read.cgi/future/1579134861/

技術的特異点/シンギュラリティ182【技術・AI】
https://rio2016.5ch.net/test/read.cgi/future/1576844032/

技術的特異点/シンギュラリティ181【技術・AI】
https://rio2016.5ch.net/test/read.cgi/future/1575358810/

**yamaguti** · 2020/02/15(土) 00:37:14.17

>38 yamaguti 191221 0153 cXYjGDf2
> _ttp://rio2016.2ch.net/test/read.cgi/future/1559851720/54# DensiZunouTeki Sekkei ## TaihuLight SW26010 JianZhangSensei
> Smalltalkの背後にある設計原則
>_ttp://rio2016.2ch.net/test/read.cgi/future/1554363939/71-85#-88##1555604755/52#+plan9+elis-tao+simpos-esp+amigaos/intent+hongmngos+spurs/cell+model1sega+tronchip+hpky-universaltransformer
>
> Google 翻訳 _ttp://webcache.googleusercontent.com/search?q=cache:cFXKfQwoUVMJ:www.iccs-meeting.org/archive/iccs2018/papers/108620619.pdf
>
>
>神威太湖之光のメニーコアプロセッサ上の並列クイックソートアルゴリズム
>
> Siyuan Ren、Shizhen Xu、およびGuangwen Yang
> 中国清華大学
>
>
>
> ICCS Camera Readyバージョン2018
>この論文を引用するには、最終公開バージョンを使用してください
> DOI：10.1007 / 978-3-319-93713-7_61
:
http://rio2016.2ch.net/test/read.cgi/future/1576844032/38-45#34-53# 1
訂正>、 int32 要素でのあらゆる種類のデータ分布で 32 倍超の高速化を達成することが示されています。

　
バックアップとディザスタリカバリ ( 障害復旧 ) との違いは何ですか？
http://rio2016.2ch.net/test/read.cgi/future/1579134861/52-70#-99
訂正>ディザスタリカバリでは、災害時に IT システムなしでのビジネスが可能な時間の最大長の想定案を指定するために、RTO（目標復旧時間）を決定する必要があります。

　
PEZY-SCプロセッサ上の不規則格子反復法のためのデータ圧縮アルゴリズムの実装と評価
http://rio2016.2ch.net/test/read.cgi/future/1575358810/31-54#-62

**yamaguti** · 2020/02/15(土) 00:37:47.84

Subleq ベースのシンプルなマルチプロセッサコンピュータ
_ttp://rio2016.2ch.net/test/read.cgi/future/1562240845/27-43#-50##1562869232/24
面積の効率的な高ILP EDGEソフトプロセッサの実装に向けて
_ttp://rio2016.2ch.net/test/read.cgi/future/1481407726/105-154

>154 名無 200207 0829 I926n3EPC0
>：SoCインターコネクトの内製リスク
>_ttp://eetimes.jp/ee/articles/2002/06/news023.html

>。一流 3人 ――パケット、チャネル、QoS を細分化するネットワーク専門家、設計と検証、ゲート設計 Verilogの知識半導体専門家、そのすべてを最適化ソフト専門家―― 要
>　、 NoCの開発 20～30人、そのチームは 3つのいずれかが弱

**yamaguti** · 2020/02/15(土) 00:38:04.17

3 アルゴリズム

? ry 考え方は、ピボット ry にシーケンスを再帰的に分割 ry 。
元のクイックソートと同様に、基本的な考え方はシーケンスを、ピボット値で区切られたサブシーケンスに再帰的分割
? ry 左に、右に大きく移動 ry 。
ピボットより小値は左に、大右に移動
? このアﾉ ry 。
我々のアルゴリズムは、オーバーヘッド減ために2 フェーズに分かれて。
最初のフェーズは、2パスアルゴリズム並列分割

　
3ページ

? ry 多すぎるまたは小さすぎる場合、各コアが個別にピースをソート ry フェーズに入ります。
ピースが多すぎるか ( 訳注 : 各々が ? ) 充分小さいかの場合、ピースを各コア個別にソートする第2フェーズ、に我々は入ります
? 両方のフェ ry ィションを繰り返して実行。
両フェーズは、わずかに異なるアルゴリズムでパーティショニングを繰返す事で実行されます

? ry ィション
3.1 並列パーティショニング
? 並列分割は、アﾉ ry 。
並列パーティショニングは、我々のアﾉﾞムのコアです
? ry と同様の2パスアﾉ ry 。
[2,1,10]と似た 2 パスアルゴリズムを採用。
同時書き込みを回避するため。
最初のパスでは、各コアは、割り当てられたサブシーケンスのピボットより厳密に小さい要素と厳密に大要素の総数をカウント。
これは、メインメモリからSPMに値を連続してロードし、カウントを累積によって行われ。
その後、コアはカウントについて相互に通信し、次のパスで書き込むべき累積合計によって位置を計算できます。

**yamaguti** · 2020/02/15(土) 00:38:18.20

? ry 。今回は、パーティション分割された結果を結果配列内の独自の位置 ry 。
2番目のパスでは、各コアが独自のパーティション分割を再度行います。この時、パーティション状態な結果を、結果配列内の各独自位置に直接転送します。
すべての読み取りと書き込みが互いに素であるため、このステップは ( 訳注 : 並列同時 ) 並行して実行できます。
? ry a middle gap to be filled by the pivot values.
すべてのコアが結果をコミットした後、結果の配列には、ピボット値で埋められる中間のギャップが残されます。
? コアは、DMA書き込みしてしてギャップを埋めます。
然して各コアは、並列で DMA 書込しそのギャップをフィルします。 (
訳注 : 63450 等でのリンクリストの様な機能 ? ( ギャップ値をアドレス情報として扱ってリンク先の前述ピボット値をリンク元に上書 ? → 同値なピボット値の羅列を単位としたパーティション ? → 最終ピボット値 = 最終結果 ? ) )

? ry 整数の通信、およびピボットで満たされた後 ry 。
したがって、2パスアルゴリズムに必要な同期は、パスのカウント終了時のバリア、少数の整数通信、及びピボットのフィルの後のバリア、のみに制限されます

3.2 値カウントの通信
ターゲットロケーションの計算に必要な値の数が少ないため、DMAまたはGloadを介してワーカーコア間でメインメモリを介して値を交換すると、オーバーヘッドが大。
代わりに、ワーカーコアがレジスタ通信を介してカウントを交換。により一度に最大128ビットの値を転送。
小さいカウントと大カウントは両 32ビットため、1つの64ビット値に連結して一度に通信できます

? ry 必要な合計値は ry 前に注文された ry 。
各ワーカーコアに必要な連結値は2つだけ。1つはその前に使われたコアのカウントの累積合計、もう1つはすべてのカウントの合計。
情報フローは、コアが同じ行または列でのみ通信という制限に対処ために、ジグザグに配置。

**yamaguti** · 2020/02/15(土) 00:38:50.53

3.3 負荷分散
Sunwayには64個のコアがあるため、フェーズIIでは負荷の不均衡が深刻な問題
? ry 浪費する必要があります。
すべてのコアが同時にソートを完了しない場合、早期に終了するコアはアイドル状態になり、サイクルを浪費
? ry カウンターに基づく単純 ry を採用 ry 。
不均衡を減ために、アトミックカウンタベースの単純な動的スキームを我々は採用

? ry ために、各 ry 一部を、すべて ry セグメントのメタデータを保持 ry 。
詳説ために、すべてが個別に並列に並べ替える予定の配列セグメント、のメタデータを各SPMのごく一部が保持するようにします。

　
Page 4

メタデータのストレージがいっぱいになると、各コアはフェーズIIに入り、ソートするセグメントを1つ選択します。
? コア ry インデックスを取得します。カウンターがストレージ ry まで、アﾉ ry 。
どれかのコアが終了すると、メインメモリ内のカウンターをアトミックにインクリメントして
次のセグメントのインデックスをストレージ容量をカウンタが超えるまでは取得し、アルゴリズムはフェーズIに戻るか終了します。

**yamaguti** · 2020/02/15(土) 00:40:22.23

3.4 メモリの最適化
? ry 、DMA ry 。
SPMは非常に小さい（64KiB）ため、メモリオーバーヘッドがあると、一度にバッファリングできる要素の数が減り、よって DMAのラウンドが増

したがって、メモリの最適化は全体的なパフォーマンスにとって重要。
制御構造のメモリオーバーヘッドをさらに削ために、次のトリックを使

? ry 最初に小さいサブアレイ ry 。
1つは、明示的なスタックを使用し、すべてのレベルでのパーティション分割の再帰時に、最初により小さなサブアレイに降ります。
これにより、呼び出しスタックのメモリ使用量がO（log2 N）に制限されますが、ピボットが選択されます[5]。

別法、64ビットポインターを32ビットオフセットに変換し、符号ビットを再利用してオフセットのベース（元の配列または補助配列）を示すことにより、サブ配列の表現を圧縮。
圧縮、各サブアレイ表現バイト数を16バイトから8バに削、50％節約

3.5複数のコアグループ
ﾚゴリズムを複数のコアグループに適用ために、シングルコアグループアルゴリズムを、samplesortなどの従来のさまざまな並列ソートアﾉﾞムと組み合わできます
? ry それらをソートします平行。
n個のプロセッサのSamplesortは3 ステップで構成 [3]：n-1個のスプリッターで配列をn個のばらばらのバケットに分割し
、次にそれらをn個のプロセッサに分配してi番目のプがi番目のバケットを持つようにし、最後にそれらを並列でソート
? ry サンプルソートの意味で各コア ry 単一のプロセッサ ry マルチウェイパーティション分割を行う ry 。
ﾚゴリズムを複数のコアグループに適合には、サンプルソート文脈での各コアグループを単一プロセッサと見なし
、わずかな修正（nカウントを維持し、マルチウェイパーティショニングを行う）を加えて並列パーティションアﾉﾞム（Sect.3.1）の最初のステップを実行。