以前の動的アーキテクチャ[7,9]は、タスクとスレッドレベルの並列性を利用する能力を実証しましたが、データレベルの並列性を扱うには、データを独立したセットに分割し、スレッドレベルの並列性 ry
? このホワイトペーパーでは、 ry 、E2の予備ベクタユニット設計 ry 。
この論文では、スレッディングがなくてもデータレベルの並列処理を効率的に活用することに焦点を当て、E2 で準備されたベクタユニットの設計について説明します。
? 以前のイン・オーダー・ ry 。
従来のイン・オーダー・ベクトル・マシンとは異なり、E2では、ベクトルとスカラーの両方のアウト・オブ・オーダー ry
。 E2命令セットと実行モデルは、幅広いコードにわたって効率的なベクトル化を可能にする3つの新しい機能 ry
。第1に、静的にプログラムされた問題ウィンドウをベクトルレーンにスライスすることにより、スケーラモードよりも低いエネルギーオーバーヘッドで高度に並行したアウトオブオーダーの混合スカラーおよびベクトル演算 ry
? ry 予約ステーション ry 、ワイドフェッチをメモリに、ベクトルロードとベクトル演算との間のコピーを制限する。
第2に、静的に割り当てられたリザベーションステーションは、発行ウィンドウをベクトルレジスタファイルとして扱うことを可能にし、メモリのワイドフェッチの限界まで活かせるコピーを、ベクトルロードとベクトル演算との間で行う。
第3に、E2のアトミックブロックベースモデルは、リザベーションステーションにマップされたベクトル(およびスカラー)命令ブロックのリフレッシュを可能にし、
最初のループ反復の後にフェッチまたはデコードエネルギーオーバヘッドなしで発行する反復ベクトル演算を可能にする。
ry 、これらの最適化は、幅広いコードにわたって多くのサイズのベクトルを見つけて実行することに関連するエネルギーを削減 ry