>>107
そう。深層学習は

重み行列×入力ベクトル

の内積計算だけど、行列の値も、入力ベクトルの値もVRAM上にある
つまり数千のGPUコアでいくら並列計算できても、個々のGPUコアがVRAMからデータを拾ってくる部分
つまりGPUとVRAMの帯域幅が狭ければ、速度は上がらない

RTX3060 12GBのGPUとVRAMの帯域幅は 360GB/s

CPUとユニファイドメモリーのLPDDR5-8000 の1チャンネル分の帯域幅は64GB/s、圧倒的に遅い
一般のDIMMソケットを使った低速なDDR5ならさらに半分以下しか出ない

逆にサーバー用の最新GPUのB200は8TB/sの帯域幅がある