32bitでアセンブラでガシガシに組んだら
1ビット平均4.5クロックくらいになりました

SCLK HIGH 2クロック / LOW 2クロック
残りはループやデータロードなどオーバーヘッド

ただし、
純粋にCPU部分だけの性能なんで
回路やバスがボトルネックになるかもしれません

非常識なコードまで含めれば
最短、2クロック + オーバーヘッド
になります