アドレッシングで余分に時間がかかったりしない
その為のハードウェア演算回路

ARMならCortex-M0でもメモリアクセスノーウェイトなら1クロックでアドレス演算含めて読み書きできるし
x86なら1クロックで(コアあたり)2個のロードと1個の書き込みが同時に出来る