>>710
そういう低レベルな処理の最適化は得意
色々とアドバイス出来ると思います

wait_fastは関数?
であればNOPを並べただけのマクロに変更

あとはループアンロールなど基本的な最適化技術を学びましょう
最終的にはアセンブラ化ですかね