音声をスペクトル画像にしたら画像認識の仕組みで音声認識できないかな
もしくは画像をストリームデータにして音声認識の仕組みで画像認識する