もう立ち上げてるだろ
IT大手はみんな音声認識→音声合成ベースの汎用AIの研究に躍起

前スレで話してた音声変化率ベースの機械学習AIについて少し勉強して固まってきたわ
Attention+HMMで、最初の特徴量として入力するベクトルを
0~n次元のフォルマント周波数変化率ベースにしてみるといいって思った

文字や画像による重み付けはこのベースが固まった後でいくらでも追加すりゃいい