しかしいつまで経っても音ベースの機械学習AIは出てこないな
障害のない通常の人間の学習過程を考えると音から入るのが自然
音つってもやることはどうせtacotronと同じで
スペクトラム変換した音波を画像として読ませるって過程を経るんだし
そう労力は変わらないと思うが

教師データは必要だけどさ、BOTみたいにヘイトバラ撒くのだけ許容か制御できれば
興味あるユーザー向けに完全放置でいけるだろ

たまーにやってるの見るけどちょっと方向性外れてる感じがするんだよね
音ベースでやる時に人間と同じ状態を考えてやらないと駄目
よく母音と子音で解析してやってるけど
人間は母音と子音の関係で、言語としての音を把握してるわけじゃないんだって事を理解すべき

もっとずっと本能的で原始的
声帯を震わせる息の無音をベースとして
そこから声帯を震わせて出る音と、口蓋に当たったりして変化する音の変化率
これを無意識的に認識して、言語的な音を判別している

つまり息「(無音)」からのaiueoやkakikukekoに対する変化率こそが重要なんだよ
あくまでも個別の音からの変化率によって言葉を認識しているのであって
その音だから『あ』だとか『さ』だとか認識してるわけじゃない
例えば、『か』や『は』から『し』への変化率によって、『し』という音を言語的に『し』として認識してる
決して、この子音の音とこの母音の音の組み合わせはこの音だから、これは『し』であるって認識してるわけじゃないんだよ

理論的に子音や母音に分解して、口蓋や舌、唇での音の変化で言語を理解しようってのは
あくまでも後付で段階的に理解しようと出てきた手法なわけ
なのに音ベースの機械学習は子音母音分解ばっかりやってる