>>113
頑張って書かれていることを読み解こうとしてみたけど、ちょっとズレてると思う。
僕もそんなに詳しくないけれども、まず、ディープラーニングについて整理させてね。(詳しい人突っ込みお願い)

学習を目的とした、入力データと教師データのペアをトレーニングデータセット。
例)入力X飛行機の画像121枚フォルダ名がY1番、X猫98枚Y2番、X犬107枚Y3番・・・・・

学習状況の評価のためにトレーニングデータセットの一部を抽出して使う
入力データと教師データのペアをバリデーションデータ。
例)猫3枚は2番と定義済みなので猫3枚を入力すると2番と答えるかどうか。

推論を目的とした、入力データのみのデータをテストデータセットといいます。
例)何が映っているか分からない画像 1枚

画素は(x、y、rgb)100dot×100dotなら10000pixelが赤青緑で3レイヤー
簡単に10000pixelが入力のXで、0.00〜1.00の数字が1万個とし、推論のYは1番なら飛行機、2番なら猫、3番なら犬・・
という風にXとYを定義します。

で、ものすごく大雑把に間違いを含めて説明すると、>103で紹介の松尾氏のいうのは”最小二乗法”というか(y=ax+b)のような関数の話。
例えば(y=ax+b)が今 犬3番=係数 a 掛ける0.50+b の時にaとbを変化させて3番になるようにする。

3=a×0.50+b でaが4なら 3=4x0.50+b でb=1が求まる結果 学習後(y=4x+1)の式が完成し、

未知の入力データが例えば 0.25をXに入力すると(y=4x0.25+1)=2となって2番の猫ですという推論される。

ここでトレーニングデータセット次第でなんでもよいのであって
単語や文章でX1リンゴ、X2自動車、X3sports・・、Y1がapple,Y2がdog,Y3が鉛筆・・
(Y2がdog)=a×(X2自動車)+b と定義してabを学習させれば車の絵を見せてdogと答えさせられるってだけ。