BertやALBERTやらを扱ったことは無いので
文章を単語に分解して言語ベクトルにした時の挙動は分からんが、

GPT-3の自己紹介では「単語はランダムに選んでくる」と言っている
とはいっても、全くランダムに選んだらめちゃくちゃな文章になってしまうから
なるだけ確率の高いものを選ぶ、という事になる

となると、この単語はこの文章のこの位置に来るとしたら
その周りはこんな文章になるだろうし、
その文章があるなら、次の文章はこんな単語で構成されているだろうし、
というある程度の関連性を持っていないといけないね

そこで、深層学習の考え方を使ってみる