>>938
AIciaさんの予測だと今のままのTransformerだと1兆〜数兆パラメータで精度のスケーリング則は破綻するだろうと。
https://www.youtube.com/watch?v=n1QYofU3_hY(18:20頃から)
まあ個々のタスクの精度は100%という上限があるからこの予測の当否に関わらずいずれ頭打ちになるだろう。
問題は、大きくしていくと新しい機能に目覚める方で、これがいつまで続くのか。

GPT-4はDeepMind の「Chinchilla」の様に最適化を目指して改良しているのかもな。
今のまま大きくすると消費電力も莫大になるから。
まあ、スケーリング則が続く限り改良されたそれも結局は大きい方が高性能になる図式だけど。
あとGPT-4ではDALL-Eなどの成果を応用したマルチモーダル化も当然予想される。