>「2021年には、言語モデルが視覚的な世界を意識し始めます。テキストだけでも世界に関する多くの情報を表現できますが、私たちは視覚的な世界にも生きているので、言語だけでは不完全なのです」

>GPT-3の小型版(パラメータ数120億)でテキストと画像のペアに特化して学習させたDALL-Eには、すでにマルチモーダルの一端をうかがえた。
OpenAIは当時、「言語を介して視覚的な概念を操作することは、もはや手の届くところまで来ている 」と述べていた。