@bioshok3:
Microsoftがマルチモーダル大規模言語モデル(MLLM)のKOSOMOS-1を発表(KOSMOS-2,3を見据えてる感、音は今後つけるっぽい)。
様々な自然言語タスクに加えて、視覚的対話、視覚的説明、視覚的質問応答、画像キャプション、単純な方程式計算、OCR、画像分類を行える。
https://twitter.com/_akhaliq/status/1630394555613736961
https://twitter.com/bioshok3/status/1630487578389655552/photo/1
https://twitter.com/5chan_nel (5ch newer account)