はじめに チューリング基盤AIチームの @stu3dio_graph です。 チューリングでは視覚と言語を統合的に理解できるAIを自動運転に応用するため,LLMを視覚モーダルに拡張したVision-Language モデル(VLM)「Heron」の開発に取り組んでいます。 チューリングは経済産業省およびNEDOが推進する日本の生成AIの開発力強化に向けたプロジェクト GENIAC第2期 に採択されました。GENIACでは,完全自動運転を見すえた「身体性」を持つマルチモーダル基盤モデルの開発に取り組みました。日本語環境で高性能なマルチモーダル基盤モデルを作るためには,品質のいい日本語画像およびテキストデータを大量に収集することが不可欠です。 このたび,日本語環境で高性能なVLM; Heron-NVILA-Lite に加えて,Heron-NVILA-Lite の学習のために作成したデータセット