NTT、LLMにより視覚情報も含めて文書を読解する視覚読解技術を確立

日本電信電話株式会社(以下、NTT)は12日、大規模言語モデル(LLM)によって文書を視覚情報も含めて理解する視覚読解技術を実現したと発表した。実験において、文書画像を提示しながら、あらゆる質問への回答を行う人工知能(AI)の実現への可能性を示唆する結果が得られており、デジタルトランスフォーメーション(DX)におけるコア技術として期待されるとしている。また、同成果は、NTT版大規模言語モデル「tsuzumi」のアダプタ技術として採用・導入されている。
情報元サイト:「クラウド Watch」
[ オリジナルサイトで見る ]

関連記事一覧

  • コメント ( 0 )

  • トラックバックは利用できません。

  1. この記事へのコメントはありません。