大規模言語モデル(Large Language Model; LLM)
非常に巨大な学習データ(テキスト)と深層学習を用いて構築された巨大なニューラルネットワークによる言語モデル。言語モデルとは、基本的には単語の並びが与えられるとそれらの単語の並びが出現する確率を計算するものであるが、GPT等の大規模言語モデルは、与えられたテキストに対し後続する単語を確率的に予測し、確率が最大となる単語を出力することを繰り返し、それらの単語を繋いでいくことでテキストを生成することができる。
ハルシネーション
LLMが事実に基づかないテキストを生成する現象を指す表現。LLMが幻覚(=ハルシネーション)を見ているかのように、事実と異なる内容やもっともらしい嘘を生成するため、このように呼ばれる。事実を期待して出力を求めた際に、もっともらしく事実と異なる内容を出力するため、問題視されている。
マルチモーダルAI
モーダル(modal)とは、「様式の」、「様態の」などを意味する表現であり、この分野では、マルチモーダルデータと言った場合には、複数種類のデータ(例えば、テキスト、音声、画像など)を指す。マルチモーダルAIとは、このようなマルチモーダルデータを一つのAIで扱うことができるAIである。例えば、テキストのみを扱えるAIを発展させて画像とテキストを同時に扱うことができるAIを開発することが最近活発に行われているが、このようなAIをマルチモーダルAIと呼ぶ。