形式言語

印刷用ページはサポート対象外です。表示エラーが発生する可能性があります。ブラウザーのブックマークを更新し、印刷にはブラウザーの印刷機能を使用してください。

形式言語(けいしきげんご、英: formal language)とは、文法や構文, 統語論などが、すべて形式的に与えられている言語である。人工言語の一種^[1]。

→「形式体系」も参照

形式的でないために、しばしば曖昧さが残されたり、話者集団によって用法がうつろいていったりする自然言語に対して、形式言語は、用法の変化に関しては非常に厳格である。

この記事では、形式的な統語論すなわち構文の形式的な定義と形式文法について述べる。形式的な意味論については形式意味論の記事を参照。

定義

形式言語の理論、特にオートマトン理論と関連したそれにおいては、言語はアルファベットの列(語 word) の集合である^[2]。

$L\subset \Sigma ^{*}=\{\langle \sigma _{1},\sigma _{2},...\rangle |\sigma _{i}\in \Sigma \}$ {\displaystyle L\subset \Sigma ^{*}=\{\langle \sigma _{1},\sigma _{2},...\rangle |\sigma _{i}\in \Sigma \}}

ただし、長さゼロの空単語(Empty Word, 記号 $e$ {\displaystyle e}、 $\epsilon$ {\displaystyle \epsilon }、 $\Lambda$ {\displaystyle \Lambda })も含む。チューリングマシンの言語は単なる文字列なので、数学的構造(他のチューリングマシンを含む)を扱うには符号化(エンコード)し、その数値を解釈するプログラムを埋め込む必要がある。チューリング完全機械は十分強力なので、この手法であらゆる列挙可能な構造を扱うことができる。チューリングマシンの数値表現については(チューリングマシンの)表記(description)という。

あるチューリングマシンが存在して、言語に属するすべての語 w に対して動作させると受理状態で停止し、属さない語には受理しないようなとき、その言語はチューリング認識可能という。また、言語に属さないときは必ず拒否状態で停止する場合、その言語はチューリング判別可能であるという。(この2つの違いは、一部の入力に対してチューリングマシンが停止しない場合があるかどうかである) また、チューリングマシンTMの言語 L(TM) とは、テープに w をセットしたあと、TMを動作させると受理状態に入って停止するような w の集合からなる言語(TM認識可能な言語)のことである。

この言語には以下のような演算が定義される。ここで、 $L_{1}$ {\displaystyle L_{1}} と $L_{2}$ {\displaystyle L_{2}} は共通のアルファベットから構成される言語であるとする。

「連結」 $L_{1}L_{2}\quad$ {\displaystyle L_{1}L_{2}\quad } は、文字列群 $vw$ {\displaystyle vw} から構成される。ここで、 $v$ {\displaystyle v} は $L_{1}$ {\displaystyle L_{1}} に含まれる文字列で、 $w$ {\displaystyle w} は $L_{2}$ {\displaystyle L_{2}} に含まれる文字列である。
「積集合」 $L_{1}\cap L_{2}$ {\displaystyle L_{1}\cap L_{2}} は、 $L_{1}$ {\displaystyle L_{1}} にも $L_{2}$ {\displaystyle L_{2}} にも含まれる文字列の集合である。
「和集合」 $L_{1}\cup L_{2}$ {\displaystyle L_{1}\cup L_{2}} は、 $L_{1}$ {\displaystyle L_{1}} か $L_{2}$ {\displaystyle L_{2}} に含まれる文字列の集合である。
$L_{1}$ {\displaystyle L_{1}} の「補集合」は、 $L_{1}$ {\displaystyle L_{1}} に含まれない全ての文字列の集合である。
「商集合」 $L_{1}/L_{2}\quad$ {\displaystyle L_{1}/L_{2}\quad } は、 $L_{1}$ {\displaystyle L_{1}} に含まれる文字列 $vw$ {\displaystyle vw} に対して、 $L_{2}$ {\displaystyle L_{2}} に含まれる文字列 $w$ {\displaystyle w} が存在するときに、全ての $v$ {\displaystyle v} に相当する文字列群から構成される。
「クリーネスター」 $L_{1}^{*}$ {\displaystyle L_{1}^{*}} は、 $w_{1}w_{2}...w_{n}$ {\displaystyle w_{1}w_{2}...w_{n}} という形式の全文字列群から構成される。ただし、 $w_{i}$ {\displaystyle w_{i}} は $L_{1}$ {\displaystyle L_{1}} に含まれ、 $n\geq 0$ {\displaystyle n\geq 0} である。注意すべきは、 $n=0$ {\displaystyle n=0} の場合もあるので、空文字列 $\epsilon$ {\displaystyle \epsilon } も含まれるという点である。
「反転」 $L_{1}^{R}$ {\displaystyle L_{1}^{R}} は、 $L_{1}$ {\displaystyle L_{1}} の全文字列を反転させた文字列群から構成される。
$L_{1}$ {\displaystyle L_{1}} と $L_{2}$ {\displaystyle L_{2}} の「シャッフル」とは、 $v_{1}w_{1}v_{2}w_{2}...v_{n}w_{n}$ {\displaystyle v_{1}w_{1}v_{2}w_{2}...v_{n}w_{n}} で表される全文字列から構成される。ここで、 $n\geq 1$ {\displaystyle n\geq 1} で、 $v_{1},...,v_{n}$ {\displaystyle v_{1},...,v_{n}} を連結した $v_{1}...v_{n}$ {\displaystyle v_{1}...v_{n}} は $L_{1}$ {\displaystyle L_{1}} に含まれる文字列であり、 $w_{1},...,w_{n}$ {\displaystyle w_{1},...,w_{n}} を連結した $w_{1}...w_{n}$ {\displaystyle w_{1}...w_{n}} は $L_{2}$ {\displaystyle L_{2}} に含まれる文字列である。

モデル理論においては、言語は定数記号、関数記号、述語記号の集合である^[3]。

$L=\{c_{0},c_{1},...\}\cup \{f_{0},f_{1},...\}\cup \{p_{0},p_{1},...\}$ {\displaystyle L=\{c_{0},c_{1},...\}\cup \{f_{0},f_{1},...\}\cup \{p_{0},p_{1},...\}}

形式文法

→詳細は「形式文法」を参照

形式言語は、形式文法と密接な関係がある。例として、次のような文脈自由文法の構文規則があるとき、

名詞句 ::= 名詞 | 形容詞名詞 | 名詞句 "を" 動詞 "ている" 名詞句
動詞 ::= "見"
名詞 ::= "猿" | "飼育員"
形容詞 ::= "小さい"

以下のように規則を再帰的に適用して、その言語の要素(名詞句)を列挙することができる。

(猿飼育員小さい猿小さい飼育員)
(猿飼育員小さい猿小さい飼育員猿を見ている猿猿を見ている飼育員猿を見ている小さい猿 ... 小さい猿を見ている猿 ...)
(猿飼育員小さい猿小さい飼育員猿を見ている猿 ... 猿をみている猿を見ている猿 ... 小さい猿を見ている猿を見ている小さい飼育員を見ている猿 ...)

...

すなわち、このような操作の任意回の繰り返しによって、その言語(文の集合)が得られる。

また、形式文法が階層をなすというチョムスキー階層は、生成する言語では言語の認識に必要な最小のオートマトンが階層をなすという形で現れる。

その他

この節には独自研究が含まれているおそれがあります。 問題箇所を検証し出典を追加して、記事の改善にご協力ください。議論はノートを参照してください。(2015年11月)

言及される分野

形式言語は、「人や計算機の如何なる記号変換能力から如何なる思考能力や計算能力が生まれるか」の学としての広義の数理論理学の研究対象であり、従って形式言語は、哲学・言語学・計算機科学・数学基礎論・数理心理学等々において重要な役割を演ずる。それらの学問分野では、如何なる形式言語を研究すべきかの文法論(構文論・統辞論)や形式言語の意味論や演繹論が研究される。

形式手法という場合には、形式言語に加えて、模擬試験、検証・証明などの仕組みを込みで言う場合が有る。

自然言語への応用

→「生成文法」および「句構造文法」を参照

自然言語を比較的単純な形式言語のモデルにあてはめて分析する言語学は、チョムスキーによって提唱された。音素や語幹などを素記号として考える。実際の自然言語の構文規則(あるいは文法)は、文字通り自然発生的のものであり、形式言語における構文規則のように明確に規定するのは難しい。

ただ、素朴な文法論の主張は、形式言語の理論とみなすことができる。素朴な文法論は、例えば次のようなものである。

品詞にはこのようなのものがある。
この語はあの品詞に属す。
この品詞に属す語をこの活用と組み合わせと順序とで並べると文(や句や節)になる。

こういう文法論はすなわち、素記号とは何かを定め、それらから文を作る構文規則を定めるのだから、まさに形式言語の理論である。

こういう形式言語論的な文法論は、実際の言語と比較することで自然言語の特徴を浮き彫りにし、自然言語のより深い理解へと導くことを可能とすることもなくはない。言語そのものではなく、言語行動の深層をなす人間精神を探るためには、むしろこういう文法論を数学化し、更に意味論・文法論を伴った論理学にまで推し進めることが有意義ともいえよう。

脚注

[脚注の使い方]

^ 言語学その1~当たり前過ぎて意識しなくなっていること
^ Micael Sipser (2005). Introduction to the Theory of Computation. ISBN 0534950973
^ 坪井明人 (2011年). "数学基礎論サマースクールモデル理論入門". 2012年2月18日閲覧。

ウィキメディア・コモンズには、形式言語 に関連するカテゴリがあります。

論理学

関連項目

学術的領域

基本概念

哲学的論理学

批判的思考と非形式論理学	分析曖昧信念信用性 (英語版) 根拠説明説明力 (英語版) 事実誤謬探究意見節約根拠プロパガンダ思慮分別 (英語版) 推理関連修辞学厳格漠然 (英語版)
論理学の哲学	構成主義真矛盾主義虚構主義有限主義 (英語版) 形式主義直観主義論理的原子論 (英語版) 論理主義唯名論プラトニック実在論 (英語版) プラグマティズム実在論

メタ論理学と超数学

数理論理学

基幹	形式言語構成規則形式体系演繹システム (英語版) 形式的証明形式意味論論理式集合元クラス古典論理公理自然演繹推論規則有限関係 (英語版) 定理論理的帰結公理系型理論記号統語論 (英語版) 理論 (英語版)
名辞論理学 (英語版)	命題推論論証妥当性三段論法反対の正方形ベン図
命題論理とブール論理	ブール関数命題論理論理演算真理値表原子論理式リテラル
述語論理	量化全称記号存在記号一階述語論理二階述語論理高階述語論理単項述語計算 (英語版)
標準形	連言標準形選言標準形否定標準形冠頭標準形スコーレム標準形節標準形
集合論	集合空集合数え上げ外延有限集合関数部分集合冪集合可算集合帰納的集合定義域値域順序対非可算集合
モデル理論	モデル (英語版) 解釈 (英語版) 超準モデル有限モデル理論真理値妥当性
証明論	形式的証明演繹システム (英語版) 形式体系定理論理的帰結推論規則統語論 (英語版)
再帰理論	再帰帰納的集合帰納的可算集合決定問題チャーチ=チューリングのテーゼ計算可能関数原始再帰関数
表現	真理値表クワイン・マクラスキー法カルノー図存在グラフ概念地図オイラー図ベン図スパイダー図タブローの方法 Xバー理論構文木構文解析

非古典論理

様相論理学	真理様相 (英語版) 価値様相 (英語版) 義務論理信念様相 (英語版) 認識論理時相論理線形時相論理
直観主義	直観論理構成的解析 (英語版) ハイディング算術 (英語版) 直観主義型理論構成的集合論 (英語版)
ファジィ論理	真理の程度 (英語版) ファジィルール (英語版) ファジィ集合ファジィ有限要素 (英語版) ファジィ集合演算 (英語版)
部分構造論理	構造規則 (英語版) 適切さの論理線形論理
矛盾許容論理	真矛盾主義
様相記述論理 (英語版)	存在論オントロジー言語 (英語版)

論理学者

カテゴリカテゴリ

「https://ja.wikipedia.org/w/index.php?title=形式言語&oldid=102059240」から取得