この記事は,「情報検索:検索エンジンの実装と評価」(Buttcher本) Advent Calendar 2020 20日目のエントリーで,「第7章 動的転置インデックス」についてです。 検索エンジンにインデックスするドキュメントコレクションが,静的(追加/更新/削除が発生しない)であれば,インデックスの保守は不要です。しかし,現実的にそんなケースはごく稀でしょう。多くの場合ドキュメントコレクションは時間とともに変化します。 7章の「動的転置インデックス」では,変化するドキュメントコレクションを検索するための効率的なインデックス保守戦略,アルゴリズムについて解説されています。 ざっくり7章に書かれていることドキュメント追加時のインデックス保守戦略:インデックスのフラグメンテーションを許さない連続的転置リスト方式と,インデックスを複数のファイルに分けて管理する非連続的転置リストがある。更新性