きまぐれ日記: ファイルIOではなくバイト列IO

« pubic static はコンピュータに伝える約束事ではない | メイン | 「読めてしまう」コピペがなぜ読めてしまうのか »

2009年04月19日

ファイルIOではなくバイト列IO

組込用のIMEを作っている方とお話したことあるのですが、組込用のIMEはポータビリティを高めるために、いわゆるファイルIOは使っておらずシステムからimmutableメモリ領域(システム辞書など)とmutableメモリ領域(ユーザ辞書など) をわたしてもらって使うような仕様になっているそうです。ファイルIOはポータビリティを考えるといろいろ面倒なことがあるのでなるほどな思いました。

実はこういうバイト列を辞書のシリアライズ先として使うことはプリミティブですが身軽です。自然言語処理のシステムでは静的な辞書や機械学習結果のモデルをロードすることが多々あります。

自分が何かを作るときは、辞書や学習モデルをバイナリのバイト列として格納し、メモリイメージとして読み込むような設計にしています。

例えば、Dictionary というクラスがあったときには、ファイルから辞書を読み込むようなインタフェイス Dictionary::OpenFile(const string &filename) を作るのではなく Dictionary::OpenFromArray(const char *array, size_t size) をまず作ります。ディクショナリの読み込みも、バイト列 array をメモリイメージとして使い、ポインタのみでアクセスし、内部でコピーを作りません。これを徹底すると、システムが使用する辞書のメモリ容量は array_size になることが保証され、システム全体のサイズの予想がつけやすくなります。

ファイルをオープンする場合は、mmap や MapViewOfFile といったファイルをメモリーイメージにマッピングするシステムコールを使います。こうすることでファイルIOがシステムと分離でき、ポータビリティが高まります。

Mmap mmap; // mmap, MapViewOfFile をラップしたクラス
mmap.Open("foo.dic");
Dictionary dic;
dic.OpenFromArray(mmap.begin(), mmap.size());

投稿者 taku : 2009年04月19日 15:27

トラックバック

このエントリーのトラックバックURL:
http://chasen.org/~taku/blog/mt-tb.cgi/245