エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください
Twitterで共有ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します
huggingface/tokenizers を使って日本語BERTのトークナイザを新しく作りたい場合、色々な実装方法が考え... huggingface/tokenizers を使って日本語BERTのトークナイザを新しく作りたい場合、色々な実装方法が考えられるが、BERT 向けにカスタマイズされた実装を持つクラスである BertWordPieceTokenizer を使うのが一番楽な実装である。例えば、以下の記事はとても参考になる。 コードにすると、以下のような感じになるだろう。 from tokenizers import BertWordPieceTokenizer from tokenizers.pre_tokenizers import BertPreTokenizer from tokenizers.processors import BertProcessing tokenizer = BertWordPieceTokenizer( handle_chinese_chars=False, strip_ac