UTF-8

UTF-8

(コンピュータ)
【ゆーてぃーえふえいと】

Unicode (or UCS) Transformation Format, 8-bit encoding form.
Unicodeでは Unicode Translation Format-8
ISO/IEC 10646では 8-bit UCS Transformation Format
Unicode、ISO/IEC 10646(UCS)のエンコーディング方法のひとつ。
ASCIIの範囲内にある文字は1バイトに、大抵の漢字や仮名は3バイトにエンコーディングする特徴がある。

RFC 2279で、UCS(Unicodeのコード値)からの変換方法が定義されている。

 UCS-4 range (hex.) UTF-8 octet sequence (binary)
 0000 0000-0000 007F 0xxxxxxx
 0000 0080-0000 07FF 110xxxxx 10xxxxxx
 0000 0800-0000 FFFF 1110xxxx 10xxxxxx 10xxxxxx
 0001 0000-001F FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
 c.f. Invalid sequence
 0020 0000-03FF FFFF 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
 0400 0000-7FFF FFFF 1111110x 10xxxxxx ... 10xxxxxx

詳しくはRFC 3629を参照してください。

IETFにより、STD番号(STD63)が割り振られている。

このタグの解説についてこの解説文は、すでに終了したサービス「はてなキーワード」内で有志のユーザーが作成・編集した内容に基づいています。その正確性や網羅性をはてなが保証するものではありません。問題のある記述を発見した場合には、お問い合わせフォームよりご連絡ください。

【GPT-5】URLエンコードをすると、%EF%BB%BFが余分に生成されます

なるほど 👍%EF%BB%BF は UTF-8のBOM (Byte Order Mark) をURLエンコードした結果です。 なぜ発生するのか BOMはUTF-8の先頭に付与されることがある「目印」で、バイト列は 0xEF 0xBB 0xBF。 テキストファイルを保存するときや、Excel/エディタなどからコピーしたときに自動的に付与されることがあります。 これがそのままURLエンコードされると %EF%BB%BF が余計に付与されたように見える、という仕組みです。 対処方法 BOMを削除してからエンコードする 例えば、Pythonならファイルを開くときに encoding="utf-8-si...

関連ブログ

【Access VBA】SQL ServerのデータをUTF-8形式でCSVファイルに出力する

SQL ServerのデータをUTF-8形式でCSVファイルに出力する SQL ServerのテーブルのデータをAccess経由でUTF-8形式のCSVファイルに出力します。 テーブルを準備する SQL Serverで「sample」という名前のデータベースの中に「Tサンプル」という名前のテーブルを用意しました。 参照設定の準備 Visual Basic Editorを表示し、「ツール」タブの「参照設定」をクリック します。 「Microsoft ActiveX Data Objects ×ばつ Library」をチェックし、「OK」ボタンをクリックします。 コードの記述 標準モジュールに以下...

【メモ帳】メモ帳でエンコードを変更する方法(UTF-8/ANSIなどに変換)

Web開発やプログラム作成中に、文字化けが起きて困ったことはありませんか?その原因の多くは「文字コード(エンコード)」の違いによるものです。 Windowsに標準搭載されている「メモ帳(Notepad)」でも、エンコードの確認・変更ができます。この記事では、UTF-8やANSIなど、メモ帳でエンコードを変更する方法を初心者向けに解説します。 ✅ エンコードとは? エンコード(文字コード)とは、文字をコンピュータで保存・表示するためのルールです。主な種類には以下があります: エンコード形式 特徴 UTF-8 世界標準。日本語も使える。Web開発で推奨。 UTF-8 (BOM付き) 一部のアプリで...

英語版Windows11を日本語化してもアプリが文字化け

英語版Windows11の日本語化をほぼ終えたと思っていたのに、新たにインストールしたアプリを開いたら文字化けしていました。アメリカ製のソフトの日本語版を敢えて買ったのに大ショックでしたが、以下の作業で文字化けが無くなりましたので、シェアします。 "設定>時刻と言語>言語と地域"の"関連設定の管理用の言語の設定"を開きます。 "システムロケールの変更"を開きます。 "ベータ:ワールドワイド言語サポートでUnicode UTF-8を使用"のチェックを外します。 文字化けが解消しました! ランキング参加中ライフスタイル ランキング参加中はてなブログ【シニア部門】 ランキング参加中DTM

【メモ帳】メモ帳でファイルを開いた時に文字化けした場合の対応方法

メモ帳でテキストファイルを開くと一部の文字が表示されなかったり文字化けして表示されたりすることがあります。 これは、テキストファイルを作成するときに設定した文字コードとメモ帳で表示する際の文字コードの設定が一致していないために起こるものです。 以下の例ではしろいしかく表示の部分が日本語の文字化け部分です。 文字化けファイル その場合の対応方法は以下のようになります。 1.テキストファイルを開いた時に文字化けする場合の対応方法 対応方法としては、メモ帳の文字コードの設定を変更してからファイルを再度開き、テキストが正しく表示されるか確認するということになります。 メモ帳で上のメニューから「ファイル」を選択し...

【メモ帳】メモ帳でエンコードの変更方法

前回バッチファイルを起動したときに文字化けしていてうまく起動できなかった時にエンコードの変更という内容を記載しました。 そこまでは分かった時にそもそもメモ帳でエンコードの変更はどうすればいいのという話もありますのでその変更方法の紹介になります。 1.メモ帳でのエンコードの変更方法 メモ帳でエンコードを変更する場合は、 ファイル→名前を付けて保存 を開きます。 そうすると、以下のような見慣れた保存用画面が開くと思いますが、 その中のエンコードのプルダウンをクリックします。 ANSI、UTF-8、UTF-16、・・・とありますので変更したいエンコードを選択します。 ちなみに、Shift-JISに変...

【Windows】バッチファイル(batファイル)を起動したときに文字化けして起動できなかった時の対処方法

最近バッチファイルを起動したときに文字化けしていてうまく起動できないことがありました。 中身を見たところなぜか文字化けしていてという内容でした。 1.今回の内容 なぜかというところは不明なのですが、以下のように日本語の部分が文字化けしていました。 バッチファイル文字化け結果 2.対応方法 原因は、メモ帳で編集していた時にエンコードがUTF-8になっていたためでした。 エンコードをShift-JIS(ANSI)に変更したところ無事実行することができました。 メモ帳では「ANSI」が「Shift-JIS」に相当します。 以上が、バッチファイルを起動したときに文字化けして起動できなかった時の対処方法...

【Unity Python】ML-Agentsで"There was an error decoding Config file from ./config/sample/RollerBall.yaml. Make sure your file is save using UTF-8"のエラーが表示された時の解決方法

さらにUnityでML-Agentsを使っての学習に向けて前回から続けて行っていたところ再度エラーに遭遇しました。 1.エラー内容 続いて表示されたエラーは mlagents.trainers.exception.TrainerConfigError: There was an error decoding Config file from ./config/sample/RollerBall.yaml. Make sure your file is save using UTF-8 というものでした。 2.解決方法 (1) これについて当初発生した時は、同じような状況に遭遇して解決された以下...

HTTPリクエストヘッダに日本語を含めたら文字化けして困った。そして解決した話。

HTTPのリクエストヘッダに設定した日本語が文字化けしてハマりました。 事象と原因をメモしておきます。 事象 この記事で紹介している通りに Apache/Tomcat を連携し、 Apache HTTP Server をリバースプロキシとしてTomcatと連携させる - 山崎屋の技術メモこの記事の方法で HTTP リクエストヘッダを追加しました。 Apache HTTP サーバで応答ヘッダ(レスポンスヘッダ)を追加する - 山崎屋の技術メモ Apache HTTP サーバで要求ヘッダ(リクエストヘッダ)を追加する - 山崎屋の技術メモ httpd.conf の抜粋です。文字コードはUTF-8で...

あ(U+3042)はどういう規則でb'\xe3\x81\x82'というバイト列に変換される? UTF-8の変換アルゴリズムを知りました

はじめに うにおん!ならぬ、うにこーど! nikkieです。 先日ChatGPTがどのように日本語テキストをトークン化するのか覗きました。 トークンのIDから対応するテキストを見ようとPythonのbytesを扱ったわけですが、その中で感じた疑問についてアウトプットです。 目次 はじめに 目次 あ(U+3042)をencodeするとb'\xe3\x81\x82' 続く文字を変換していくと規則性がある 脱線:こんなところでも見かけます jsonでUnicodeコードポイント urllib.parseでバイト列 変換規則:1110 xxxx 10xx xxxx 10xx xxxx 変換規則の適用例...

AltStyle によって変換されたページ (->オリジナル) /