UTF-8

(コンピュータ)

【ゆーてぃーえふえいと】

Unicode (or UCS) Transformation Format, 8-bit encoding form.
Unicodeでは Unicode Translation Format-8
ISO/IEC 10646では 8-bit UCS Transformation Format
Unicode、ISO/IEC 10646(UCS)のエンコーディング方法のひとつ。
ASCIIの範囲内にある文字は1バイトに、大抵の漢字や仮名は3バイトにエンコーディングする特徴がある。

RFC 2279で、UCS(Unicodeのコード値)からの変換方法が定義されている。

 UCS-4 range (hex.) UTF-8 octet sequence (binary)
 0000 0000-0000 007F 0xxxxxxx
 0000 0080-0000 07FF 110xxxxx 10xxxxxx
 0000 0800-0000 FFFF 1110xxxx 10xxxxxx 10xxxxxx
 0001 0000-001F FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
 c.f. Invalid sequence
 0020 0000-03FF FFFF 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
 0400 0000-7FFF FFFF 1111110x 10xxxxxx ... 10xxxxxx

詳しくはRFC 3629を参照してください。

IETFにより、STD番号(STD63)が割り振られている。

このタグの解説について

この解説文は、すでに終了したサービス「はてなキーワード」内で有志のユーザーが作成・編集した内容に基づいています。その正確性や網羅性をはてなが保証するものではありません。問題のある記述を発見した場合には、お問い合わせフォームよりご連絡ください。

ホワイトレンド•3ヶ月前

【GPT-5】URLエンコードをすると、%EF%BB%BFが余分に生成されます

なるほど 👍%EF%BB%BF は UTF-8のBOM (Byte Order Mark) をURLエンコードした結果です。なぜ発生するのか BOMはUTF-8の先頭に付与されることがある「目印」で、バイト列は 0xEF 0xBB 0xBF。テキストファイルを保存するときや、Excel/エディタなどからコピーしたときに自動的に付与されることがあります。これがそのままURLエンコードされると %EF%BB%BF が余計に付与されたように見える、という仕組みです。対処方法 BOMを削除してからエンコードする例えば、Pythonならファイルを開くときに encoding="utf-8-si...

#UTF-8 #BOM #エンコード

ネットで話題

1127ブックマーク UnicodeとUTF-8の違いは? - Humanity tyru.hatenablog.com

1064ブックマーク文字コード(UTF-8,Shift_JIS,EUC-JP,ISO-2022-JP)についての俺的まとめ - 今日もスミマセン。 snaka72.hatenadiary.org

612ブックマーク HTML文書は文字エンコーディングUTF-8でなければなりません - 水底の血 momdo.hatenablog.jp

564ブックマーク「ASCIIをUTF-8にして」それが『できない』ことを理解してもらえなかった話 - Qiita qiita.com

546ブックマーク UTF-8のテーブル(MySQL5.6)に竈門禰󠄀豆子が格納できない問題を調べてみた - Qiita qiita.com

519ブックマーク「メモ帳」に多数の改善、BOMなしUTF-8がデフォルト保存形式に〜「Windows 10 19H1」/新しいショートカットキーや長いパスへの対応なども魅力 forest.watch.impress.co.jp

515ブックマーク BOMなしUTF-8によってWindowsでもたらされる困惑 (1/2) ascii.jp

482ブックマーク utf8_unicode_ci に対する日本の開発者の見解 - かみぽわーる blog.kamipo.net

466ブックマーク MySQL で utf8 と utf8mb4 の混在で起きること - tmtms のメモ blog.tmtms.net

関連ブログ

カットマンブログ•3ヶ月前

【Access VBA】SQL ServerのデータをUTF-8形式でCSVファイルに出力する

SQL ServerのデータをUTF-8形式でCSVファイルに出力する SQL ServerのテーブルのデータをAccess経由でUTF-8形式のCSVファイルに出力します。テーブルを準備する SQL Serverで「sample」という名前のデータベースの中に「Tサンプル」という名前のテーブルを用意しました。参照設定の準備 Visual Basic Editorを表示し、「ツール」タブの「参照設定」をクリックします。「Microsoft ActiveX Data Objects ×ばつ Library」をチェックし、「OK」ボタンをクリックします。コードの記述標準モジュールに以下...

#Access #VBA #SQL Server #UTF-8 #CSV

Django Girls and Boys 備忘録•6ヶ月前

【メモ帳】メモ帳でエンコードを変更する方法(UTF-8/ANSIなどに変換)

Web開発やプログラム作成中に、文字化けが起きて困ったことはありませんか?その原因の多くは「文字コード(エンコード)」の違いによるものです。 Windowsに標準搭載されている「メモ帳(Notepad)」でも、エンコードの確認・変更ができます。この記事では、UTF-8やANSIなど、メモ帳でエンコードを変更する方法を初心者向けに解説します。 ✅ エンコードとは? エンコード(文字コード)とは、文字をコンピュータで保存・表示するためのルールです。主な種類には以下があります: エンコード形式特徴 UTF-8 世界標準。日本語も使える。Web開発で推奨。 UTF-8 (BOM付き) 一部のアプリで...

#Shift-JIS #ANSI #UTF-8 #メモ帳 #エンコード #encoding #変更方法 #変更 #Notepad

帰国OGケニー•1年前

英語版Windows11を日本語化してもアプリが文字化け

英語版Windows11の日本語化をほぼ終えたと思っていたのに、新たにインストールしたアプリを開いたら文字化けしていました。アメリカ製のソフトの日本語版を敢えて買ったのに大ショックでしたが、以下の作業で文字化けが無くなりましたので、シェアします。 "設定>時刻と言語>言語と地域"の"関連設定の管理用の言語の設定"を開きます。 "システムロケールの変更"を開きます。 "ベータ:ワールドワイド言語サポートでUnicode UTF-8を使用"のチェックを外します。文字化けが解消しました! ランキング参加中ライフスタイルランキング参加中はてなブログ【シニア部門】ランキング参加中DTM

#Windows 文字化け #文字化け #Unicode #UTF-8 #日本語化

Django Girls and Boys 備忘録•1年前

【メモ帳】メモ帳でファイルを開いた時に文字化けした場合の対応方法

メモ帳でテキストファイルを開くと一部の文字が表示されなかったり文字化けして表示されたりすることがあります。これは、テキストファイルを作成するときに設定した文字コードとメモ帳で表示する際の文字コードの設定が一致していないために起こるものです。以下の例では□しろいしかく表示の部分が日本語の文字化け部分です。文字化けファイルその場合の対応方法は以下のようになります。 1.テキストファイルを開いた時に文字化けする場合の対応方法対応方法としては、メモ帳の文字コードの設定を変更してからファイルを再度開き、テキストが正しく表示されるか確認するということになります。メモ帳で上のメニューから「ファイル」を選択し...

#メモ帳 #Notepad #文字化け #ファイルを開く #文字コード #エンコード #変更方法 #UTF-8 #Shift-JIS

Django Girls and Boys 備忘録•1年前

【メモ帳】メモ帳でエンコードの変更方法

前回バッチファイルを起動したときに文字化けしていてうまく起動できなかった時にエンコードの変更という内容を記載しました。そこまでは分かった時にそもそもメモ帳でエンコードの変更はどうすればいいのという話もありますのでその変更方法の紹介になります。 1.メモ帳でのエンコードの変更方法メモ帳でエンコードを変更する場合は、ファイル→名前を付けて保存を開きます。そうすると、以下のような見慣れた保存用画面が開くと思いますが、その中のエンコードのプルダウンをクリックします。 ANSI、UTF-8、UTF-16、・・・とありますので変更したいエンコードを選択します。ちなみに、Shift-JISに変...

#メモ帳 #Notepad #エンコード #変更方法 #encode #UTF-8 #Shift-JIS #ANSI

Django Girls and Boys 備忘録•1年前

【Windows】バッチファイル(batファイル)を起動したときに文字化けして起動できなかった時の対処方法

最近バッチファイルを起動したときに文字化けしていてうまく起動できないことがありました。中身を見たところなぜか文字化けしていてという内容でした。 1.今回の内容なぜかというところは不明なのですが、以下のように日本語の部分が文字化けしていました。バッチファイル文字化け結果 2.対応方法原因は、メモ帳で編集していた時にエンコードがUTF-8になっていたためでした。エンコードをShift-JIS(ANSI)に変更したところ無事実行することができました。メモ帳では「ANSI」が「Shift-JIS」に相当します。以上が、バッチファイルを起動したときに文字化けして起動できなかった時の対処方法...

#バッチファイル #batファイル #bat #文字化け #対応方法 #エンコード #UTF-8 #Shift-JIS #ANSI

Django Girls and Boys 備忘録•2年前

【Unity Python】ML-Agentsで"There was an error decoding Config file from ./config/sample/RollerBall.yaml. Make sure your file is save using UTF-8"のエラーが表示された時の解決方法

さらにUnityでML-Agentsを使っての学習に向けて前回から続けて行っていたところ再度エラーに遭遇しました。 1.エラー内容続いて表示されたエラーは mlagents.trainers.exception.TrainerConfigError: There was an error decoding Config file from ./config/sample/RollerBall.yaml. Make sure your file is save using UTF-8 というものでした。 2.解決方法 (1) これについて当初発生した時は、同じような状況に遭遇して解決された以下...

#Python #ML-Agents #decding error #UTF-8 #エラー #解決方法

山崎屋の技術メモ•3年前

HTTPリクエストヘッダに日本語を含めたら文字化けして困った。そして解決した話。

HTTPのリクエストヘッダに設定した日本語が文字化けしてハマりました。事象と原因をメモしておきます。事象この記事で紹介している通りに Apache/Tomcat を連携し、 Apache HTTP Server をリバースプロキシとしてTomcatと連携させる - 山崎屋の技術メモこの記事の方法で HTTP リクエストヘッダを追加しました。 Apache HTTP サーバで応答ヘッダ(レスポンスヘッダ)を追加する - 山崎屋の技術メモ Apache HTTP サーバで要求ヘッダ(リクエストヘッダ)を追加する - 山崎屋の技術メモ httpd.conf の抜粋です。文字コードはUTF-8で...

#文字コード

nikkie-ftnextの日記•3年前

あ(U+3042)はどういう規則でb'\xe3\x81\x82'というバイト列に変換される? UTF-8の変換アルゴリズムを知りました

はじめにうにおん!ならぬ、うにこーど! nikkieです。先日ChatGPTがどのように日本語テキストをトークン化するのか覗きました。トークンのIDから対応するテキストを見ようとPythonのbytesを扱ったわけですが、その中で感じた疑問についてアウトプットです。目次はじめに目次あ(U+3042)をencodeするとb'\xe3\x81\x82' 続く文字を変換していくと規則性がある脱線:こんなところでも見かけます jsonでUnicodeコードポイント urllib.parseでバイト列変換規則:1110 xxxx 10xx xxxx 10xx xxxx 変換規則の適用例...

#Unicode #UTF-8 #bytes #変換規則