出典: BOM [外語] Byte Order Mark 『通信用語の基礎知識』 更新年月日 2009/11/30,URL: https://www.wdic.org/ Unicodeの符号化のうち、UTF-16、UTF-32などで採用されているエンディアンネス識別符号。Unicode 3.0ではChapter13に書かれている。 [概要] Unicodeは「16ビット固定長」から始まった。同時期にISO/IEC 10646は「31ビット固定長」から始まった。しかし多くのコンピューターは8ビット程度をバイトという単位として扱い、更にエンディアンネスも様々なものが混在した。符号のエンディアンネスを識別可能にするためには、二つの解決法がある。 1. 符号のエンディアンネスを固定化する 2. 符号のエンディアンネスは自由にして、代わりに目印を付ける 前者を採用するのが最もスマートであるが、初期のUnicodeの符号化では後者が採用された。符号のエンディアンネスを先頭の文字で区別することから、これをバイトオーダーマーク(バイト順序マーク、BOM)という。 [特徴] ZWNBSP UnicodeおよびISO/IEC 10646では、U+FEFFとして「ZERO WIDTH NO-BREAK SPACE」(幅の無い改行しない空白、略してZWNBSP)という記号を定義している。これとバイト順が逆になるU+FFFEは同様に非文字とされ、未来永劫使用されない符号位置と定義された。 ZWNBSPは、見えないし改行もされないし文字幅もゼロの、存在自体を無視できる文字である。 かくして、ファイルまたはストリームの先頭のU+FEFFの順序を確認することで、符号化の種類やエンディアンネスを判別することができる。 使用は任意 BOMを付けるかどうかは任意であり、付けない場合もある。無い場合、エンディアンネスについては処理系依存ということになる。 但し、現在使われている「UTF-16」という符号化方法では明確に規定があり、BOMが無い場合はビッグエンディアン(UTF-16BE相当)として扱うことになっている。 なお、Microsoft Windowsで「Unicode」と俗称されている符号はUTF-16であり、通常はBOM付きリトルエンディアンで符号を入出力している。 仕様 各符号ごとに、次のような順序になる。 ● UTF-16 ・ ビッグエンディアン: 0xFE 0xFF ・ リトルエンディアン: 0xFF 0xFE ● UTF-32 ・ ビッグエンディアン: 0x00 0x00 0xFE 0xFF ・ リトルエンディアン: 0xFF 0xFE 0x00 0x00 UTF-8 UTF-8は、バイト順が明確に固定されている。従って、バイト順序マーク(BOM)といったものは必要とされない。 UTF-8では、U+FEFFは「0xEF 0xBB 0xBF」と3オクテットで符号化され、UTF-8の文書ファイル等では、それがUTF-8であることを示すために先頭に附されることが多い。但しバイト順をこれで決めているわけではないので、これをBOMと呼ぶことは現実には不正確である。 |
出典: オクテット 『フリー百科事典 ウィキペディア日本語版(Wikipedia)』 最終更新 2018年9月23日 (日) 15:29 UTC、URL: https://ja.wikipedia.org/ オクテット(英: octet、8組の意味)は、コンピュータの、特に通信関係の分野などで、厳密には8ビット以外を指すこともある「バイト」の代わりに、必ず8ビットのことを指すものとして使われている語である。「バイト」と違い、「オクテット」は必ず8ビットを意味するものであり、通信分野などでプロトコルなどを定義する際などに必要となる。 [概要] オクテットの主要な使われ方には、IETFにより発行されるRFCがある。初期の例では1974年のRFC 635で、フランス語、フレンチカナディアン、ルーマニア語で、「8ビット」の意味で「オクテット」の語が「バイト」の代わりに一般的に使われており、「メガバイト (MB)」は「メガオクテット (Mo)」である。 コンピュータの歴史の初期には、「バイト」は「8ビット」の意味とは標準化されておらず、色々なマシンによって、異なる(比較的小さな)サイズの単位を表した。後にSystem/360やマイクロコンピュータの普及によって、「1バイト = 8ビット」の処理系が普及した。そのため今日では「バイト」と「オクテット」はほぼ同義語だが、幾つかの大型コンピュータ(一部のメインフレーム、ミニコンピュータなど)では、混乱を避けるための注意が必要である。 ・・・ |
出典: バイト順マーク 『フリー百科事典 ウィキペディア日本語版(Wikipedia)』 最終更新 2022年9月27日 (火) 10:08 UTC、URL: https://ja.wikipedia.org/ バイト順マーク (バイトじゅんマーク、英: byte order mark) あるいはバイトオーダーマークとは、通称BOM(ボム)といわれるUnicodeの符号化形式で符号化したテキストの先頭につける数バイトのデータのことである。このデータを元にUnicodeで符号化されていることおよび符号化の種類の判別に使用する。 [概要] プログラムがテキストデータを読み込む時、その先頭の数バイトからそのデータがUnicodeで表現されていること、また符号化形式(エンコーディング)としてどれを使用しているかを判別できるようにしたものである。 経緯 UnicodeがはじまったころはアメリカではASCII、ヨーロッパなどではISO-8859、日本ではShift_JISやEUC-JPが主流であり、使用されている符号化方式がUnicodeであることを明確に区別する必要があった。その方法として、先頭のデータにテキスト以外のデータを入れることが発案された。 また、1文字が数バイトに渡るUnicodeでは、エンディアンの違いが認識できないと、例えばPowerPC Macintoshとx86 MS-DOSとの間で正常にデータの交換ができないため、この先頭バイトにより区別できるようにされた。 使用するべきか否か 実際にBOMを使用すべきか、あるいは使用すべきでないかは、Unicodeを利用したより上位の仕様によって定められることがある。"XML Media Types" (RFC 3023) では、XMLをUTF-16で符号化する場合は先頭のBOMを必須とし、またXMLを解釈するソフトウェアでは、先頭にBOMがあった場合はxml宣言におけるの指定よりも優先してエンコーディングを判別すべきとしている。JSONの場合は、ネットワークで送信する場合はBOMを付けてはならないとしている。 UTF-8は文字コードとしてASCIIを前提としたプログラムでもおよそ支障なく動作するように設計されているが、BOMによって正常に処理できなくなる場合がある。Unicodeの規格において、UTF-8においてBOMは容認されるが、必須でも勧められるものでもないとされている。また、データベースやメモリにロードするデータなど、内部的なデータ形式では、プログラムの性能や効率の観点から普通BOMは用いられない。 ・・・ |
出典: UTF-16 『フリー百科事典 ウィキペディア日本語版(Wikipedia)』 最終更新 2020年2月22日 (土) 12:29 UTC、URL: https://ja.wikipedia.org/ UTF-16 (UCS/Unicode Transformation Format 16とは、UnicodeおよびISO/IEC 10646の、符号化フォームおよび符号化スキームのひとつである。UTF-16では、1文字が、16ビットの符号単位が1つまたは2つで符号化される。これが「-16」の名の由来である。基本多言語面(BMP)内の文字は、符号単位1つの16ビットで表される。BMP以外の文字は、符号単位2つの32ビットで表される。なお、UTF-16は2バイトコードだと誤解されることがあるが、このように4バイトのこともあるため間違いである。Unicodeにおいては、厳密には、文字符号化フォーム(英: Character Encoding Form)の1つの名称であり、かつ、UTF-16符号化形式のための文字符号化スキーム(英: Character Encoding Scheme)の1つの名称でもある。UTF-16符号化フォームのための文字符号化スキームには、UTF-16の他にUTF-16BE、UTF-16LEがある。 [符号化] UTF-16では、Unicodeの代用符号位置を除いた符号位置(Unicodeスカラ値という)を、16ビット符号なし整数を符号単位とした符号単位列で表す。符号単位列は1つまたは2つの符号単位からなる。すなわち、合計は16ビットまたは32ビットである。 BMPに含まれるU+0000..U+D7FFとU+E000..U+FFFFは、そのまま符号単位1つで表す。 BMP以外のU+10000..U+10FFFFは、表のようにビットを配分して、符号単位2つで表す。 ・・・ |
出典: UTF-8 『フリー百科事典 ウィキペディア日本語版(Wikipedia)』 最終更新 2021年4月4日 (日) 04:44 UTC、URL: https://ja.wikipedia.org/ UTF-8(ユーティーエフはち、ユーティーエフエイト)はISO/IEC 10646 (UCS) とUnicodeで使える8ビット符号単位(1~4 byte の可変長)の文字符号化形式及び文字符号化スキーム。 正式名称は、ISO/IEC 10646では “UCS Transformation Format 8”、Unicodeでは “Unicode Transformation Format-8” という。両者はISO/IEC 10646とUnicodeのコード重複範囲で互換性がある。RFCにも仕様がある。 2バイト目以降に「/」などのASCII文字が現れないように工夫されていることから、UTF-FSS (File System Safe) ともいわれる。旧名称はUTF-2。 UTF-8は、データ交換方式・ファイル形式として一般的に使われる傾向にある。 ・・・ |
出典: UTF-16 [外語] UCS Transformation Format-16,Unicode Transformation Format-16 『通信用語の基礎知識』 更新年月日 2012/06/18,URL: https://www.wdic.org/ UnicodeやISO/IEC 10646の符号化方法(CES)の一つ。サロゲートペアという方法で、16ビットの範囲を超える文字を扱えるようにした。RFC 2781で情報提供扱いで規定されている。 [起源] Unicode 3.0以降で採用された符号化方法である。 Unicodeは元々は「16ビット固定長」の文字集合であり、ISO/IEC 10646用語では基本多言語面(BMP)と表現される集合である。従って扱える文字数は216で最大65,536文字に限られた。 そこでこのUnicodeの中で未定義だった領域に、サロゲートと呼ばれる1024個の領域を二つ(0xd800〜0xdb00と0xdc00〜0xdf00)用意し、これを組み合わせ1,024×1,024=1,048,576個の文字を扱えるようにした。 この文字数は、BMPの大きさである65,536(216)の16倍に相当する。 [特徴] 構成 Unicodeには、U+0000からU+10FFFFまでのコードポイントが存在する。 元々16ビット固定長として作られたUnicodeであったが、16ビットを超える範囲を符号化するために、16ビットを二つ組み合わせて、16ビットを超える範囲の文字を表現することになった。この専用の記号文字をサロゲートといい、二つ組み合わせる手法をサロゲートペアという。 UTF-16では1バイトが16ビットになるが、これをバイトと呼ぶと混乱を招くため、UTF-16ではこれをコードユニットと呼ぶ。このように、16ビットのコードユニットを組み合わせてUnicodeを表現する符号化方法を、UTF-16という。 CESとCEF UTF-16は16ビット単位で文字が表現されるが、コンピューターではそれを8ビットごとに分解して処理することになるだろう。 エンディアンネス(ビッグエンディアンとリトルエンディアン)の違いがあり、どのようなオクテットシーケンスになるかは実装によるが、いずれにせよ現在のコンピューターは8ビット単位で情報を処理する。 文字コードの世界では、オクテット列で表わされる表現方法をCESという。一方でUnicodeの文字集合はCCSである。ここで問題となるのは中間の状態、UTF-16としての表現方法そのものであるが、このような16ビット形式での表現は新規に「CEF」という用語を作って呼ぶことにした。 つまり、Unicodeのコードポイント(CCS)→CEF(16ビット)→CES(8ビット)というように変形されていくことになる。 [仕様] サロゲートペア 新たに出来た領域をISO/IEC 10646の1面〜16面として割り当て、ISO/IEC 10646の00群00面〜00群16面の計17面、最大1,114,112文字種まで利用可能となった。この技術をサロゲートペアといい、このサロゲートペアを併用するUnicodeの符号化方法をUTF-16という。つまりUTF-16とは16ビットを基準とする可変長エンコードである。ISO/IEC 10646の符号UCS-2との差は、このサロゲートペアの機能の有無である。 ・・・ |
出典: UTF-8 [外語] Unicode Transformation Format-8 『通信用語の基礎知識』 更新年月日 2009/12/21,URL: https://www.wdic.org/ ISO/IEC 10646およびUnicode文字を8ビット単位の不定長として表現できるように変換したもの。 [概要] 仕様 Unicodeを1〜4オクテットに、または、ISO/IEC 10646を1〜6オクテットの不定長に変換する。 前者はRFC 3629で標準化されており、後者はこのRFCによって破棄された古いRFCであるRFC 2279にて仕様が規定されている。 このように、RFC 2279では1〜6オクテットまでの規定があったが、RFC 3629ではUnicode文字(U+0000〜U+10FFFF)だけの対応となり、1〜4オクテットの範囲だけしか規定されなくなった。 実装 Javaでは実行ファイル(Javaバイトコードと呼ばれる)内部で実際に用いられている文字コードの符号化方法であり、Java以外でもInternet ExplorerやMicrosoft Wordなどで広く対応している。 ASCIIと互換性があり、かつ世界中の言語を容易に扱えるということで徐々に人気が高まった。 この方法を用いるとASCII文字の範囲(0x00〜0x7f)を保存したまま、8ビット長でUnicode文字が表現可能となる。 従来の英語圏環境の文字コードと互換性が保たれ、プログラミング面でも扱いが容易であるため、従来は英語専用だったソフトウェアを新規に多国語対応化する場合などには有用である。 [技術] BOM UTF-16などでは、符号のバイト順が自在のため、バイト順を機械的に識別可能なように文書の先頭にはBOMと呼ばれる記号(U+FEFF, ZWNBSP)を付ける。 UTF-8の場合はバイト順序は常に固定で変化することはないので、このような目印は本来は不要であるが、その文書がUTF-8であるかどうかを識別するために同様に使われることが多い。 U+FEFF(ZWNBSP)は、UTF-8では「0xEF 0xBB 0xBF」という3オクテットになり、これが先頭にあればそれはUTF-8であると判断できる。 日本のローカルな俗称として、このZWNBSPが先頭に無いUTF-8をUTF-8Nと呼ぶ。 符号化方法 古いRFC 2279で表現できる全範囲を以下に示す。新しいRFC 3629では、 ・・・ |
同義語・類義語 | 関連語・その他 |
---|---|
7-bit UCS Transformation Format | |
ISO/IEC 10646 | |
Modified UTF-7 | |
UTF-7 | |
ユーティーエフセブン | |
ユーティーエフなな | |
修正UTF | |
文字符号化スキーム | |
文字符号化形式 | |
このページは書きかけのページです | 更新日: |
同義語・類義語 | 関連語・その他 |
---|---|
BOM | ネットワークバイトオーダー |
Byte Order Mark | 文字符号化方式 |
byte order mark | 文字符号化スキーム |
báit ɔ́rdər mɑ́rk | ・ |
バイトゥ オゥーダゥー マゥァーク | Byte |
バイトゥ・オゥーダゥー・マゥァーク | báit |
バ́イトゥ・オゥ́ーダゥー・マゥァ́ーク | バイトゥ |
バイト オーダー マーク | バ́イトゥ |
バイト・オーダー・マーク | バイト |
バ́イト・オ́ーダー・マ́ーク | バ́イト |
バイトオーダーマーク | [名詞] |
ボム | 8ビット |
ビー オウ エム | ・ |
ビー オー エム | Order |
バイト順序マーク | ɔ́rdər |
バイト順マーク | オゥーダゥー |
バイトじゅんマーク | オゥ́ーダゥー |
・ | オーダー |
【 以下関連語 】 | オ́ーダー |
UTF-16 | [名詞] |
UCS/Unicode Transformation Format 16 | 命令 |
UCS Transformation Format-16 | 順序 |
Unicode Transformation Format-16 | 整頓 |
ユー シー エス・トランスフォーメーション・フォーマット・シクスティーン | 整列 |
ユニコード・トランスフォーメーション・フォーマット・シクスティーン | 順番 |
ユー ティー エフ 16 | 順位 |
・ | 等級 |
サロゲートペア | 種類 |
CES | 注文 |
CEF | ・ |
UTF-16BE | mark |
UTF-16LE | mɑ́rk |
Byte Order | マゥァーク |
バイトオーダー | マゥァ́ーク |
endian | マーク |
UTF-8 | マ́ーク |
エンディアン | [名詞] |
ビッグエンディアン | 印 |
リトルエンディアン | [他動詞] |
network byte order | 印を付ける |
更新日:2024年 3月30日 |
同義語・類義語 | 関連語・その他 |
---|---|
UTF-16 | サロゲートペア |
UCS/Unicode Transformation Format 16 | CES |
júː síː és/júnikóud træ̀nsfərméiʃən fɔ́rmæt síkstíːn | CEF |
ユー ティー エフ 16 | UTF-16BE |
ユー ティー エフ シェィックスティーン | UTF-16LE |
ユー ティー エフ シクスティーン | Byte Order |
・ | バイトオーダー |
(ISO/IEC 10646) | BOM |
UCS Transformation Format-16 | ボム |
júː síː és træ̀nsfərméiʃən fɔ́rmæt síkstíːn | Byte Order Mark |
ユー シィー エス トゥラェンスフォーァメイシュン フォァマェットゥ シェィックスティーン | バイトオーダーマーク |
ユー シィー エス・トゥラェンスフォーァメイシュン・フォァマェットゥ・シェィックスティーン | endian |
ユー シー エス トランスフォーメーション フォーマット シクスティーン | UTF-8 |
ユー シー エス・トランスフォーメーション・フォーマット・シクスティーン | エンディアン |
・ | ビッグエンディアン |
(Unicode) | リトルエンディアン |
Unicode Transformation Format-16 | network byte order |
júnikòud træ̀nsfərméiʃən fɔ́rmæt síkstíːn | ネットワークバイトオーダー |
ユニコウドゥ トゥラェンスフォーァメイシュン フォァマェットゥ シェィックスティーン | 文字符号化方式 |
ユニコウドゥ・トゥラェンスフォーァメイシュン・フォァマェットゥ・シェィックスティーン | 文字符号化スキーム |
ユニコード トランスフォーメーション フォーマット シクスティーン | ・ |
ユニコード・トランスフォーメーション・フォーマット・シクスティーン | Transformation |
træ̀nsfərméiʃən | |
トゥラェンスフォーァメイシュン | |
トランスフォーメーション | |
[名詞] | |
変化 | |
変形 | |
変換 | |
転換 | |
・ | |
更新日:2024年 2月 1日 |
同義語・類義語 | 関連語・その他 |
---|---|
UTF-8 | 文字符号化形式 |
8-bit UCS Transformation Format | 文字符号化スキーム |
éit bít júː síː és træ̀nsfərméiʃən fɔ́rmæt | ISO/IEC 10646 |
エイトゥ ビィットゥ ユー シィー エス トゥラェンスフォーァメイシュン フォァマェットゥ | ISO/IEC 10646(UCS) |
エイトゥ・ビィットゥ・ユー シィー エス・トゥラェンスフォーァメイシュン・フォァマェットゥ | Unicode |
エイト ビット ユー シー エス トランスフォーメーション フォーマット | octet |
エイト・ビット・ユー シー エス・トランスフォーメーション・フォーマット | オクテット |
ユー ティー エフ エイト | ・ |
ユー ティー エフ はち | UCS |
1~6バイト可変長マルチバイト | UCS-4 |
8~48ビット可変長バイト列 | Universal multi-octet Character Set 4 |
・ | ・ |
UCS Transformation Format 8 | UCS-2 |
júː síː és træ̀nsfərméiʃən fɔ́rmæt éit | Universal multi-octet Character Set 2 |
ユー シィー エス トゥラェンスフォーァメイシュン フォァマェットゥ エイトゥ | |
ユー シィー エス・トゥラェンスフォーァメイシュン・フォァマェットゥ・エイトゥ | |
ユー シー エス トランスフォーメーション フォーマット エイト | |
ユー シー エス・トランスフォーメーション・フォーマット・エイト | |
・ | |
Unicode Transformation Format-8 | |
júnikòud træ̀nsfərméiʃən fɔ́rmæt éit | |
ユニコウドゥ トゥラェンスフォーァメイシュン フォァマェットゥ エイトゥ | |
ユニコウドゥ・トゥラェンスフォーァメイシュン・フォァマェットゥ・エイトゥ | |
ユニコード トランスフォーメーション フォーマット エイト | |
ユニコード・トランスフォーメーション・フォーマット・エイト | |
・ | |
UTF-2 | |
UTF-FSS | |
UTF-File System Safe | |
更新日:2024年 3月19日 |