出典: BOM [外語] Byte Order Mark 『通信用語の基礎知識』 更新年月日 2009/11/30,URL: https://www.wdic.org/ Unicodeの符号化のうち、UTF-16、UTF-32などで採用されているエンディアンネス識別符号。Unicode 3.0ではChapter13に書かれている。 [概要] Unicodeは「16ビット固定長」から始まった。同時期にISO/IEC 10646は「31ビット固定長」から始まった。しかし多くのコンピューターは8ビット程度をバイトという単位として扱い、更にエンディアンネスも様々なものが混在した。符号のエンディアンネスを識別可能にするためには、二つの解決法がある。 1. 符号のエンディアンネスを固定化する 2. 符号のエンディアンネスは自由にして、代わりに目印を付ける 前者を採用するのが最もスマートであるが、初期のUnicodeの符号化では後者が採用された。符号のエンディアンネスを先頭の文字で区別することから、これをバイトオーダーマーク(バイト順序マーク、BOM)という。 [特徴] ZWNBSP UnicodeおよびISO/IEC 10646では、U+FEFFとして「ZERO WIDTH NO-BREAK SPACE」(幅の無い改行しない空白、略してZWNBSP)という記号を定義している。これとバイト順が逆になるU+FFFEは同様に非文字とされ、未来永劫使用されない符号位置と定義された。 ZWNBSPは、見えないし改行もされないし文字幅もゼロの、存在自体を無視できる文字である。 かくして、ファイルまたはストリームの先頭のU+FEFFの順序を確認することで、符号化の種類やエンディアンネスを判別することができる。 使用は任意 BOMを付けるかどうかは任意であり、付けない場合もある。無い場合、エンディアンネスについては処理系依存ということになる。 但し、現在使われている「UTF-16」という符号化方法では明確に規定があり、BOMが無い場合はビッグエンディアン(UTF-16BE相当)として扱うことになっている。 なお、Microsoft Windowsで「Unicode」と俗称されている符号はUTF-16であり、通常はBOM付きリトルエンディアンで符号を入出力している。 仕様 各符号ごとに、次のような順序になる。 ● UTF-16 ・ ビッグエンディアン: 0xFE 0xFF ・ リトルエンディアン: 0xFF 0xFE ● UTF-32 ・ ビッグエンディアン: 0x00 0x00 0xFE 0xFF ・ リトルエンディアン: 0xFF 0xFE 0x00 0x00 UTF-8 UTF-8は、バイト順が明確に固定されている。従って、バイト順序マーク(BOM)といったものは必要とされない。 UTF-8では、U+FEFFは「0xEF 0xBB 0xBF」と3オクテットで符号化され、UTF-8の文書ファイル等では、それがUTF-8であることを示すために先頭に附されることが多い。但しバイト順をこれで決めているわけではないので、これをBOMと呼ぶことは現実には不正確である。 |
出典: ISO/IEC 10646 [読み] アイエスオウ・アイイースィー・いちゼロろくよんろく [外語] ISO/IEC 10646 『通信用語の基礎知識』 更新年月日 2014/08/24,URL: https://www.wdic.org/ 文字集合(CCS)の一つ。国際標準として作られている。 [概要] 文字集合 元々は、16ビット、そして後に21ビットのUnicodeに対し、32ビット(有効31ビット)の文字空間を持つのが特徴となっていた。 Unicodeでは表現できない文字空間を表わすことができるという点でUnicodeの上位互換であったが、ISO/IEC 10646:2003/Amd.2:2006でUnicode外の領域は「永久に予約」(permanently reserved)と宣言されたことにより、使用できなくなった。 このため現在では、公開日のずれこそあるが、両者は文字集合としては同一となっている。 国際標準 正式には、Information technology - Universal Multiple-Octet Coded Character Set (UCS) (国際符号化文字集合(UCS))という。 最初に作られた16ビット範囲に収められるPart1(ISO/IEC 10646-1)と、それを超える範囲を規定するPart2(ISO/IEC 10646-2)があったが、後に両者は統合され(2003(平成15)年)、現在のISO/IEC 10646となった。 この国際標準の、各国の規格名は次のようになっている。 ● 日本国: JIS X 0221 ● 支那: GB 13000 ● 南鮮: KS X 1005 沿革 ISO/IEC 10646と、関連する事項について時系列で並べる。 なお、「ISO/IEC 10646-1:1993」のAmd(AMENDMENT=追補)は31まで確認されているが、全部は発行されていない。該当する※を附したものは「ISO/IEC 10646-1:2000」へと組み込まれている。 [Unicode 1.x時代] ● 1991(平成3)年6月: DIS 10646が国際投票で否決される ● 1991(平成3)年10月: Unicode 1.0 Vol.1 ● 1992(平成4)年1月: DIS 10646第二版が国際投票で可決される ● 1992(平成4)年6月: Unicode 1.0 Vol.2 ● 1993(平成5)年: Unicode 1.1 [ISO/IEC 10646-1:1993時代] ● 1993(平成5)年5月1日: ISO/IEC 10646-1制定 (ISO/IEC 10646-1:1993) ● 1996(平成8)年7月: Unicode 2.0 ● 1996(平成8)年10月15日: ISO/IEC 10646-1:1993/Amd.1:1996 (Transformation Format for 16 planes of group 00 (UTF-16)) ● 1996(平成8)年10月15日: ISO/IEC 10646-1:1993/Amd.2:1996 (UCS Transformation Format 8 (UTF-8)) ● 1996(平成8)年10月15日: ISO/IEC 10646-1:1993/Amd.3:1996 (Code positions for control characters) ● 1996(平成8)年10月15日: ISO/IEC 10646-1:1993/Amd.4:1996 (Removal of annex G (UTF-1)) ・・・ |
出典: バイト順マーク 『フリー百科事典 ウィキペディア日本語版(Wikipedia)』 最終更新 2022年9月27日 (火) 10:08 UTC、URL: https://ja.wikipedia.org/ バイト順マーク (バイトじゅんマーク、英: byte order mark) あるいはバイトオーダーマークとは、通称BOM(ボム)といわれるUnicodeの符号化形式で符号化したテキストの先頭につける数バイトのデータのことである。このデータを元にUnicodeで符号化されていることおよび符号化の種類の判別に使用する。 [概要] プログラムがテキストデータを読み込む時、その先頭の数バイトからそのデータがUnicodeで表現されていること、また符号化形式(エンコーディング)としてどれを使用しているかを判別できるようにしたものである。 経緯 UnicodeがはじまったころはアメリカではASCII、ヨーロッパなどではISO-8859、日本ではShift_JISやEUC-JPが主流であり、使用されている符号化方式がUnicodeであることを明確に区別する必要があった。その方法として、先頭のデータにテキスト以外のデータを入れることが発案された。 また、1文字が数バイトに渡るUnicodeでは、エンディアンの違いが認識できないと、例えばPowerPC Macintoshとx86 MS-DOSとの間で正常にデータの交換ができないため、この先頭バイトにより区別できるようにされた。 使用するべきか否か 実際にBOMを使用すべきか、あるいは使用すべきでないかは、Unicodeを利用したより上位の仕様によって定められることがある。"XML Media Types" (RFC 3023) では、XMLをUTF-16で符号化する場合は先頭のBOMを必須とし、またXMLを解釈するソフトウェアでは、先頭にBOMがあった場合はxml宣言におけるの指定よりも優先してエンコーディングを判別すべきとしている。JSONの場合は、ネットワークで送信する場合はBOMを付けてはならないとしている。 UTF-8は文字コードとしてASCIIを前提としたプログラムでもおよそ支障なく動作するように設計されているが、BOMによって正常に処理できなくなる場合がある。Unicodeの規格において、UTF-8においてBOMは容認されるが、必須でも勧められるものでもないとされている。また、データベースやメモリにロードするデータなど、内部的なデータ形式では、プログラムの性能や効率の観点から普通BOMは用いられない。 ・・・ |
出典: ISO/IEC 10646 『フリー百科事典 ウィキペディア日本語版(Wikipedia)』 最終更新 2019年6月6日 (木) 15:25 UTC、URL: https://ja.wikipedia.org/ ISO/IEC 10646 (UCS; Universal Coded Character Set) は、符号化文字集合や文字符号化方式などを定めた、文字コードの国際標準のひとつで、業界規格のUnicodeと概ね互換である。日本の対応規格はJIS X 0221(国際符号化文字集合)。文字空間(0 - 10FFFF16)、収録されている文字、それらの符号位置、英語でつけられた文字の名前、文字符号化方式(UTF-8, UTF-16, UTF-32)はUnicode規格と全く同じである。ただし、文字空間は古い規格では21ビットのUnicodeをベースにして文字空間を31ビットに拡張したものとされ、Unicodeの最大値であるU+10FFFFより大きなコードも使用できるという点でUnicodeと異なっていた。しかし、2006年の改訂によりUnicodeで使用できない領域には文字が「永久に定義されない」こととされ、2011年の改訂では明確に0 - 10FFFFと定義され同一となった。 ・・・ |
出典: UTF-16 『フリー百科事典 ウィキペディア日本語版(Wikipedia)』 最終更新 2020年2月22日 (土) 12:29 UTC、URL: https://ja.wikipedia.org/ UTF-16 (UCS/Unicode Transformation Format 16とは、UnicodeおよびISO/IEC 10646の、符号化フォームおよび符号化スキームのひとつである。UTF-16では、1文字が、16ビットの符号単位が1つまたは2つで符号化される。これが「-16」の名の由来である。基本多言語面(BMP)内の文字は、符号単位1つの16ビットで表される。BMP以外の文字は、符号単位2つの32ビットで表される。なお、UTF-16は2バイトコードだと誤解されることがあるが、このように4バイトのこともあるため間違いである。Unicodeにおいては、厳密には、文字符号化フォーム(英: Character Encoding Form)の1つの名称であり、かつ、UTF-16符号化形式のための文字符号化スキーム(英: Character Encoding Scheme)の1つの名称でもある。UTF-16符号化フォームのための文字符号化スキームには、UTF-16の他にUTF-16BE、UTF-16LEがある。 [符号化] UTF-16では、Unicodeの代用符号位置を除いた符号位置(Unicodeスカラ値という)を、16ビット符号なし整数を符号単位とした符号単位列で表す。符号単位列は1つまたは2つの符号単位からなる。すなわち、合計は16ビットまたは32ビットである。 BMPに含まれるU+0000..U+D7FFとU+E000..U+FFFFは、そのまま符号単位1つで表す。 BMP以外のU+10000..U+10FFFFは、表のようにビットを配分して、符号単位2つで表す。 ・・・ |
出典: UTF-16 [外語] UCS Transformation Format-16,Unicode Transformation Format-16 『通信用語の基礎知識』 更新年月日 2012/06/18,URL: https://www.wdic.org/ UnicodeやISO/IEC 10646の符号化方法(CES)の一つ。サロゲートペアという方法で、16ビットの範囲を超える文字を扱えるようにした。RFC 2781で情報提供扱いで規定されている。 [起源] Unicode 3.0以降で採用された符号化方法である。 Unicodeは元々は「16ビット固定長」の文字集合であり、ISO/IEC 10646用語では基本多言語面(BMP)と表現される集合である。従って扱える文字数は216で最大65,536文字に限られた。 そこでこのUnicodeの中で未定義だった領域に、サロゲートと呼ばれる1024個の領域を二つ(0xd800〜0xdb00と0xdc00〜0xdf00)用意し、これを組み合わせ1,024×1,024=1,048,576個の文字を扱えるようにした。 この文字数は、BMPの大きさである65,536(216)の16倍に相当する。 [特徴] 構成 Unicodeには、U+0000からU+10FFFFまでのコードポイントが存在する。 元々16ビット固定長として作られたUnicodeであったが、16ビットを超える範囲を符号化するために、16ビットを二つ組み合わせて、16ビットを超える範囲の文字を表現することになった。この専用の記号文字をサロゲートといい、二つ組み合わせる手法をサロゲートペアという。 UTF-16では1バイトが16ビットになるが、これをバイトと呼ぶと混乱を招くため、UTF-16ではこれをコードユニットと呼ぶ。このように、16ビットのコードユニットを組み合わせてUnicodeを表現する符号化方法を、UTF-16という。 CESとCEF UTF-16は16ビット単位で文字が表現されるが、コンピューターではそれを8ビットごとに分解して処理することになるだろう。 エンディアンネス(ビッグエンディアンとリトルエンディアン)の違いがあり、どのようなオクテットシーケンスになるかは実装によるが、いずれにせよ現在のコンピューターは8ビット単位で情報を処理する。 文字コードの世界では、オクテット列で表わされる表現方法をCESという。一方でUnicodeの文字集合はCCSである。ここで問題となるのは中間の状態、UTF-16としての表現方法そのものであるが、このような16ビット形式での表現は新規に「CEF」という用語を作って呼ぶことにした。 つまり、Unicodeのコードポイント(CCS)→CEF(16ビット)→CES(8ビット)というように変形されていくことになる。 [仕様] サロゲートペア 新たに出来た領域をISO/IEC 10646の1面〜16面として割り当て、ISO/IEC 10646の00群00面〜00群16面の計17面、最大1,114,112文字種まで利用可能となった。この技術をサロゲートペアといい、このサロゲートペアを併用するUnicodeの符号化方法をUTF-16という。つまりUTF-16とは16ビットを基準とする可変長エンコードである。ISO/IEC 10646の符号UCS-2との差は、このサロゲートペアの機能の有無である。 ・・・ |
【ISO】ái és óu アイ エス オウ,ア́イ エ́ス オ́ウ,アイ エス オー,ア́イ エ́ス オ́ー,アイエスオー,イソ,アイソ,International Organization for Standardization,ìntərnǽʃənəl ɔ̀rgənəzéiʃən fɔ́r stæ̀ndərdəzéiʃən,インタゥーナェッシュノゥルゥ オーァガニゼイシュン フォァ スタェンダゥディゼイシュン,インタゥーナェッシュノゥルゥ・オーァガニゼイシュン・フォァ・スタェンダゥディゼイシュン,イ̀ンタゥーナェッ́シュノゥルゥ・オ̀ーァガニゼ́イシュン・フォァ・スタェ̀ンダゥディゼ́イシュン,インターナショナル オーガニゼイション フォー スタンダーダイゼーション,インターナショナル・オーガニゼイション・フォー・スタンダーダイゼーション,イ̀ンターナ́ショナル・オ̀ーガニゼ́イション・フォー・スタ̀ンダダゼ́ーション, [名詞] 国際標準化機構,こくさい ひょうじゅんか きこう, 【IEC】ái íː síː アイ イー シィー,ア́イ イ́ー シィ́ー,アイ イー シー,ア́イ イ́ー シ́ー,International Electrotechnical Commission,ìntərnǽʃənəl iléktroutéknikəl kəmíʃən,インタゥーナェッシュノゥルゥ エィレゥクトゥロテクニカォル コァミシュン,インタゥーナェッシュノゥルゥ・エィレゥクトゥロテクニカォル・コァミシュン,イ̀ンタゥーナェッ́シュノゥルゥ・エレ́クトロテ̀クニカル・コァミ́シュン,インターナショナル エレクトロテクニカル コミッション,インターナショナル・エレクトロテクニカル・コミッション,イ̀ンターナ́ショナル・エレ́クトロテ̀クニカル・コミッ́ション, [名詞] 国際電気標準会議,こくさい でんき ひょうじゅん かいぎ, |
同義語・類義語 | 関連語・その他 |
---|---|
BOM | ネットワークバイトオーダー |
Byte Order Mark | 文字符号化方式 |
byte order mark | 文字符号化スキーム |
báit ɔ́rdər mɑ́rk | ・ |
バイトゥ オゥーダゥー マゥァーク | Byte |
バイトゥ・オゥーダゥー・マゥァーク | báit |
バ́イトゥ・オゥ́ーダゥー・マゥァ́ーク | バイトゥ |
バイト オーダー マーク | バ́イトゥ |
バイト・オーダー・マーク | バイト |
バ́イト・オ́ーダー・マ́ーク | バ́イト |
バイトオーダーマーク | [名詞] |
ボム | 8ビット |
ビー オウ エム | ・ |
ビー オー エム | Order |
バイト順序マーク | ɔ́rdər |
バイト順マーク | オゥーダゥー |
バイトじゅんマーク | オゥ́ーダゥー |
・ | オーダー |
【 以下関連語 】 | オ́ーダー |
UTF-16 | [名詞] |
UCS/Unicode Transformation Format 16 | 命令 |
UCS Transformation Format-16 | 順序 |
Unicode Transformation Format-16 | 整頓 |
ユー シー エス・トランスフォーメーション・フォーマット・シクスティーン | 整列 |
ユニコード・トランスフォーメーション・フォーマット・シクスティーン | 順番 |
ユー ティー エフ 16 | 順位 |
・ | 等級 |
サロゲートペア | 種類 |
CES | 注文 |
CEF | ・ |
UTF-16BE | mark |
UTF-16LE | mɑ́rk |
Byte Order | マゥァーク |
バイトオーダー | マゥァ́ーク |
endian | マーク |
UTF-8 | マ́ーク |
エンディアン | [名詞] |
ビッグエンディアン | 印 |
リトルエンディアン | [他動詞] |
network byte order | 印を付ける |
更新日:2024年 3月30日 |
同義語・類義語 | 関連語・その他 |
---|---|
ISO/IEC 10646 | Information technology - Universal Multiple-Octet Coded Character Set |
ISO/IEC ten thousand six hundred forty six | Universal Multiple-Octet Coded Character Set |
ái és óu ái íː síː tén θáuznd síks hʌ́ndrəd fɔrti síks | jùnəvə́ːrsəl mʌ́ltəpl ɑktét kóudid kǽrəktər sét |
アイ エス オウ アイ イー シィー テン サゥウザンドゥ シェィックス ハゥンドゥレッドゥ フォーディー シェィックス | ユニヴァーサルゥ モァルゥティポルゥ オァクテットゥ コァウデッドゥ キャェラゥクタゥァー セットゥ |
アイ エス オウ・アイ イー シィー・テン サゥウザンドゥ シェィックス ハゥンドゥレッドゥ フォーディー シェィックス | ユニヴァーサルゥ・モァルゥティポルゥ・オァクテットゥ・コァウデッドゥ・キャェラゥクタゥァー・セットゥ |
ア́イ エ́ス オ́ウ・ア́イ イ́ー シィ́ー・テ́ン サゥ́ウザンドゥ シェィッ́クス ウァン ハゥ́ンドゥレッドゥ フォーディー シェィッ́クス | ユ̀ニヴァ́ーサルゥ・モァ́ルゥティポルゥ・オァクテッ́トゥ・コァ́ウデッドゥ・キャェ́ラゥクタゥァー・セッ́トゥ |
アイ エス オー アイ イー シー テン サウザンド シクス ハンドレッド フォーティー シクス | ユニバーサル マルチプル オクテット コーデッド キャラクター セット |
アイ エス オー・アイ イー シー・テン サウザンド シクス ハンドレッド フォーティー シクス | ユニバーサル・マルチプル・オクテット・コーデッド・キャラクター・セット |
ア́イ エ́ス オ́ー・ア́イ イ́ー シ́ー・テ́ン サ́ウザンド シ́クス ハ́ンドレッド フォーティー シ́クス | ユ̀ニバ́ーサル・マ́ルチプル・オクテッ́ト・コ́ーデッド・キャ́ラクター・セッ́ト |
アイエスオウ・アイイースィー・いちゼロろくよんろく | 国際符号化文字集合 |
アイソウ アイ イー シィー テン サゥウザンドゥ シェィックス ハゥンドゥレッドゥ フォーディー シェィックス | Universal Coded Character Set |
アイソウ アイ イー シィー・テン サゥウザンドゥ シェィックス ハゥンドゥレッドゥ フォーディー シェィックス | jùnəvə́ːrsəl kóudid kǽrəktər sét |
ア́イソウ・ア́イ イ́ー シィ́ー・テ́ン サゥ́ウザンドゥ シェィッ́クス ウァン ハゥ́ンドゥレッドゥ フォーディー シェィッ́クス | ユニヴァーサルゥ コァウデッドゥ キャェラゥクタゥァー セットゥ |
・ | ユニヴァーサルゥ・コァウデッドゥ・キャェラゥクタゥァー・セットゥ |
International Standard 10646 | ユ̀ニヴァ́ーサルゥ・コァ́ウデッドゥ・キャェ́ラゥクタゥァー・セッ́トゥ |
ìntərnǽʃənəl stǽndərd tén θáuznd síks hʌ́ndrəd fɔrti síks | ユニバーサル コーデッド キャラクター セット |
インタゥーナェッシュノゥルゥ スタェンダゥァードゥ テン サゥウザンドゥ シェィックス ハゥンドゥレッドゥ フォーディー シェィックス | ユニバーサル・コーデッド・キャラクター・セット |
インタゥーナェッシュノゥルゥ・スタェンダゥァードゥ・テン サゥウザンドゥ シェィックス ハゥンドゥレッドゥ フォーディー シェィックス | ユ̀ニバ́ーサル・コ́ーデッド・キャ́ラクター・セッ́ト |
イ̀ンタゥーナェッ́シュノゥルゥ・スタェ́ンダゥァードゥ・テ́ン サゥ́ウザンドゥ シェィッ́クス ウァン ハゥ́ンドゥレッドゥ フォーディー シェィッ́クス | ・ |
インターナショナル スタンダード テン サウザンド シクス ハンドレッド フォーティー シクス | 【 以下関連語 】 |
インターナショナル・スタンダード・テン サウザンド シクス ハンドレッド フォーティー シクス | UTF |
イ̀ンターナ́ショナル・スタ́ンダード・テ́ン サ́ウザンド シ́クス ハ́ンドレッド フォーティー シ́クス | júː tíː éf |
10646国際規格 | ユー ティー エフ |
10646 こくさい きかく | UCS Transformation Format |
・ | UTF-1 |
JIS X 0221 | UTF-8 |
・ | UTF-16 |
Unicode | UTF-32 |
júnikòud | ・ |
ユニコウドゥ | Octet |
ユ́ニコ̀ウドゥ | ɑktét |
ユニコード | オァクテットゥ |
ユ́ニコ̀ード | オァクテッ́トゥ |
・ | オクテット |
UCS | オクテッ́ト |
júː síː és | [名詞] |
ユー シィー エス | 8 |
ユ́ー シィ́ー エ́ス | 八つ |
ユー シー エス | 8ビット |
ユ́ー シ́ー エ́ス | 八重奏 |
更新日:2024年 3月19日 |
同義語・類義語 | 関連語・その他 |
---|---|
UTF-16 | サロゲートペア |
UCS/Unicode Transformation Format 16 | CES |
júː síː és/júnikóud træ̀nsfərméiʃən fɔ́rmæt síkstíːn | CEF |
ユー ティー エフ 16 | UTF-16BE |
ユー ティー エフ シェィックスティーン | UTF-16LE |
ユー ティー エフ シクスティーン | Byte Order |
・ | バイトオーダー |
(ISO/IEC 10646) | BOM |
UCS Transformation Format-16 | ボム |
júː síː és træ̀nsfərméiʃən fɔ́rmæt síkstíːn | Byte Order Mark |
ユー シィー エス トゥラェンスフォーァメイシュン フォァマェットゥ シェィックスティーン | バイトオーダーマーク |
ユー シィー エス・トゥラェンスフォーァメイシュン・フォァマェットゥ・シェィックスティーン | endian |
ユー シー エス トランスフォーメーション フォーマット シクスティーン | UTF-8 |
ユー シー エス・トランスフォーメーション・フォーマット・シクスティーン | エンディアン |
・ | ビッグエンディアン |
(Unicode) | リトルエンディアン |
Unicode Transformation Format-16 | network byte order |
júnikòud træ̀nsfərméiʃən fɔ́rmæt síkstíːn | ネットワークバイトオーダー |
ユニコウドゥ トゥラェンスフォーァメイシュン フォァマェットゥ シェィックスティーン | 文字符号化方式 |
ユニコウドゥ・トゥラェンスフォーァメイシュン・フォァマェットゥ・シェィックスティーン | 文字符号化スキーム |
ユニコード トランスフォーメーション フォーマット シクスティーン | ・ |
ユニコード・トランスフォーメーション・フォーマット・シクスティーン | Transformation |
træ̀nsfərméiʃən | |
トゥラェンスフォーァメイシュン | |
トランスフォーメーション | |
[名詞] | |
変化 | |
変形 | |
変換 | |
転換 | |
・ | |
更新日:2024年 2月 1日 |