出典: UTF-16 『フリー百科事典 ウィキペディア日本語版(Wikipedia)』 最終更新 2020年2月22日 (土) 12:29 UTC、URL: https://ja.wikipedia.org/ UTF-16 (UCS/Unicode Transformation Format 16とは、UnicodeおよびISO/IEC 10646の、符号化フォームおよび符号化スキームのひとつである。UTF-16では、1文字が、16ビットの符号単位が1つまたは2つで符号化される。これが「-16」の名の由来である。基本多言語面(BMP)内の文字は、符号単位1つの16ビットで表される。BMP以外の文字は、符号単位2つの32ビットで表される。なお、UTF-16は2バイトコードだと誤解されることがあるが、このように4バイトのこともあるため間違いである。Unicodeにおいては、厳密には、文字符号化フォーム(英: Character Encoding Form)の1つの名称であり、かつ、UTF-16符号化形式のための文字符号化スキーム(英: Character Encoding Scheme)の1つの名称でもある。UTF-16符号化フォームのための文字符号化スキームには、UTF-16の他にUTF-16BE、UTF-16LEがある。 [符号化] UTF-16では、Unicodeの代用符号位置を除いた符号位置(Unicodeスカラ値という)を、16ビット符号なし整数を符号単位とした符号単位列で表す。符号単位列は1つまたは2つの符号単位からなる。すなわち、合計は16ビットまたは32ビットである。 BMPに含まれるU+0000..U+D7FFとU+E000..U+FFFFは、そのまま符号単位1つで表す。 BMP以外のU+10000..U+10FFFFは、表のようにビットを配分して、符号単位2つで表す。 ・・・ |
出典: UTF-16 [外語] UCS Transformation Format-16,Unicode Transformation Format-16 『通信用語の基礎知識』 更新年月日 2012/06/18,URL: https://www.wdic.org/ UnicodeやISO/IEC 10646の符号化方法(CES)の一つ。サロゲートペアという方法で、16ビットの範囲を超える文字を扱えるようにした。RFC 2781で情報提供扱いで規定されている。 [起源] Unicode 3.0以降で採用された符号化方法である。 Unicodeは元々は「16ビット固定長」の文字集合であり、ISO/IEC 10646用語では基本多言語面(BMP)と表現される集合である。従って扱える文字数は216で最大65,536文字に限られた。 そこでこのUnicodeの中で未定義だった領域に、サロゲートと呼ばれる1024個の領域を二つ(0xd800〜0xdb00と0xdc00〜0xdf00)用意し、これを組み合わせ1,024×1,024=1,048,576個の文字を扱えるようにした。 この文字数は、BMPの大きさである65,536(216)の16倍に相当する。 [特徴] 構成 Unicodeには、U+0000からU+10FFFFまでのコードポイントが存在する。 元々16ビット固定長として作られたUnicodeであったが、16ビットを超える範囲を符号化するために、16ビットを二つ組み合わせて、16ビットを超える範囲の文字を表現することになった。この専用の記号文字をサロゲートといい、二つ組み合わせる手法をサロゲートペアという。 UTF-16では1バイトが16ビットになるが、これをバイトと呼ぶと混乱を招くため、UTF-16ではこれをコードユニットと呼ぶ。このように、16ビットのコードユニットを組み合わせてUnicodeを表現する符号化方法を、UTF-16という。 CESとCEF UTF-16は16ビット単位で文字が表現されるが、コンピューターではそれを8ビットごとに分解して処理することになるだろう。 エンディアンネス(ビッグエンディアンとリトルエンディアン)の違いがあり、どのようなオクテットシーケンスになるかは実装によるが、いずれにせよ現在のコンピューターは8ビット単位で情報を処理する。 文字コードの世界では、オクテット列で表わされる表現方法をCESという。一方でUnicodeの文字集合はCCSである。ここで問題となるのは中間の状態、UTF-16としての表現方法そのものであるが、このような16ビット形式での表現は新規に「CEF」という用語を作って呼ぶことにした。 つまり、Unicodeのコードポイント(CCS)→CEF(16ビット)→CES(8ビット)というように変形されていくことになる。 [仕様] サロゲートペア 新たに出来た領域をISO/IEC 10646の1面〜16面として割り当て、ISO/IEC 10646の00群00面〜00群16面の計17面、最大1,114,112文字種まで利用可能となった。この技術をサロゲートペアといい、このサロゲートペアを併用するUnicodeの符号化方法をUTF-16という。つまりUTF-16とは16ビットを基準とする可変長エンコードである。ISO/IEC 10646の符号UCS-2との差は、このサロゲートペアの機能の有無である。 ・・・ |
同義語・類義語 | 関連語・その他 |
---|---|
UTF-16 | サロゲートペア |
UCS/Unicode Transformation Format 16 | CES |
júː síː és/júnikóud træ̀nsfərméiʃən fɔ́rmæt síkstíːn | CEF |
ユー ティー エゥフ 16 | UTF-16BE |
ユー ティー エゥフ シェィックスティーン | UTF-16LE |
ユ́ー ティ́ー エゥ́フ シェィッ̀クスティ́ーン | Byte Order |
ユー ティー エフ シクスティーン | バイトオーダー |
ユ́ー ティ́ー エ́フ シ̀クスティ́ーン | BOM |
・ | ボム |
(ISO/IEC 10646) | Byte Order Mark |
UCS Transformation Format-16 | バイトオーダーマーク |
júː síː és træ̀nsfərméiʃən fɔ́rmæt síkstíːn | endian |
ユー シィー エス トゥラェンスフォーァメイシュョン フォァマェットゥ シェィックスティーン | UTF-8 |
ユー シィー エス・トゥラェンスフォーァメイシュョン・フォァマェットゥ・シェィックスティーン | エンディアン |
ユ́ー シィ́ー エ́ス・トゥラェ̀ンスフォーァメ́イシュョン・フォ́ァマェットゥ・シェィッ̀クスティ́ーン | ビッグエンディアン |
ユー シー エス トランスフォーメーション フォーマット シクスティーン | リトルエンディアン |
ユー シー エス・トランスフォーメーション・フォーマット・シクスティーン | network byte order |
ユ́ー シ́ー エ́ス・トラ̀ンスフォーメ́ーション・フォ́ーマット・シ̀クスティ́ーン | ネットワークバイトオーダー |
・ | 文字符号化方式 |
(Unicode) | 文字符号化スキーム |
Unicode Transformation Format-16 | ・ |
júnikòud træ̀nsfərméiʃən fɔ́rmæt síkstíːn | Transformation |
ユニコウドゥ トゥラェンスフォーァメイシュョン フォァマェットゥ シェィックスティーン | træ̀nsfərméiʃən |
ユニコウドゥ・トゥラェンスフォーァメイシュョン・フォァマェットゥ・シェィックスティーン | トゥラェンスフォーァメイシュョン |
ユ́ニコ̀ウドゥ・トゥラェ̀ンスフォーァメ́イシュョン・フォ́ァマェットゥ・シェィッ̀クスティ́ーン | トゥラェ̀ンスフォーァメ́イシュョン |
ユニコード トランスフォーメーション フォーマット シクスティーン | トランスフォーメーション |
ユニコード・トランスフォーメーション・フォーマット・シクスティーン | トラ̀ンスフォーメ́ーション |
ユ́ニコ̀ード・トラ̀ンスフォーメ́ーション・フォ́ーマット・シ̀クスティ́ーン | [名詞] |
変化 | |
変形 | |
変換 | |
転換 | |
・ | |
更新日:2024年11月24日 |