本文へスキップ

パステムは、桐の業務システム開発を支援しています

ICT用語同義語辞典COMPANY


【 「ユー ティー エフ シクスティーン」又はそれに関連する用語の意味 】
出典: UTF-16 『フリー百科事典 ウィキペディア日本語版(Wikipedia)』 最終更新 2020年2月22日 (土) 12:29 UTC、URL: https://ja.wikipedia.org/

 UTF-16 (UCS/Unicode Transformation Format 16とは、UnicodeおよびISO/IEC 10646の、符号化フォームおよび符号化スキームのひとつである。UTF-16では、1文字が、16ビットの符号単位が1つまたは2つで符号化される。これが「-16」の名の由来である。基本多言語面(BMP)内の文字は、符号単位1つの16ビットで表される。BMP以外の文字は、符号単位2つの32ビットで表される。なお、UTF-16は2バイトコードだと誤解されることがあるが、このように4バイトのこともあるため間違いである。Unicodeにおいては、厳密には、文字符号化フォーム(英: Character Encoding Form)の1つの名称であり、かつ、UTF-16符号化形式のための文字符号化スキーム(英: Character Encoding Scheme)の1つの名称でもある。UTF-16符号化フォームのための文字符号化スキームには、UTF-16の他にUTF-16BE、UTF-16LEがある。

[符号化]
 UTF-16では、Unicodeの代用符号位置を除いた符号位置(Unicodeスカラ値という)を、16ビット符号なし整数を符号単位とした符号単位列で表す。符号単位列は1つまたは2つの符号単位からなる。すなわち、合計は16ビットまたは32ビットである。
 BMPに含まれるU+0000..U+D7FFとU+E000..U+FFFFは、そのまま符号単位1つで表す。
 BMP以外のU+10000..U+10FFFFは、表のようにビットを配分して、符号単位2つで表す。 ・・・
出典: UTF-16 [外語] UCS Transformation Format-16,Unicode Transformation Format-16 『通信用語の基礎知識』 更新年月日 2012/06/18,URL: https://www.wdic.org/

 UnicodeやISO/IEC 10646の符号化方法(CES)の一つ。サロゲートペアという方法で、16ビットの範囲を超える文字を扱えるようにした。RFC 2781で情報提供扱いで規定されている。

[起源]
 Unicode 3.0以降で採用された符号化方法である。
 Unicodeは元々は「16ビット固定長」の文字集合であり、ISO/IEC 10646用語では基本多言語面(BMP)と表現される集合である。従って扱える文字数は216で最大65,536文字に限られた。
 そこでこのUnicodeの中で未定義だった領域に、サロゲートと呼ばれる1024個の領域を二つ(0xd800〜0xdb00と0xdc00〜0xdf00)用意し、これを組み合わせ1,024×1,024=1,048,576個の文字を扱えるようにした。
 この文字数は、BMPの大きさである65,536(216)の16倍に相当する。

[特徴]
構成
 Unicodeには、U+0000からU+10FFFFまでのコードポイントが存在する。
 元々16ビット固定長として作られたUnicodeであったが、16ビットを超える範囲を符号化するために、16ビットを二つ組み合わせて、16ビットを超える範囲の文字を表現することになった。この専用の記号文字をサロゲートといい、二つ組み合わせる手法をサロゲートペアという。
 UTF-16では1バイトが16ビットになるが、これをバイトと呼ぶと混乱を招くため、UTF-16ではこれをコードユニットと呼ぶ。このように、16ビットのコードユニットを組み合わせてUnicodeを表現する符号化方法を、UTF-16という。
CESとCEF
 UTF-16は16ビット単位で文字が表現されるが、コンピューターではそれを8ビットごとに分解して処理することになるだろう。
 エンディアンネス(ビッグエンディアンとリトルエンディアン)の違いがあり、どのようなオクテットシーケンスになるかは実装によるが、いずれにせよ現在のコンピューターは8ビット単位で情報を処理する。
 文字コードの世界では、オクテット列で表わされる表現方法をCESという。一方でUnicodeの文字集合はCCSである。ここで問題となるのは中間の状態、UTF-16としての表現方法そのものであるが、このような16ビット形式での表現は新規に「CEF」という用語を作って呼ぶことにした。
 つまり、Unicodeのコードポイント(CCS)→CEF(16ビット)→CES(8ビット)というように変形されていくことになる。

[仕様]
サロゲートペア
 新たに出来た領域をISO/IEC 10646の1面〜16面として割り当て、ISO/IEC 10646の00群00面〜00群16面の計17面、最大1,114,112文字種まで利用可能となった。この技術をサロゲートペアといい、このサロゲートペアを併用するUnicodeの符号化方法をUTF-16という。つまりUTF-16とは16ビットを基準とする可変長エンコードである。ISO/IEC 10646の符号UCS-2との差は、このサロゲートペアの機能の有無である。 ・・・

【ユー ティー エフ シクスティーンの同義語と関連語 】
< 1 >
同義語・類義語 関連語・その他
UTF-16 サロゲートペア
UCS/Unicode Transformation Format 16 CES
júː síː és/júnikóud træ̀nsfərméiʃən fɔ́rmæt síkstíːn CEF
ユー ティー エゥフ 16 UTF-16BE
ユー ティー エゥフ シェィックスティーン UTF-16LE
ユ́ー ティ́ー エゥ́フ シェィッ̀クスティ́ーン Byte Order
ユー ティー エフ シクスティーン バイトオーダー
ユ́ー ティ́ー エ́フ シ̀クスティ́ーン BOM
ボム
(ISO/IEC 10646) Byte Order Mark
UCS Transformation Format-16 バイトオーダーマーク
júː síː és træ̀nsfərméiʃən fɔ́rmæt síkstíːn endian
ユー シィー エス トゥラェンスフォーァメイシュョン フォァマェットゥ シェィックスティーン UTF-8
ユー シィー エス・トゥラェンスフォーァメイシュョン・フォァマェットゥ・シェィックスティーン エンディアン
ユ́ー シィ́ー エ́ス・トゥラェ̀ンスフォーァメ́イシュョン・フォ́ァマェットゥ・シェィッ̀クスティ́ーン ビッグエンディアン
ユー シー エス トランスフォーメーション フォーマット シクスティーン リトルエンディアン
ユー シー エス・トランスフォーメーション・フォーマット・シクスティーン network byte order
ユ́ー シ́ー エ́ス・トラ̀ンスフォーメ́ーション・フォ́ーマット・シ̀クスティ́ーン ネットワークバイトオーダー
文字符号化方式
(Unicode) 文字符号化スキーム
Unicode Transformation Format-16
júnikòud træ̀nsfərméiʃən fɔ́rmæt síkstíːn Transformation
ユニコウドゥ トゥラェンスフォーァメイシュョン フォァマェットゥ シェィックスティーン træ̀nsfərméiʃən
ユニコウドゥ・トゥラェンスフォーァメイシュョン・フォァマェットゥ・シェィックスティーン トゥラェンスフォーァメイシュョン
ユ́ニコ̀ウドゥ・トゥラェ̀ンスフォーァメ́イシュョン・フォ́ァマェットゥ・シェィッ̀クスティ́ーン トゥラェ̀ンスフォーァメ́イシュョン
ユニコード トランスフォーメーション フォーマット シクスティーン トランスフォーメーション
ユニコード・トランスフォーメーション・フォーマット・シクスティーン トラ̀ンスフォーメ́ーション
ユ́ニコ̀ード・トラ̀ンスフォーメ́ーション・フォ́ーマット・シ̀クスティ́ーン [名詞]

変化

変形

変換

転換
















更新日:2024年11月24日


【 他のICT用語辞典へ(外部リンク)】

UTF-8とUTF16の違いは? (@IT)
UTF-16 (Wikipedia)
UTF-16 (通信用語の基礎知識)