本文へスキップ

パステムは、桐の業務システム開発を支援しています

ICT用語同義語辞典COMPANY


【 「Universal multi-octet Character Set 2」又はそれに関連する用語の意味 】
出典: オクテット 『フリー百科事典 ウィキペディア日本語版(Wikipedia)』 最終更新 2018年9月23日 (日) 15:29 UTC、URL: https://ja.wikipedia.org/

 オクテット(英: octet、8組の意味)は、コンピュータの、特に通信関係の分野などで、厳密には8ビット以外を指すこともある「バイト」の代わりに、必ず8ビットのことを指すものとして使われている語である。「バイト」と違い、「オクテット」は必ず8ビットを意味するものであり、通信分野などでプロトコルなどを定義する際などに必要となる。

[概要]
 オクテットの主要な使われ方には、IETFにより発行されるRFCがある。初期の例では1974年のRFC 635で、フランス語、フレンチカナディアン、ルーマニア語で、「8ビット」の意味で「オクテット」の語が「バイト」の代わりに一般的に使われており、「メガバイト (MB)」は「メガオクテット (Mo)」である。
 コンピュータの歴史の初期には、「バイト」は「8ビット」の意味とは標準化されておらず、色々なマシンによって、異なる(比較的小さな)サイズの単位を表した。後にSystem/360やマイクロコンピュータの普及によって、「1バイト = 8ビット」の処理系が普及した。そのため今日では「バイト」と「オクテット」はほぼ同義語だが、幾つかの大型コンピュータ(一部のメインフレーム、ミニコンピュータなど)では、混乱を避けるための注意が必要である。 ・・・
出典: UTF-8 『フリー百科事典 ウィキペディア日本語版(Wikipedia)』 最終更新 2021年4月4日 (日) 04:44 UTC、URL: https://ja.wikipedia.org/

 UTF-8(ユーティーエフはち、ユーティーエフエイト)はISO/IEC 10646 (UCS) とUnicodeで使える8ビット符号単位(1~4 byte の可変長)の文字符号化形式及び文字符号化スキーム。
 正式名称は、ISO/IEC 10646では “UCS Transformation Format 8”、Unicodeでは “Unicode Transformation Format-8” という。両者はISO/IEC 10646とUnicodeのコード重複範囲で互換性がある。RFCにも仕様がある。
 2バイト目以降に「/」などのASCII文字が現れないように工夫されていることから、UTF-FSS (File System Safe) ともいわれる。旧名称はUTF-2。
 UTF-8は、データ交換方式・ファイル形式として一般的に使われる傾向にある。 ・・・
出典: UTF-8 [外語] Unicode Transformation Format-8 『通信用語の基礎知識』 更新年月日 2009/12/21,URL: https://www.wdic.org/

 ISO/IEC 10646およびUnicode文字を8ビット単位の不定長として表現できるように変換したもの。

[概要]
仕様
 Unicodeを1〜4オクテットに、または、ISO/IEC 10646を1〜6オクテットの不定長に変換する。
 前者はRFC 3629で標準化されており、後者はこのRFCによって破棄された古いRFCであるRFC 2279にて仕様が規定されている。
 このように、RFC 2279では1〜6オクテットまでの規定があったが、RFC 3629ではUnicode文字(U+0000〜U+10FFFF)だけの対応となり、1〜4オクテットの範囲だけしか規定されなくなった。
実装
 Javaでは実行ファイル(Javaバイトコードと呼ばれる)内部で実際に用いられている文字コードの符号化方法であり、Java以外でもInternet ExplorerやMicrosoft Wordなどで広く対応している。
 ASCIIと互換性があり、かつ世界中の言語を容易に扱えるということで徐々に人気が高まった。
 この方法を用いるとASCII文字の範囲(0x00〜0x7f)を保存したまま、8ビット長でUnicode文字が表現可能となる。
 従来の英語圏環境の文字コードと互換性が保たれ、プログラミング面でも扱いが容易であるため、従来は英語専用だったソフトウェアを新規に多国語対応化する場合などには有用である。

[技術]
BOM
 UTF-16などでは、符号のバイト順が自在のため、バイト順を機械的に識別可能なように文書の先頭にはBOMと呼ばれる記号(U+FEFF, ZWNBSP)を付ける。
 UTF-8の場合はバイト順序は常に固定で変化することはないので、このような目印は本来は不要であるが、その文書がUTF-8であるかどうかを識別するために同様に使われることが多い。
 U+FEFF(ZWNBSP)は、UTF-8では「0xEF 0xBB 0xBF」という3オクテットになり、これが先頭にあればそれはUTF-8であると判断できる。
 日本のローカルな俗称として、このZWNBSPが先頭に無いUTF-8をUTF-8Nと呼ぶ。
符号化方法
 古いRFC 2279で表現できる全範囲を以下に示す。新しいRFC 3629では、 ・・・

【Universal multi-octet Character Set 2の同義語と関連語 】
< 1 >
同義語・類義語 関連語・その他
UTF-8 文字符号化形式
júː tíː éf éit 文字符号化スキーム
ユー ティー エゥフ エイトゥ ISO/IEC 10646
ユ́ー ティ́ー エゥ́フ ISO/IEC 10646(UCS)
ユー ティー エフ エイト Unicode
ユ́ー ティ́ー エ́フ エ́イト octet
ユー ティー エフ はち オクテット
8-bit UCS Transformation Format UCS
éit bít júː síː és træ̀nsfərméiʃən fɔ́rmæt UCS-4
エイトゥ ビェットゥ ユー シィー エス トゥラェンスフォーァメイシュョン フォァマェットゥ Universal multi-octet Character Set 4
エイトゥ・ビェットゥ・ユー シィー エス・トゥラェンスフォーァメイシュョン・フォァマェットゥ
エ́イトゥ・ビェッ́トゥ・ユ́ー シィ́ー エ́ス・トゥラェ̀ンスフォーァメ́イシュョン・フォ́ァマェットゥ UCS-2
エイト ビット ユー シー エス トランスフォーメーション フォーマット Universal multi-octet Character Set 2
エイト・ビット・ユー シー エス・トランスフォーメーション・フォーマット
エ́イト・ビッ́ト・ユ́ー シ́ー エ́ス・トラ̀ンスフォーメ́ーション・フォ́ーマット
1~6バイト可変長マルチバイト
8~48ビット可変長バイト列

UCS Transformation Format 8
júː síː és træ̀nsfərméiʃən fɔ́rmæt éit
ユー シィー エス トゥラェンスフォーァメイシュョン フォァマェットゥ エイトゥ
ユー シィー エス・トゥラェンスフォーァメイシュョン・フォァマェットゥ・エイトゥ
ユ́ー シィ́ー エ́ス・トゥラェ̀ンスフォーァメ́イシュョン・フォ́ァマェットゥ・エ́イトゥ
ユー シー エス トランスフォーメーション フォーマット エイト
ユー シー エス・トランスフォーメーション・フォーマット・エイト
ユ́ー シ́ー エ́ス・トラ̀ンスフォーメ́ーション・フォ́ーマット・エ́イト

Unicode Transformation Format-8
júnikòud træ̀nsfərméiʃən fɔ́rmæt éit
ユニコウドゥ トゥラェンスフォーァメイシュョン フォァマェットゥ エイトゥ
ユニコウドゥ・トゥラェンスフォーァメイシュョン・フォァマェットゥ・エイトゥ
ユ́ニコ̀ウドゥ・トゥラェ̀ンスフォーァメ́イシュョン・フォ́ァマェットゥ・エ́イトゥ
ユニコード トランスフォーメーション フォーマット エイト
ユニコード・トランスフォーメーション・フォーマット・エイト
ユ́ニコ̀ード・トラ̀ンスフォーメ́ーション・フォ́ーマット・エ́イト

UTF-2
UTF-FSS
UTF-File System Safe

更新日:2025年 3月 8日


【 他のICT用語辞典へ(外部リンク)】

UTF-8 (Wikipedia)
UTF-8 (通信用語の基礎知識)
UTF-8とUTF16の違いは? (@IT)
オクテット (Wikipedia)