IT用語辞典【 Universal multi-octet Character Set 2 の意味と同義語】

ICT用語同義語辞典COMPANY

【「Universal multi-octet Character Set 2」又はそれに関連する用語の意味】

出典: オクテット『フリー百科事典ウィキペディア日本語版(Wikipedia)』最終更新 2018年9月23日 (日) 15:29 UTC、URL: https://ja.wikipedia.org/

　オクテット（英: octet、8組の意味）は、コンピュータの、特に通信関係の分野などで、厳密には8ビット以外を指すこともある「バイト」の代わりに、必ず8ビットのことを指すものとして使われている語である。「バイト」と違い、「オクテット」は必ず8ビットを意味するものであり、通信分野などでプロトコルなどを定義する際などに必要となる。

[概要]
　オクテットの主要な使われ方には、IETFにより発行されるRFCがある。初期の例では1974年のRFC 635で、フランス語、フレンチカナディアン、ルーマニア語で、「8ビット」の意味で「オクテット」の語が「バイト」の代わりに一般的に使われており、「メガバイト (MB)」は「メガオクテット (Mo)」である。
　コンピュータの歴史の初期には、「バイト」は「8ビット」の意味とは標準化されておらず、色々なマシンによって、異なる（比較的小さな）サイズの単位を表した。後にSystem/360やマイクロコンピュータの普及によって、「1バイト = 8ビット」の処理系が普及した。そのため今日では「バイト」と「オクテット」はほぼ同義語だが、幾つかの大型コンピュータ（一部のメインフレーム、ミニコンピュータなど）では、混乱を避けるための注意が必要である。　・・・

出典: UTF-8 『フリー百科事典ウィキペディア日本語版(Wikipedia)』最終更新 2021年4月4日 (日) 04:44 UTC、URL: https://ja.wikipedia.org/

　UTF-8（ユーティーエフはち、ユーティーエフエイト）はISO/IEC 10646 (UCS) とUnicodeで使える8ビット符号単位（1～4 byte の可変長）の文字符号化形式及び文字符号化スキーム。
　正式名称は、ISO/IEC 10646では “UCS Transformation Format 8”、Unicodeでは “Unicode Transformation Format-8” という。両者はISO/IEC 10646とUnicodeのコード重複範囲で互換性がある。RFCにも仕様がある。
　2バイト目以降に「/」などのASCII文字が現れないように工夫されていることから、UTF-FSS (File System Safe) ともいわれる。旧名称はUTF-2。
　UTF-8は、データ交換方式・ファイル形式として一般的に使われる傾向にある。　・・・

出典: UTF-8 [外語] Unicode Transformation Format-8 『通信用語の基礎知識』更新年月日 2009/12/21,URL: https://www.wdic.org/

　ISO/IEC 10646およびUnicode文字を8ビット単位の不定長として表現できるように変換したもの。

[概要]
仕様
　Unicodeを1〜4オクテットに、または、ISO/IEC 10646を1〜6オクテットの不定長に変換する。
　前者はRFC 3629で標準化されており、後者はこのRFCによって破棄された古いRFCであるRFC 2279にて仕様が規定されている。
　このように、RFC 2279では1〜6オクテットまでの規定があったが、RFC 3629ではUnicode文字(U+0000〜U+10FFFF)だけの対応となり、1〜4オクテットの範囲だけしか規定されなくなった。
実装
　Javaでは実行ファイル(Javaバイトコードと呼ばれる)内部で実際に用いられている文字コードの符号化方法であり、Java以外でもInternet ExplorerやMicrosoft Wordなどで広く対応している。
　ASCIIと互換性があり、かつ世界中の言語を容易に扱えるということで徐々に人気が高まった。
　この方法を用いるとASCII文字の範囲(0x00〜0x7f)を保存したまま、8ビット長でUnicode文字が表現可能となる。
　従来の英語圏環境の文字コードと互換性が保たれ、プログラミング面でも扱いが容易であるため、従来は英語専用だったソフトウェアを新規に多国語対応化する場合などには有用である。

[技術]
BOM
　UTF-16などでは、符号のバイト順が自在のため、バイト順を機械的に識別可能なように文書の先頭にはBOMと呼ばれる記号(U+FEFF, ZWNBSP)を付ける。
　UTF-8の場合はバイト順序は常に固定で変化することはないので、このような目印は本来は不要であるが、その文書がUTF-8であるかどうかを識別するために同様に使われることが多い。
　U+FEFF(ZWNBSP)は、UTF-8では「0xEF 0xBB 0xBF」という3オクテットになり、これが先頭にあればそれはUTF-8であると判断できる。
　日本のローカルな俗称として、このZWNBSPが先頭に無いUTF-8をUTF-8Nと呼ぶ。
符号化方法
　古いRFC 2279で表現できる全範囲を以下に示す。新しいRFC 3629では、　・・・

【Universal multi-octet Character Set 2の同義語と関連語】

< 1 >

同義語・類義語	関連語・その他
UTF-8	文字符号化形式
júː tíː éf éit	文字符号化スキーム
ユーティーエゥフエイトゥ	ISO/IEC 10646
ユ́ーティ́ーエゥ́フ	ISO/IEC 10646(UCS)
ユーティーエフエイト	Unicode
ユ́ーティ́ーエ́フエ́イト	octet
ユーティーエフはち	オクテット
・	・
8-bit UCS Transformation Format	UCS
éit bít júː síː és træ̀nsfərméiʃən fɔ́rmæt	UCS-4
エイトゥビェットゥユーシィーエストゥラェンスフォーァメイシュョンフォァマェットゥ	Universal multi-octet Character Set 4
エイトゥ・ビェットゥ・ユーシィーエス・トゥラェンスフォーァメイシュョン・フォァマェットゥ	・
エ́イトゥ・ビェッ́トゥ・ユ́ーシィ́ーエ́ス・トゥラェ̀ンスフォーァメ́イシュョン・フォ́ァマェットゥ	UCS-2
エイトビットユーシーエストランスフォーメーションフォーマット	Universal multi-octet Character Set 2
エイト・ビット・ユーシーエス・トランスフォーメーション・フォーマット
エ́イト・ビッ́ト・ユ́ーシ́ーエ́ス・トラ̀ンスフォーメ́ーション・フォ́ーマット
1～6バイト可変長マルチバイト
8～48ビット可変長バイト列
・
UCS Transformation Format 8
júː síː és træ̀nsfərméiʃən fɔ́rmæt éit
ユーシィーエストゥラェンスフォーァメイシュョンフォァマェットゥエイトゥ
ユーシィーエス・トゥラェンスフォーァメイシュョン・フォァマェットゥ・エイトゥ
ユ́ーシィ́ーエ́ス・トゥラェ̀ンスフォーァメ́イシュョン・フォ́ァマェットゥ・エ́イトゥ
ユーシーエストランスフォーメーションフォーマットエイト
ユーシーエス・トランスフォーメーション・フォーマット・エイト
ユ́ーシ́ーエ́ス・トラ̀ンスフォーメ́ーション・フォ́ーマット・エ́イト
・
Unicode Transformation Format-8
júnikòud træ̀nsfərméiʃən fɔ́rmæt éit
ユニコウドゥトゥラェンスフォーァメイシュョンフォァマェットゥエイトゥ
ユニコウドゥ・トゥラェンスフォーァメイシュョン・フォァマェットゥ・エイトゥ
ユ́ニコ̀ウドゥ・トゥラェ̀ンスフォーァメ́イシュョン・フォ́ァマェットゥ・エ́イトゥ
ユニコードトランスフォーメーションフォーマットエイト
ユニコード・トランスフォーメーション・フォーマット・エイト
ユ́ニコ̀ード・トラ̀ンスフォーメ́ーション・フォ́ーマット・エ́イト
・
UTF-2
UTF-FSS
UTF-File System Safe
	更新日:2025年 3月 8日

パステムは、桐の業務システム開発を支援しています

ICT用語同義語辞典COMPANY

ナビゲーション

サブナビゲーション