出典: ISO/IEC 10646 [読み] アイエスオウ・アイイースィー・いちゼロろくよんろく [外語] ISO/IEC 10646 『通信用語の基礎知識』 更新年月日 2014/08/24,URL: https://www.wdic.org/ 文字集合(CCS)の一つ。国際標準として作られている。 [概要] 文字集合 元々は、16ビット、そして後に21ビットのUnicodeに対し、32ビット(有効31ビット)の文字空間を持つのが特徴となっていた。 Unicodeでは表現できない文字空間を表わすことができるという点でUnicodeの上位互換であったが、ISO/IEC 10646:2003/Amd.2:2006でUnicode外の領域は「永久に予約」(permanently reserved)と宣言されたことにより、使用できなくなった。 このため現在では、公開日のずれこそあるが、両者は文字集合としては同一となっている。 国際標準 正式には、Information technology - Universal Multiple-Octet Coded Character Set (UCS) (国際符号化文字集合(UCS))という。 最初に作られた16ビット範囲に収められるPart1(ISO/IEC 10646-1)と、それを超える範囲を規定するPart2(ISO/IEC 10646-2)があったが、後に両者は統合され(2003(平成15)年)、現在のISO/IEC 10646となった。 この国際標準の、各国の規格名は次のようになっている。 ● 日本国: JIS X 0221 ● 支那: GB 13000 ● 南鮮: KS X 1005 沿革 ISO/IEC 10646と、関連する事項について時系列で並べる。 なお、「ISO/IEC 10646-1:1993」のAmd(AMENDMENT=追補)は31まで確認されているが、全部は発行されていない。該当する※を附したものは「ISO/IEC 10646-1:2000」へと組み込まれている。 [Unicode 1.x時代] ● 1991(平成3)年6月: DIS 10646が国際投票で否決される ● 1991(平成3)年10月: Unicode 1.0 Vol.1 ● 1992(平成4)年1月: DIS 10646第二版が国際投票で可決される ● 1992(平成4)年6月: Unicode 1.0 Vol.2 ● 1993(平成5)年: Unicode 1.1 [ISO/IEC 10646-1:1993時代] ● 1993(平成5)年5月1日: ISO/IEC 10646-1制定 (ISO/IEC 10646-1:1993) ● 1996(平成8)年7月: Unicode 2.0 ● 1996(平成8)年10月15日: ISO/IEC 10646-1:1993/Amd.1:1996 (Transformation Format for 16 planes of group 00 (UTF-16)) ● 1996(平成8)年10月15日: ISO/IEC 10646-1:1993/Amd.2:1996 (UCS Transformation Format 8 (UTF-8)) ● 1996(平成8)年10月15日: ISO/IEC 10646-1:1993/Amd.3:1996 (Code positions for control characters) ● 1996(平成8)年10月15日: ISO/IEC 10646-1:1993/Amd.4:1996 (Removal of annex G (UTF-1)) ・・・ |
出典: オクテット 『フリー百科事典 ウィキペディア日本語版(Wikipedia)』 最終更新 2018年9月23日 (日) 15:29 UTC、URL: https://ja.wikipedia.org/ オクテット(英: octet、8組の意味)は、コンピュータの、特に通信関係の分野などで、厳密には8ビット以外を指すこともある「バイト」の代わりに、必ず8ビットのことを指すものとして使われている語である。「バイト」と違い、「オクテット」は必ず8ビットを意味するものであり、通信分野などでプロトコルなどを定義する際などに必要となる。 [概要] オクテットの主要な使われ方には、IETFにより発行されるRFCがある。初期の例では1974年のRFC 635で、フランス語、フレンチカナディアン、ルーマニア語で、「8ビット」の意味で「オクテット」の語が「バイト」の代わりに一般的に使われており、「メガバイト (MB)」は「メガオクテット (Mo)」である。 コンピュータの歴史の初期には、「バイト」は「8ビット」の意味とは標準化されておらず、色々なマシンによって、異なる(比較的小さな)サイズの単位を表した。後にSystem/360やマイクロコンピュータの普及によって、「1バイト = 8ビット」の処理系が普及した。そのため今日では「バイト」と「オクテット」はほぼ同義語だが、幾つかの大型コンピュータ(一部のメインフレーム、ミニコンピュータなど)では、混乱を避けるための注意が必要である。 ・・・ |
出典: ISO/IEC 10646 『フリー百科事典 ウィキペディア日本語版(Wikipedia)』 最終更新 2019年6月6日 (木) 15:25 UTC、URL: https://ja.wikipedia.org/ ISO/IEC 10646 (UCS; Universal Coded Character Set) は、符号化文字集合や文字符号化方式などを定めた、文字コードの国際標準のひとつで、業界規格のUnicodeと概ね互換である。日本の対応規格はJIS X 0221(国際符号化文字集合)。文字空間(0 - 10FFFF16)、収録されている文字、それらの符号位置、英語でつけられた文字の名前、文字符号化方式(UTF-8, UTF-16, UTF-32)はUnicode規格と全く同じである。ただし、文字空間は古い規格では21ビットのUnicodeをベースにして文字空間を31ビットに拡張したものとされ、Unicodeの最大値であるU+10FFFFより大きなコードも使用できるという点でUnicodeと異なっていた。しかし、2006年の改訂によりUnicodeで使用できない領域には文字が「永久に定義されない」こととされ、2011年の改訂では明確に0 - 10FFFFと定義され同一となった。 ・・・ |
出典: UTF-8 『フリー百科事典 ウィキペディア日本語版(Wikipedia)』 最終更新 2021年4月4日 (日) 04:44 UTC、URL: https://ja.wikipedia.org/ UTF-8(ユーティーエフはち、ユーティーエフエイト)はISO/IEC 10646 (UCS) とUnicodeで使える8ビット符号単位(1~4 byte の可変長)の文字符号化形式及び文字符号化スキーム。 正式名称は、ISO/IEC 10646では “UCS Transformation Format 8”、Unicodeでは “Unicode Transformation Format-8” という。両者はISO/IEC 10646とUnicodeのコード重複範囲で互換性がある。RFCにも仕様がある。 2バイト目以降に「/」などのASCII文字が現れないように工夫されていることから、UTF-FSS (File System Safe) ともいわれる。旧名称はUTF-2。 UTF-8は、データ交換方式・ファイル形式として一般的に使われる傾向にある。 ・・・ |
【ISO】ái és óu アイ エス オウ,ア́イ エ́ス オ́ウ,アイ エス オー,ア́イ エ́ス オ́ー,アイエスオー,イソ,アイソ,International Organization for Standardization,ìntərnǽʃənəl ɔ̀rgənəzéiʃən fɔ́r stæ̀ndərdəzéiʃən,インタゥーナェッシュノゥルゥ オーァガニゼイシュン フォァ スタェンダゥディゼイシュン,インタゥーナェッシュノゥルゥ・オーァガニゼイシュン・フォァ・スタェンダゥディゼイシュン,イ̀ンタゥーナェッ́シュノゥルゥ・オ̀ーァガニゼ́イシュン・フォァ・スタェ̀ンダゥディゼ́イシュン,インターナショナル オーガニゼイション フォー スタンダーダイゼーション,インターナショナル・オーガニゼイション・フォー・スタンダーダイゼーション,イ̀ンターナ́ショナル・オ̀ーガニゼ́イション・フォー・スタ̀ンダダゼ́ーション, [名詞] 国際標準化機構,こくさい ひょうじゅんか きこう, 【IEC】ái íː síː アイ イー シィー,ア́イ イ́ー シィ́ー,アイ イー シー,ア́イ イ́ー シ́ー,International Electrotechnical Commission,ìntərnǽʃənəl iléktroutéknikəl kəmíʃən,インタゥーナェッシュノゥルゥ エィレゥクトゥロテクニカォル コァミシュン,インタゥーナェッシュノゥルゥ・エィレゥクトゥロテクニカォル・コァミシュン,イ̀ンタゥーナェッ́シュノゥルゥ・エレ́クトロテ̀クニカル・コァミ́シュン,インターナショナル エレクトロテクニカル コミッション,インターナショナル・エレクトロテクニカル・コミッション,イ̀ンターナ́ショナル・エレ́クトロテ̀クニカル・コミッ́ション, [名詞] 国際電気標準会議,こくさい でんき ひょうじゅん かいぎ, |
出典: UTF-8 [外語] Unicode Transformation Format-8 『通信用語の基礎知識』 更新年月日 2009/12/21,URL: https://www.wdic.org/ ISO/IEC 10646およびUnicode文字を8ビット単位の不定長として表現できるように変換したもの。 [概要] 仕様 Unicodeを1〜4オクテットに、または、ISO/IEC 10646を1〜6オクテットの不定長に変換する。 前者はRFC 3629で標準化されており、後者はこのRFCによって破棄された古いRFCであるRFC 2279にて仕様が規定されている。 このように、RFC 2279では1〜6オクテットまでの規定があったが、RFC 3629ではUnicode文字(U+0000〜U+10FFFF)だけの対応となり、1〜4オクテットの範囲だけしか規定されなくなった。 実装 Javaでは実行ファイル(Javaバイトコードと呼ばれる)内部で実際に用いられている文字コードの符号化方法であり、Java以外でもInternet ExplorerやMicrosoft Wordなどで広く対応している。 ASCIIと互換性があり、かつ世界中の言語を容易に扱えるということで徐々に人気が高まった。 この方法を用いるとASCII文字の範囲(0x00〜0x7f)を保存したまま、8ビット長でUnicode文字が表現可能となる。 従来の英語圏環境の文字コードと互換性が保たれ、プログラミング面でも扱いが容易であるため、従来は英語専用だったソフトウェアを新規に多国語対応化する場合などには有用である。 [技術] BOM UTF-16などでは、符号のバイト順が自在のため、バイト順を機械的に識別可能なように文書の先頭にはBOMと呼ばれる記号(U+FEFF, ZWNBSP)を付ける。 UTF-8の場合はバイト順序は常に固定で変化することはないので、このような目印は本来は不要であるが、その文書がUTF-8であるかどうかを識別するために同様に使われることが多い。 U+FEFF(ZWNBSP)は、UTF-8では「0xEF 0xBB 0xBF」という3オクテットになり、これが先頭にあればそれはUTF-8であると判断できる。 日本のローカルな俗称として、このZWNBSPが先頭に無いUTF-8をUTF-8Nと呼ぶ。 符号化方法 古いRFC 2279で表現できる全範囲を以下に示す。新しいRFC 3629では、 ・・・ |
同義語・類義語 | 関連語・その他 |
---|---|
16bit | ユニコード社 |
2バイト・コード | |
ISO/IEC 10646-1:1993 | |
JIS X 0221-1995 | |
UCS Part 1 | |
UNICODE | |
Unicode | |
Unicode 1.0 | |
Unicode 1.1 | |
Unicode 2.0 | |
Unicode Consortium | |
Unicode Inc. | |
Universal Multiple-Octet Coded Character Set Part 1 | |
ユニコード | |
更新日:2024年 3月30日 |
同義語・類義語 | 関連語・その他 |
---|---|
ISO/IEC 10646 | Information technology - Universal Multiple-Octet Coded Character Set |
ISO/IEC ten thousand six hundred forty six | Universal Multiple-Octet Coded Character Set |
ái és óu ái íː síː tén θáuznd síks hʌ́ndrəd fɔrti síks | jùnəvə́ːrsəl mʌ́ltəpl ɑktét kóudid kǽrəktər sét |
アイ エス オウ アイ イー シィー テン サゥウザンドゥ シェィックス ハゥンドゥレッドゥ フォーディー シェィックス | ユニヴァーサルゥ モァルゥティポルゥ オァクテットゥ コァウデッドゥ キャェラゥクタゥァー セットゥ |
アイ エス オウ・アイ イー シィー・テン サゥウザンドゥ シェィックス ハゥンドゥレッドゥ フォーディー シェィックス | ユニヴァーサルゥ・モァルゥティポルゥ・オァクテットゥ・コァウデッドゥ・キャェラゥクタゥァー・セットゥ |
ア́イ エ́ス オ́ウ・ア́イ イ́ー シィ́ー・テ́ン サゥ́ウザンドゥ シェィッ́クス ウァン ハゥ́ンドゥレッドゥ フォーディー シェィッ́クス | ユ̀ニヴァ́ーサルゥ・モァ́ルゥティポルゥ・オァクテッ́トゥ・コァ́ウデッドゥ・キャェ́ラゥクタゥァー・セッ́トゥ |
アイ エス オー アイ イー シー テン サウザンド シクス ハンドレッド フォーティー シクス | ユニバーサル マルチプル オクテット コーデッド キャラクター セット |
アイ エス オー・アイ イー シー・テン サウザンド シクス ハンドレッド フォーティー シクス | ユニバーサル・マルチプル・オクテット・コーデッド・キャラクター・セット |
ア́イ エ́ス オ́ー・ア́イ イ́ー シ́ー・テ́ン サ́ウザンド シ́クス ハ́ンドレッド フォーティー シ́クス | ユ̀ニバ́ーサル・マ́ルチプル・オクテッ́ト・コ́ーデッド・キャ́ラクター・セッ́ト |
アイエスオウ・アイイースィー・いちゼロろくよんろく | 国際符号化文字集合 |
アイソウ アイ イー シィー テン サゥウザンドゥ シェィックス ハゥンドゥレッドゥ フォーディー シェィックス | Universal Coded Character Set |
アイソウ アイ イー シィー・テン サゥウザンドゥ シェィックス ハゥンドゥレッドゥ フォーディー シェィックス | jùnəvə́ːrsəl kóudid kǽrəktər sét |
ア́イソウ・ア́イ イ́ー シィ́ー・テ́ン サゥ́ウザンドゥ シェィッ́クス ウァン ハゥ́ンドゥレッドゥ フォーディー シェィッ́クス | ユニヴァーサルゥ コァウデッドゥ キャェラゥクタゥァー セットゥ |
・ | ユニヴァーサルゥ・コァウデッドゥ・キャェラゥクタゥァー・セットゥ |
International Standard 10646 | ユ̀ニヴァ́ーサルゥ・コァ́ウデッドゥ・キャェ́ラゥクタゥァー・セッ́トゥ |
ìntərnǽʃənəl stǽndərd tén θáuznd síks hʌ́ndrəd fɔrti síks | ユニバーサル コーデッド キャラクター セット |
インタゥーナェッシュノゥルゥ スタェンダゥァードゥ テン サゥウザンドゥ シェィックス ハゥンドゥレッドゥ フォーディー シェィックス | ユニバーサル・コーデッド・キャラクター・セット |
インタゥーナェッシュノゥルゥ・スタェンダゥァードゥ・テン サゥウザンドゥ シェィックス ハゥンドゥレッドゥ フォーディー シェィックス | ユ̀ニバ́ーサル・コ́ーデッド・キャ́ラクター・セッ́ト |
イ̀ンタゥーナェッ́シュノゥルゥ・スタェ́ンダゥァードゥ・テ́ン サゥ́ウザンドゥ シェィッ́クス ウァン ハゥ́ンドゥレッドゥ フォーディー シェィッ́クス | ・ |
インターナショナル スタンダード テン サウザンド シクス ハンドレッド フォーティー シクス | 【 以下関連語 】 |
インターナショナル・スタンダード・テン サウザンド シクス ハンドレッド フォーティー シクス | UTF |
イ̀ンターナ́ショナル・スタ́ンダード・テ́ン サ́ウザンド シ́クス ハ́ンドレッド フォーティー シ́クス | júː tíː éf |
10646国際規格 | ユー ティー エフ |
10646 こくさい きかく | UCS Transformation Format |
・ | UTF-1 |
JIS X 0221 | UTF-8 |
・ | UTF-16 |
Unicode | UTF-32 |
júnikòud | ・ |
ユニコウドゥ | Octet |
ユ́ニコ̀ウドゥ | ɑktét |
ユニコード | オァクテットゥ |
ユ́ニコ̀ード | オァクテッ́トゥ |
・ | オクテット |
UCS | オクテッ́ト |
júː síː és | [名詞] |
ユー シィー エス | 8 |
ユ́ー シィ́ー エ́ス | 八つ |
ユー シー エス | 8ビット |
ユ́ー シ́ー エ́ス | 八重奏 |
更新日:2024年 3月19日 |
同義語・類義語 | 関連語・その他 |
---|---|
UTF-8 | 文字符号化形式 |
8-bit UCS Transformation Format | 文字符号化スキーム |
éit bít júː síː és træ̀nsfərméiʃən fɔ́rmæt | ISO/IEC 10646 |
エイトゥ ビィットゥ ユー シィー エス トゥラェンスフォーァメイシュン フォァマェットゥ | ISO/IEC 10646(UCS) |
エイトゥ・ビィットゥ・ユー シィー エス・トゥラェンスフォーァメイシュン・フォァマェットゥ | Unicode |
エイト ビット ユー シー エス トランスフォーメーション フォーマット | octet |
エイト・ビット・ユー シー エス・トランスフォーメーション・フォーマット | オクテット |
ユー ティー エフ エイト | ・ |
ユー ティー エフ はち | UCS |
1~6バイト可変長マルチバイト | UCS-4 |
8~48ビット可変長バイト列 | Universal multi-octet Character Set 4 |
・ | ・ |
UCS Transformation Format 8 | UCS-2 |
júː síː és træ̀nsfərméiʃən fɔ́rmæt éit | Universal multi-octet Character Set 2 |
ユー シィー エス トゥラェンスフォーァメイシュン フォァマェットゥ エイトゥ | |
ユー シィー エス・トゥラェンスフォーァメイシュン・フォァマェットゥ・エイトゥ | |
ユー シー エス トランスフォーメーション フォーマット エイト | |
ユー シー エス・トランスフォーメーション・フォーマット・エイト | |
・ | |
Unicode Transformation Format-8 | |
júnikòud træ̀nsfərméiʃən fɔ́rmæt éit | |
ユニコウドゥ トゥラェンスフォーァメイシュン フォァマェットゥ エイトゥ | |
ユニコウドゥ・トゥラェンスフォーァメイシュン・フォァマェットゥ・エイトゥ | |
ユニコード トランスフォーメーション フォーマット エイト | |
ユニコード・トランスフォーメーション・フォーマット・エイト | |
・ | |
UTF-2 | |
UTF-FSS | |
UTF-File System Safe | |
更新日:2024年 3月19日 |