JIS X 0208とは日本語を扱うための文字を収録した文字コード(符号化文字集合)であり、JIS規格である。
規格名称は「7ビット及び8ビットの2バイト情報交換用符号化漢字集合」。
通称として「JIS漢字コード」、「JIS基本漢字」とも呼ばれる。
概要
1978年に「JIS C 6226」として制定され、1987年、JISに情報処理の部門が出来たことに伴って現在の規格番号となった。
規格自体は1983年、1990年、1997年、2012年に改訂されたが、最後に文字集合に変更が入ったのは1990年版である。
仕様
詳細な仕様については規格書や書籍等を参照してもらうとして、ここでは簡単な概要を記す。
- 1つの文字を2バイト使って表す。
- 第一バイト、第二バイトは共に94通りの値をとる。
- 7ビット(=128通り)で表されるASCIIコードから、制御文字と空白文字を除いた図形文字が94通りである。
- 従って最大8836種類の文字を表すことができる。2012年版では全部で6879文字収録している。
- 第一バイトに対応する値を区、第二バイトに対応する値を点と呼び、例えば「梓」という文字は「16区20点」や「16-20」といった形で表される。
- 漢字のみならず記号や数字、ラテン文字、ひらがな・カタカナ、またギリシア文字やキリル文字も収録されている。
- 漢字は使用頻度等によって第1水準、第2水準という分類に分けられ、それぞれ2965字、3390字となっている。
以上のような仕組みはISO/IEC 2022という国際規格に対応するように設計されている。
中国や韓国がそれぞれ自国の文字コードを制定する際にも似たような構造が採用された。
漢字の包摂
文字の集合を考える時には「字形」や「字体」という考え方がある。手書きや活字印刷といった具体的なデザインを含めたもののことを字形と呼び、細かな違いを無視した抽象的な文字の骨組みのことを字体と呼ぶ。
包摂とは字体や字形の異なる文字を一つの同じ文字であるとみなすことである。
例えば「高」と「髙(はしごだか)」は共に25区66点に割り当てられ、この符号位置に対応する例示字体は「高」である。
例示字体はあくまでその符号位置の字体の一例でしかないが、フォント制作においてはこの例示字体を字体・字形選びの基準とすることが多い。
利用・影響
JIS X 0208はコンピュータ上における日本語での情報交換の基礎となった。
実際にデータのやり取りをする際はShift_JISやEUC-JP、ISO-2022-JPといった文字符号化方式(文字エンコーディング)を用いる。EUC-JPとほぼ同等の符号化方式は規格本体に定義されているほか、広く使用されていたShift_JISとISO-2022-JPについては1997年の改正によって標準に取り込まれた。
日本語のフォント(特にフリーフォント)は、労力の都合で非漢字と漢字第1水準に限って収録しているものが見られる。
本規格が制定された時、漢字の中には使用例などの根拠が不確かだった字がいくつか存在し、1997年の改正時に徹底的な調査が行われた。それでもなお典拠が不明なものが存在し、幽霊文字と呼ばれている。
人名などで使われながら当規格に収録されなかった文字がいくつか存在する(彅や燁など)。
これらの文字を含む人名がマスメディアのWeb記事などに掲載される際は、当該の字を記号かカナに置き換え、その下で漢字の構成を説明する記述がよく見られる。時にそれ自体が人物の愛称になることも。例:火へんに華
JIS X 0208に収録されなかった記号や漢字の一部は1990年制定のJIS X 0212に収録された。Shift_JISではJIS X 0208とJIS X 0212を同時に扱うことができないので、JIS X 0208を基にJIS X 0212の一部の文字を加えて拡張した文字集合が、2000年にJIS X 0213として制定された。
JIS X 0213はJIS X 0208を含有しているため、基本的にはJIS X 0213に置き換えられる。しかし包摂していた漢字のいくつかがJIS X 0213では分離して収録されるなど、完全な上位互換ではないという指摘がある。
外部リンク
関連項目
- 0
- 0pt