用語の定義
言葉の意味がイマイチ曖昧でしたが、書いてありました。
- 文字(キャラクタ:いわゆる「字体」のこと?)
- 文字は多少定義しやすいものです。文字はフォーマットに欠いている記号の抽象的な説明です。UnicodeにはLATIN SMALL LETTER A (a, a, a など) と呼ばれる文字をフォーマットできる多くの方法があります。しかしそれらはすべて同じ文字を示します。これはglyphと違うところです。
- glyph(いわゆる「字形」のこと?)
- 文字レパートリ
- 文字レパートリは文字の集合です。Latin1(ISO 8859-1)256文字の文字レパートリを持っています。文字レパートリ自体は文字が現れる順番を示しませんし、また順序を指定せず、文字をコードポイント(下記を参照)にマップすることもしません。
- 文字エンコード
- Latin 1などの256の文字レパートリを扱う場合、どのようにコードポイントがコンピュータに示されることになるかを理解することは容易です。それぞれのコードポイントは1バイトとして単にエンコードされます。一方65,536文字以上(0xFFFF以上)に到達した場合、今度は私たちがそれぞれの文字を一連のバイトとしてどのように表示されるかについてかなり正確に指定する必要があります。これは私たちのデータの文字エンコードです。Unicodeは通常UTF(Unicode Transformation Formats)と呼ばれる指定された文字コードのセットを使用します。最も一般的に使用されるUTFについては本章で後述します。
実用Perlプログラミング
posted with amazlet at 09.08.26