用語の定義

言葉の意味がイマイチ曖昧でしたが、書いてありました。

  • 文字(キャラクタ:いわゆる「字体」のこと?)
    • 文字は多少定義しやすいものです。文字はフォーマットに欠いている記号の抽象的な説明です。UnicodeにはLATIN SMALL LETTER A (a, a, a など) と呼ばれる文字をフォーマットできる多くの方法があります。しかしそれらはすべて同じ文字を示します。これはglyphと違うところです。
  • glyph(いわゆる「字形」のこと?)
    • glyphは文字の物理的でビジュアルな表現です。glyphはシェープ、書体、ポイントサイズ、ボールドネス、スラントなどと関係しますが、文字はそれらと関係しません。ちなみに「a」と「a」は同じ文字ですが異なるglyphです。Unicodeはglyphとは何ら関係しません。Unicodeはその文字をどのように見せるべきかではなく、まさにそれらが何であるかを決めるものです。一方、日本の標準JISなどの文字レパートリは使用される文字の集合ではなく、その外観を示します。
  • 文字レパートリ
    • 文字レパートリは文字の集合です。Latin1(ISO 8859-1)256文字の文字レパートリを持っています。文字レパートリ自体は文字が現れる順番を示しませんし、また順序を指定せず、文字をコードポイント(下記を参照)にマップすることもしません。
  • コードポイント
    • 文字のコードポイントは指定された文字コードの文字の位置と関連する数字です。文字のコードポイントを取得するPerl関数はordです。
  • 文字エンコード
    • Latin 1などの256の文字レパートリを扱う場合、どのようにコードポイントがコンピュータに示されることになるかを理解することは容易です。それぞれのコードポイントは1バイトとして単にエンコードされます。一方65,536文字以上(0xFFFF以上)に到達した場合、今度は私たちがそれぞれの文字を一連のバイトとしてどのように表示されるかについてかなり正確に指定する必要があります。これは私たちのデータの文字エンコードです。Unicodeは通常UTF(Unicode Transformation Formats)と呼ばれる指定された文字コードのセットを使用します。最も一般的に使用されるUTFについては本章で後述します。

実用Perlプログラミング
サイモン カズンズ
オライリージャパン
売り上げランキング: 76863
おすすめ度の平均: 5.0
5 Perlを深く知りたい方にはよい本です。