タイトル
Around the System and Development》データと文字コード(2)文字コード体系の問題
カテゴリー
テキスト/フォント, Around the System and Development
作成日
2002/3/3 17:39:45
作成者
新居雅行
英語はアルファベットが26文字である。大文字小文字があるとしても、後は数字とスペースやカンマ、ピリオドなどの記号が表現できれば、おおむね、「英語という言語」に基づいた文章や会話は記述できることになる。と言ってしまえば簡単なのだが、26文字であると言ってしまったところで、1つの壁を取り除いている。ある文字があったとき、何をもって同じ文字だと区別するのだろう? たとえば、Aという文字でも、人によって、その書かれた文字は違う。丸い感じにAと書く人もいれば、崩れたAの人もいる。これら、誰が書いても、一定の枠組みにあるものは同じAという文字であるという考え方だ。もちろん、そういう考え方は全ての言語に通じる考え方だ。ところが、日本語の場合には少し事情が違う。もちろん、達筆な「あ」も、崩れた「あ」も、「あ」というひらがなであると認識する点は同じだ。だが、「斉藤」と「斎藤」などのように、人名が絡むと文字というものに対するアルファベットのような割り切った考え方はされなくなる。日本語が絡むと「同じ」という感覚はいろいろ難しいし、明らかに日本語という言語文化の問題になる。たとえば他には、AppleとAppleは同じなのか違うのか…これは現在の日本語のコンピュータの世界では避けてとおれない問題であもる。つまり、「文字」というものの考え方が、欧米と日本とではどうも根底の部分で違うようである。もっともローマン系の文字でも、ヨーロッパ系のものはアルファベット26文字にいくつかプラスαされるし、ウムラウトやアクサンといった文字にプラスアルファ的な要素を組み入れることもある。そうした考慮が可能になるのは結果的に後の時代と言うことになる。だが、最初にアルファベット26文字に押し込めた結果、後々にさまざまな問題点の起源にもなった。ただ、当時は、文字の体系に言語という要素を入れるほどの技術的な成熟がなかったとも言えるだろう。
もちろん、厳密には「A」や「あ」といった基本的な文字についての考え方と、「斎藤」「渡邊」といった人名の文字のバリエーション(異体字)の問題は区別されているのだが、最初に割り切ってしまったあたりで、何か将来を強く暗示してしまったのではないだろうか。言語をデータ化するときの最初の「文字の区別」という壁については、すっかりアメリカ的な思想でコンピュータが推移したことは否定できないだろう。
また、ASCIIコード表を実際に見てもらうと分かるのだが、文字コード41Hが「A」で、61Hが「a」である。そして、アルファベット順に並んでいる。そうなると、「大文字小文字の変換は32(20H)の加算ないしは減算でできる」と考えてしまう。もちろん、それは正しいのであるが、それで便利なのは英語をはじめとしたローマン系言語だけの話である。こうした言語的な意味での変換は日本語では、カタカナとひらがなの変換もある。こうした変換がやりやすいコード体系もある意味では便利であるが、大文字小文字変換は日本語の文字列という前提があると成り立たない。もちろん、すべての事情をコード体系に含めるということは無理なことは明白だが、コード体系はコンピュータの処理のベースになっている。それだけに、大文字小文字変換といったことのような「便法」がコード体系に入っていることも、ある意味ではソフトウエアのローカライズや国際化という側面では必ずしもプラスに働かなかったと言えるのではないだろうか。
‥‥‥‥‥‥‥この項、続く‥‥‥‥‥‥‥[新居雅行]‥‥‥‥‥‥‥
関連リンク