制作者(webmaster)
野嵜健秀(Takehide Nozaki)
公開
1999-01-09

文字コードの問題

文字コードとは何か

コンピュータ上のデータはすべて1と0(或はオンとオフ)でできてゐるといふことは御存じだらう。そして我々人間は、単なる1と0でできた生のデータを理解しないこともおわかりだらう。

だからあらかじめ、コンピュータの1と0のデータを人間にわかる(=意味のある)ものとして表示するための取決め(=仕様)が定められてゐる。例へばファイル形式といふものがある──*.gifファイルはグラフィックデータの入つたファイルで、そこに書込まれた1と0のデータの集まりはグラフィックデータである。だからグラフィックツールがgifの仕様に従つて正しく解釈すれば画像として表示される。*.txtファイルはテキストデータの入つたファイルで、そこに書込まれた1と0のデータの集まりは文字の集まりである。だからテキストエディタやワードプロセッサが文字コードの仕様に従つて正しく解釈すれば、文書として表示される──といふ具合に。

言ひ方を変へると、人間がコンピュータに入力した文字は、コンピュータが理解できる「符丁」に変換されるのである。そしてコンピュータに「符丁」の形で保存されてゐるデータを人間が見る時には、「符丁」を読む手順が必要になるといふ訳である。しばしば問題になる「文字化け」とは、Aといふコンピュータの使ふ「符丁」とBといふコンピュータの使ふ「符丁」が異るものなので、Aで入力した文字がBで出力すると別の文字になつてしまふ、といふ訳である。

漢字に割当てる文字コード

文字コードといふが、要するに1と0で記録されたデータを人間の理解できる文字に返すための取決め(=プロトコル)の一種である。コンピュータにおけるプロトコルは最初から完全なものが出来る訳ではないし、常に改良されていく。或は同時多発的に、別々の取決めが別々の場所で作られることもある。

コンピュータで使ふ文字については、3つの観点からプロトコルを定める必要があつたといへよう。

  1. 字体(どの文字を使ふか)
  2. 字体表(どんな順番で、文字を並べるか)
  3. 文字コード(具体的に、ある文字に何番の文字コードを割当てるか)

文字コードの問題に関しては「ほら貝」に懇切丁寧な解説がある。参照されたい。「ほら貝」では特に、或文字に何番の文字コードを割当てるか、といふ問題に関して各メーカや団体がさまざまなアプローチを行ひ、混乱を拡大していつたプロセスを考証してゐる──つまりプロトコルの策定段階の問題を論じている。

しかし、それはたしかに大事なことなのだが、根本的な問題点に関する指摘が「ほら貝」ではなされてゐない。現在まで拡張されながら使はれ続けてゐる文字コードには、根本的な欠陥がある──それはプロトコルの問題以前の問題なのだ。日本で使はれてゐる文字コードには、字体の選定方法に問題がある、或は文字そのものに関する観念が欠如してゐるのである。

字体と字体表に関して早い時期にJIS規格が成立したのだが、その選定方針は悪い意味で「厳密」であつた。これがその後の文字コードの問題を混乱させた最大の原因であつた。どういふことかといふと、本来同じ字であつても画数が異なれば別の字とみなす──正漢字と略字を区別する、といふ方針がとられたのである。「学」と「學」を別の字とみなして別のコードを割当てる、といふ文字コードの無駄使ひをやつたのである。しかしそれにはそれなりの、さうせざるをえない理由があつた。

もし文字のアイデンティティといふことを考へ、同じ字にはひとつのコードを割当てる──といふことにしてゐれば、その後のコードの拡張もすんなりいつたのではないか、複数の異体字がある文字──「野」「埜」や「崎」「嵜」──は、当初は一般通用の字体しか使用できなくても、異体字使用のための統一された拡張手段が提供されれば即座に多様な表記が可能になるはずではないか──もちろんそれは理想論かもしれないが、正漢字を基準に考へれば、文字はきちんと整理される。あらかじめ漢字を分類し、漢字の性質を考慮すれば、混乱など生じるはずがない。本来言葉は論理的であり、分類可能なものである。

しかし──そのやうな手段をとれない理由があつた。それは、異る複数の漢字を、字体が似てゐるといふだけの理由で統合した「当用漢字」の呪縛である──「辯」「辨」「瓣」は「弁」に、「藝」「芸」は「芸」に、何の意味もなく統合されてゐる。だから結論をいへば、JIS規格は略字或は当用漢字をもとに文字コードを制定しようとしたから失敗したのである。

「東大GT明朝プロジェクト」の出現

字体を厳密に区別し、正漢字と略字に別々にコード番号を与へる方針を徹底させるとかうなるといふ見本を、1998年末現在、TRONの坂村健教授率ゐる東大GT明朝プロジェクトが提供しようとしてゐる。(「This is 読売」1998年12月号に特集記事あり。「TRONWARE」誌でも報告が載るのを見たことがある)

これはいはば、各フォントメーカが作成する様々なデザインの書体をすべて纏めてしまはうといふプロジェクトであるが、厳密主義を徹底するとかうした煩雑なものにならざるをえない。各方面からも批判があるが、しかし私の見るところでは、かうしたやり方は現実主義をとる限り最も「妥当」なアプローチである。「常用漢字」を認める限り、かうしたてんこもりの文字コードを作成せざるをえない。

「ユニコード」に関する誤解

私が先程書いたやうな「同じ漢字」には同じコードを割当てるといふ方法に似たやり方を試みてゐたのがユニコードである。これは一部識者が批判するやうに「非漢字圏の人間」から見て「似てゐるが本来は別々の字」を強引にひとつに纏めよう、といふものではなかつた。むしろアプローチとしては常識的なものであつたといへる。

しかしこれも、現在は悪しき「厳密主義」へと方針を転換してゐる。文字コード自体は各国のコードを流用し、ただ可能なものに限り文字の形(字形)を共用しようとしてゐる。これはなぜかといへば、日本の「常用漢字」と中国の「簡体字」にみられる無定見な略字 を、略字のまま統合するのは不可能だとみる現実的な判断が働いたのである。

結論

ユニコードの問題を通して、アルファベットによる言語の文化圈の人間もこれでやつと漢字を使用する上での困難を悟るだらう──と言つて我々は威張れない。漢字を使つてゐるくせにでたらめに漢字をいじくりやがつて、おかげでボーダレス時代の国際化の障礙になつてゐるぢやないか──さう彼らが迷惑してゐると感じるべきである。

中国の簡体字も日本の「常用漢字」も、非論理的であり、筆記上の手抜きである。しかしながら手書きでは手間のかかる複雑な字も、コンピュータにとつては簡単に処理が可能なのである。「学」も「學」も、それがドットフォントならば全く同一の手間しかかからない。(アウトラインフォントの場合、多少の差がある。ただし最新のPC環境では実用上問題ない)

コンピュータとは、人間が手間を省きながらそれ以前と同等の結果を出すために考案した道具である。我々の目の前にあるのは古めかしいタイプライタではない。今や誰でも(書かうと思へば)手軽に正しい日本語を書ける。なのにさうしようとしないのは、知的怠惰といふものである。知的怠惰は道徳的怠惰である。道徳的怠惰は許されるべきものではない。(もつとも、道具云々で正しい日本語を書いたり書かなかつたりするものではない)