« 2011年10月 | トップページ | 2012年1月 »

2011年11月に作成された記事

IVSで漢字コード問題は終わるか

(この問題、現在のシステムでは表現しきれないので、CIDをふっておきます。)

 印刷会社にとって厄介な名字というのがいくつかある。いや誤解しないでいただきたい。個々の個人についての話ではない。あくまで字としての名字のことだ。いくつかあるが、一番よくお目にかかって、処理に難渋するのが、渡辺さんである。

 渡辺は名字の中でも5指にはいる多い名字なのに渡辺の「辺」にやたらに異体字が多いのである。渡邉(CID6930)さんと渡邊(CID6929)さんぐらいならまだしも、一点しんにゅうの渡邉(CID14241)でなきゃ気が済まない人もいる。となると当然渡邉(CID6929)さんも登場することになる。田辺さんも同じく厄介なのだが、なにせ渡辺さんは人数が多く、その分異体バリエーションも多岐にわたる。

 印刷に使う文字は、常用漢字とか、JIS漢字に限定してくれれば楽なのだろうが、一般名詞はともかく人名は許してもらえない。不思議なことに、集まった原稿の中で偉い人の名字に限って異体字なのである。しかも、その異体字はなぜかコンピュータで出ない。それで「一字貼り込み」に頼ると、校了後に剥がれ落ちている。校了後だから誰も気がつかないまま本になって、冒頭巻頭言の筆者の名前が間違ったまま配布されるという印刷屋にとって悪夢のような事態がおこってしまう。手動写植や電算写植の時代はこうした異体字切り貼りに関する悲喜劇はあとをたたなかった。

 もっとも、最近異体字に関する苦労はかなり減ってきている。CIDに代表されるように異体字があらかじめ文字フォントにセットされるようになってきているからだ。これで作字の手間も必要なく、ほとんどの異体字が表示可能になった。ためしにIndesignの「字形」機能をためしてみられることをおすすめする。いとも簡単に異体字が出る。

 ただ、そうなったらそうなったで、また問題が出てくる。

 いったい漢字はどこからどこまでが同じ漢字で、どこからが違う漢字かという包摂問題である。クライアントの言うなりに、ほんのすこしの字形の違いでも全部違う字としてしまったのでは、きりがない。無限に字形の数がふえてしまうし、いざ検索したりするときも不便だ。本人はいざしらず、文字を検索しようとしている人は渡邉(CID14236)(一点しんにゅう)さんと渡邉(CID6930)(二点しんにゅう)さんの違いなど意識していまい。渡邉(CID14236)さんを検索しようとして、渡邉(CID6930)さんと登録されていたために検索できなかったりしたらコンピュータ社会ではかえって不便である。

 解決策としてUNICODEのIVSがある。毀誉褒貶はげしかったUNICODEも、ここにきてすっかり定着した。世界中で共通の規格であることの便利さにくわえ、次々拡張される漢字は、実用上きわめて有効である。この中でIVSは考え方そのものは古くからあったようだが、規格化されたのは2008年とごくあたらしい。異体字ごとに別のコードを振るのではなく、字形のちょっとした違いはコードに枝番をふることで解決するのだ。検索などをおこなう場合には主たるコードですればよく、こだわって、細かい差違を気にしたいのであれば、枝番を有効にして字形の違いを表現すればいい。たとえば、「邊」には17の字形が用意されている。この考え方はおもしろい。もしかしたら、電算写植のはじめのころから40年にわたって、印刷業界を混乱におとしいれてきた漢字コード問題の終結が近いという気にさせられる。
 
 ただ、ここでも「邊」と「邉」はUNICODEの番号そのものが違うのでやはり区別されてしまう。もちろん「辺」もだ。

 そしてIVSの枝番にどの字形を採用するかには、やはり字形を包摂する必要がでてくる。字形はちょっとした書体の違いでも変異してしまう。「とめ」と「はらい」をゴシック体で区別しようするのにはどだい無理があるのだ。

 結局、枝番を作ってもやはり包摂問題からはのがれられない事になる。表意文字である漢字はどこまで行ってもコンピュータと相性が悪いとしかいいようがない。 

« 2011年10月 | トップページ | 2012年1月 »