極めて近しい友人であるjoが異体字検索に関する研究開発(ソフトウェア)で賞されるというおめでたいことがあったので、その記念に最近の日本語処理というか漢字の扱いについてさらっと説明をしていきたいと思う。
つまり漢字の歴史などには決して触れずに、最近のトピックと、それを実現している技術の話を、なるたけ平易に書いてみようという試みだ。試みであるからにはもちろん失敗する可能性もあるのだが、そこは楽天的に始めてみようと思うのである。なお、今回を始点とする一連のエセー(は、大げさか)におけるワレワレとは、joとワタクシの事を指すので了解されたい。
まずは漢字の範囲がそれほどコンクリートではないという話から始めよう。と言っても常用漢字がどうしたとか(※)、戸籍統一文字、住基統一文字とは何かといった、範囲の定義のことではない。もっと根源的な、漢字というものが持っている、のがれがたい、ゆらぎのことだ。
※お若い人はご存じないだろうけど、当用漢字というのもあった。当用漢字でググルと、日本の文化が断種される寸前であったというヒドイことが判る。アメリカはねえ、本当にねえ、直線的というか原理主義的というか要するに野蛮でねえ…。
joが小学校にあがったばかりのことだ。彼が教科書だかノートだかに書き込んだ名前をみて、彼の両親、祖父、祖母が「そんな漢字はねえなあ。そりゃまちがいだ」と口を揃えたのだ。joの名前は潤、つまり三水に門構え、その中に王と書くのだが、彼はそのとき王の代わりに玉と書いていたのだった。
「誰かがそう教えてくれたンだけど、親でもじいさん、ばあさんでも無かったのだとすると誰がボクに教えてくれたのかねえ。もしかしたら玉の潤がある並行世界から、小学校入学前後でこっちにズレて来ちゃったのかねえ」のちに彼はそのように語っていたのだけれど、宇宙人と並行世界移動は彼定番のDeus ex machinaであって、真剣に取り合うような話ではない証拠だ。今年の11月にnikkeibp.co.jpに掲載されたパブ記事を目にするまで、少なくともワタクシはそのように思っていたのだった。
special.nikkeibp.co.jp(パブ記事なのでさっさと消えちゃうかもしれない。念のためにスクリーンショットも載せておく)
中内潤氏は中内功氏のご長男であり、中内功氏といえば小学校の終わりごろのワレワレをおそった極私的城山三郎ブームの中でも特にお気に入りの二作、「成算有り」と「価格破壊」のうちの後者のモデルとなった人である。その中内功氏のダイエー帝国が倒れる要因の一つともなった(と巷間言われている)中内潤氏は、名前が同じということもあって(※)jo、ワタクシ共々何となく気になる人物なのであり、だからこそ記事をみた瞬間に気がついた。みなさんはどうだろうか。良く見てみよう。
※ジュンというのは音的には女性の名前であり、それに潤という漢字をあてるのは画数が多くてフェミニンさが足りない、それこれあって男女ともに幾分めずらしい名前だという評価の時代があったのだ。
玉である。門構えの中は王ではなく、玉なのである。この字は本当にあったのだ。
さて、この玉バージョンの潤(以下、玉潤と記す)とはいかなる字なのだろうか。結論から言うと、玉潤はjoが某ソフトで対応した「異体字」というものだ。異体字とは「同じ意味・読み方を持ちながら、表記が異なる文字」のことで、もうちょっと精密に述べるなら以下のようになる。
字体(じたい)とは、図形を一定の文字体系の一字と視覚的に認識する概念、すなわち文字の骨格となる「抽象的な」概念のことである。
…中略…
文字は、言語と直接結び付いて意味を表すものであり、その結び付いた意味によって字種に分類される。
ひとつの字種に複数の字体が併存していることがある。それら複数の字体はそれぞれ異なる字源から成立している場合もあるし、同じ字源から発生しながらその表現が歴史的・地理的に変化していった結果が固定されている場合もある。
字義、字音が等しい同一の字種でありながら、互いに異なる字体を有する文字を異体字と呼ぶ。異体字のなかで、規範として選ばれている字体を正字体と呼ぶ。
一般に字義・字音が同じであり、同じ文脈で交換して使用可能なものを異体字と認定できる。
異体字は単に俗字とは限らず(それなら正字体に統合してしまえばよい)、さまざまな理由により異なる字体を持つに至った文字だ。そして、今現在も書かれているか、少なくとも書き物として残っている「まだシんではいない」文字なのだ。それゆえに生じる揺らぎが異体字である。なにゆえにその文字が 有る のかはさておき。
と、無責任にも「さておいて」しまうのはワレワレ二人が工学系だからであって、科学が「何故」を追究するのに対し、工学は「如何にして」を追いかける。甚だしきは、「この公式に従うと結果が非常に良好になる。理由は知らねど」という態度をとり、工学的アプローチとバカにされることすらある(最近そういうのは減ったと思うが、不思議だが本当だという態度はいかにも工学的だと思う)。ある文字とある文字の関係を、一つ一つ根拠を調べて異体字と同定していくのは、まさに「何故」を明らかにする仕事だ。たとえばこのようなリスト
http://wwwap.hi.u-tokyo.ac.jp/ships/itaiji_list.jsp
をまとめるために、どれだけの知識、蓄積が求められるのか。とはいえ、それらが世界に流通するためには文字が電子化される必要があり、アカデミックな研究の所産である異体字の関係情報は、ぞんざいにして野蛮な工学系の扱うところになる。
古いjis規格や、それにつけ込んだ外字による「形が出ればいいだろ」の跳梁跋扈(では他人とのデータ交換はどうするのだ、写本時代のソリューションか!)など紆余曲折はあったが、そのルールの理由を問わず、ルールに従った処理の実現に血道を上げる工学系の潔さ(というかバカっぷり)は、最終的に
「つじ かいち」
と「つじ しずお」
の名前を、正しく表示することを可能とした。
のように。
すでにお気づきだと思うが、「辶の点が一つの辻(以下、一点辻と記す)」も異体字なのである。
このように潤に対する玉潤、辻に対する一点辻など、ゆずれないものの代表格である人名がようやく計算機…というと年がばれるが…で正しく扱えるようになったのは、この五年以内のことなのである。その背後には1.異体字の関係の整理が進んだこと、2.それらを電子的に表現するルールが定まったこと、そして3.そのルールを実現するためのプログラムが用意され始めてきたこと、の3点がある。joの研究開発はもちろん3番目のものに関するものなのだが、これだけ紙幅を費やしてまだ0番目程度のところまでしか進んでいない。さらっと説明するという約束が反故になるのはいつもの事であって、結局書きたい事を書いてしまうのだ。
次回は2番目、文字を電子的に表現するルールについて、なるべく平易に説明するところから始めたい。(1.はアカデミズムの人が書くべきものであって、工学系の分限を越えるものである)
追記
http://www.fujitsu.com/downloads/JP/archive/imgjp/group/fri/report/research/2013/no400.pdf
異体字を使うなどもってのほか、漢字を増やすのは良くない、というレポート。ただし眉につばをする必要有り。なんとなれば、著者はITベンダー富士通の利益を優先する立場にあるのであって、上記はすなわちポジションペーパーである。
富士通、NEC、日立などのITベンダーは、外字に基づくソリューションで各自治体から金を吸い上げるだけ吸い上げた後、今度は自分達のソフトウェア資産を陳腐化させかねない文字共通基盤(https://www.ipa.go.jp/osc/mj/index.html)にケチをつける方向に来ているのだ。この文字情報基盤こそが異体字を電子的に扱うためのルールなのだ。なぜ陳腐化するかも含めて、詳細は次回で。
ともあれ、自分の名前を正しく表記されるというのは、基本的な権利だとワタクシなどは思うのであるが、富士通においてはそのようなことは埒外なのであろう。浅ましいことである、とだけ述べておく。
追記2
潤の異体字に関する詳細:
辻の異体字に関する詳細:
http://glyphwiki.org/wiki/u8fbb
そういや、辻潤という人もいたなあと突如気がつく。狙ったわけでは無いがちゃんと繋がっていくのがオカシイ。相変わらずである。
追記3
そしてjoが記していた玉潤であるが、その文字がどのようにして登場したのかは未だに不明。ワレワレのような浅学非才のために、異体字版大字源のようなものをどなたか作って下さらないかと切に願う。