中国古典で出現頻度の高い文字 2月9日, 2011
漢文で最もよく使われる漢字は何でしょう。漢文語彙中の頻出語となると難しそうですが、よく現れる「文字」なら簡単に確かめられそうです。
少し事柄を絞って、史伝の文章の代表である『史記』を例にとってみます。紀元前1世紀の前漢・武帝の時代に書かれたこの本は、それ以前の文章から借りた文が多いとは言っても、かなりの部分が司馬談・司馬遷の目と手を通過した文字で埋まっています。そこには、総字数を「52万6千5百字」と記しているわけですが、そのように記した詳細な事情は知りません。また、どのようにしてこの数字を数えたのかも知りません。竹簡の枚数から積算したのでしょうか。とにかく、まずは手始めにこの約53万字の中で、出現頻度が最も高い文字を数えてみました。
テキストは色々ありますが、グーテンベルク(Gutenberg)のものが便利。「表」のテキストは省略されていますが、50万字を越えるものなのですから、大勢にそう大きな差異はないでしょう。簡単に サイト からもらえます。案外なことに、筆者が精魂傾けた本文は、ファイルサイズで言えば2MBほど。ごく小さな容量の外部メモリーにでも入ります。私は、普段利用するわけでもないのですが、iPod touchにお守りのように入れています。大幅縮刷の会注考証本史記でもポケットやカバンになどとても入らないことを考えると、ちょっと感無量です。
数える際に除外したのは、冒頭と末尾の半角英数字(改行文字も)、全角の句読点・括弧類・スペース・その他記号類です。延べ文字数(総文字数)は、512,724字ありました。異なり文字数では、4,779字あります。(追記2011-12-21:この数字はグーテンベルクのテキストをそのまま数えたもので、以下もそれに従っています。ただ、少なくとも『史記』について見る限り、「呂不韋列伝」が二重に入力されていること、「刺客列伝」が落ちていることに気づきました。そのため、この数字はあくまで参考程度にすべきであって正確なものではありません。以下に扱う他のテキストについても同様で、あくまでグーテンベルクのものを数えたにすぎないことにご注意ください。)
この数字が『史記』中に挙げられる文字数より少ないことは無視することにして、さて、出現頻度が高い文字は…。
「之」:13,446回(2.62%)、「王」:8,255回(1.61%)、「不」:7,907回(1.54%)、 「以」: 7,473回(1.46%)、「為」:7,377回(1.44%)、「子」:6,566回(1.28%)、…
でした。括弧中のパーセントで示す数字は、出現率を示します(頻度を総字数で割りました)。上位100字の出現率合計は46.7%で、数字の上では、『史記』の半分近くは100字からなっているとも言えそうです。
同じくGutenbergの『漢書』(713,882字、異なり字数は4,923字)もやってみると、
「之」:15,889回(2.23%)、「以」:10,679回(1.50%)、「為」:10,423回(1.46%)、 「不」: 9,924回(1.39%)、「王」: 6,721回(0.94%)、…
でした(上位100字の出現率合計は、41.7%)。
中国の歴史の文章を考えた時、最も頻度が高いのは「之」で間違いないようです。『左伝』でも180,494字中7,287回(4.04%)、『国語』でも3,275(4.65%)です。史伝以外も試してみると、例えば『論語』では「子・曰」が多いのは予想の通りとしても、それらに次いだ3番目が「之」で、16,001字中の613回(3.83%)となっています(他は省略しますが、この情況は変わらないようです)。また、実詞では下表の第6位以降も含めると「王」の頻度が高く、「子」「其」「人」「天」などが目立ちます(ある種予想通りでした)。国名の出現率等からは、時代背景が読み取れるのですが、当然の結果とも言えますので詳細は省略します。自然言語処理からはほど遠い、中国古典によく現れる文字の「観光旅行」めいたものとなってしまいましたが、中国古典の風景の一端はまあ窺えます。「趣味の中国古典散策」としては、まずまず遊べました。
使用したスクリプトは、ありきたりのものです。 countK.pl は延べ文字数・異なり文字数を表示します。 freq.pl は、頻度31以上の文字を表示します。エンコーディング処理などあれこれ不徹底ですので、Macでないと私の期待するようには動かないでしょう。例によって、自分の目の前で自分用に動けばよい、というのがモットーですので(追記2011-12-21:スクリプトに入力ミスがあるのに気づき訂正しました)。Gutenbergを使えばかなり遊べることは確か。大プロジェクトですね。