2009年2月28日土曜日

万葉集をトークンに分ける(2)

<トークンとは>
ソフトウェアのコンパイラの技術に字句解析(Lexical Analysis)と構文解析(Syntax Analysis)という技術があります。
このなかの字句解析では,ソースプログラムをトークンという最も細かい単位に分類します。
日本語に当てはめれば,単語に分けるような作業です。
<万葉集という題名>
「万葉集(まんえふしふ)」という名前の意味については,「よろづの言の葉」「よろづの和歌」「よろづの御代」の集まりというような諸説があるようです。なぜか「よろづの和歌」という説が有力のようですが,私は題名通り素直に「よろづの言の葉」と今は考えています。
{言の葉}=単語(トークン)だとして,万葉集のリバース・エンジニアリングの最初の作業として万葉集をトークン(単語)に分けることをから始めことにしました。
その作業を今進めているのですが,単語を洗い出していくに従い,もしかしたら,
 「万葉集,実ははほぼ1万の単語(言の葉)の集まり」 …仮説①
ということが言えるのかもと考えるようになっています。
とっくにそんな研究はすでに済んでいるのかも知れません。万葉集に掲載された単語数がぴったり1万であるかを追及するのが今の作業の目的ではありません。成句や慣用句を単語に入れるかどうかにもよりますが,それらを加えると1万語位はありそうだと感じているということを伝えたいだけなのです。
そして,それが事実に近いと仮説①は結構面白いテーマかもしれません。この作業で,私の万葉集に対するロマンの一つに,この仮説の検証が加わったのです(このブログの目的ではありませんが)。

0 件のコメント:

コメントを投稿