佐良木 昌, 新田 義彦, 明石書店 (2003/10).

日報などを蓄積し、それらに対して自然言語処理を行なわず、正規表現とKWICにより、知識発見を行なおうということが主題の本。実際のテキストマイニングでは、自然言語処理もするし、統計処理もするのだが、この本ではそれらはばっさりと切り捨てられている。

ところでKWICのツールって意外に少ないんですね。単に日本語対応しているのが少ないだけなのかな?KWICK Finderなんか機能は多彩ですね。Linux or Javaだとなんかこれといったものが見つかりませんね。見落としてるだけかもしれませんが。

「日報など」と書いたが、著者は日報などを定型フォーマットかつメールなどで提出させる方法を想定・提案している。この点、私が手がけ始めている研究とも通じるものがある。

しかし、統計処理を行なわないことなどから、当然大量のデータへの対処には不安が残る。というか、多分対応できない。なので、身近なところでテキストマイニングを体験してみたいという方には、参考にかもしれないし、テキストマイニングってどんなことをやっているのという方にも、おそらく少しは参考になるだろうという感じです。

むしろ、用いるツールによっての文字範囲の指定の違いなど、正規表現の勉強には役立つかもしれません。ついでに言えば、それにあわせて、付録に乗せてある正規文法がどうのこうという部分のほうが内容が濃かったり、ためになったりするんじゃないかとも思います。