|
複数の文書から同じ類・意味の表現を見つけ出して一つの表現に統一します。
その時、csvファイルでユーザーが同じ表現を指定できます。
例えば、
> 林檎,りんご,リンゴ
> 柑橘類,みかん,レモン,いよかん
というcsvファイルを、以下の文書に適用するとします。
> 私はリンゴが好きだ。でも、いよかんの方がもっと好きだ。
> それにしてもレモンすっぱい。
すると、実行結果は次のようになります。
> 私は林檎が好きだ。でも、柑橘類の方がもっと好きだ。
> それにしても柑橘類すっぱい。
こういう変換を楽にやれるソフトです。
ここでは普通の文書を題材にしましたが、実験データとかログのデータとかで、意味が一緒のものを統一したい時に非常に役立つソフトだと思います。 |
|