スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

会話プログラム開発記(18):漢字一文字にマッチする正規表現

今まで、漢字一文字の単語を辞書に登録するのは私の中ではタブーでした


例)
「空」に対応して「夕方の空は美しいですね」と、登録

「空母」や「空豆」等に反応




形態素解析して、分解してからマッチさせなきゃダメか…とずっと思い込んでいましたが、簡単な解決策がありました。
正規表現で


(^|[ぁ-ん])空([ぁ-ん]|$)


と書けば、「空母」「空豆」等にはマッチせず、「広い空」「空がきれい」「明るい空がまぶしい」等にキレイにマッチしてくれます。

「酒」で「日本酒」「酒好き」「酒樽」等、二文字以上の単語にもマッチした方が良い場合は、正規表現不要なので従来の方法で問題ありません。

どちらが良いかは、頭の中で単語を並べてみれば簡単に統計が出せます。



なぜ今までこんな単純な事に気付かなかったのかが不思議ですが、これで辞書の幅が間違い無く広がりました。
めでたし。


~~~
※下記、最終版です。カタカナや想定される記号にもマッチします。英数とかは続き単語ありそうなんであえて非対応です。

(^|[ぁ-ん]|[ァ-ヴー]|、|。|!|?|w|…)空([ぁ-ん]|[ァ-ヴー]|、|。|!|?|w|…|$)

テーマ : プログラミング
ジャンル : コンピュータ

コメントの投稿

非公開コメント

プロフィール

hak

Author:hak

会話プログラムALAINの開発日誌と会話ログ。ALAINとの会話はどなたでもお気軽にどうぞ。相手はプログラムなので、寛容に接して楽しんで頂けると幸いです。

近況報告
 
リンク
最新記事
カテゴリ
月別アーカイブ
検索フォーム
RSSリンクの表示
QRコード
QRコード








上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。