スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

Yahoo API 「キーフレーズ抽出」

前から気になっているAPIに、Yahooの「テキスト解析 キーフレーズ抽出」というのがあるのですが、動作デモにユーザ発言を入れてテストしてみると確かにそれっぽい優先度でキーフレーズが列挙されます。

例)
--入力--
まあね、経験したと思っている事の半分以上はイメージかも知れないな

--解析結果--
<キーフレーズ> : <スコア>
イメージ : 100
半分以上 : 93
経験 : 8
事 : 35


先に出てきた「経験」よりも「イメージ」がスコアが上になっています
完全とは言えませんが、名詞検索の第一候補決定時にこのAPIを導入すると精度が上がる…のかな?
会話の流れ次第でなんとも言えないところですが…

おそらく、大量の過去ログ検索をした時とかにはスピードの問題が出ると思いますが、辞書が増えて「そっちじゃねっつの」というマッチが増えた場合には導入してテストしてみたいと思っています。

ちなみに、形態素解析のAPIもありますが、こちらは本気で学習機能を作成する時以外は必要なさそうです。感情取得は正規表現で間に合ってますし。

コメントの投稿

非公開コメント

キーワード抽出すごい…

このキーワード抽出すごいですね。
どれだけのものかと思って、意味を変わらないのだけれども、文の構造がほとんど違う二つの文を入力しても同じ結果が返ってきましたよ。

「一日中ゲームをしていたが、今日は晴れだったのでもったいなかった。」
「今日は晴れだったが、一日中ゲームをしていたのでもったいなかった。」

とか。
でもこのAPI、ちょっとデリケートのようです。
トモックさんのブログに乗っていた、

「ありがとうエクサ、ところで聞きたい事があるんだがお前の血液型は何型なんだ?」

という文では「ありがとうエクサ」がトップでした。
エクサという単語を知らないのかなと思って鈴木さんという仮の人物に置き換えてみたら

「ありがとう鈴木さん、ところで聞きたい事があるんだがお前の血液型は何型なんだ?」=「ありがとう鈴木」
「ありがとう鈴木、ところで聞きたい事があるんだがお前の血液型は何型なんだ?」=「何型」

でした。

さらに

「ありがとう佐藤、ところで聞きたい事があるんだがお前の血液型は何型なんだ?」
では二位と三位が入れ替わり
「ありがとう佐藤さん、ところで聞きたい事があるんだがお前の血液型は何型なんだ?」
「ありがとう鈴木さん、ところで聞きたい事があるんだがお前の血液型は何型なんだ?」
では順位こそ変わらないけれども、スコアがそれぞれ変わっていました(笑

でも一番最初であげた例だとスコアは全く変わらなかったりして、ちょっと不思議です。



追伸:twtterでつぶやいていた、kassyi.comを使ったメールアドレスですが、「mailあっとkassyi.com」になりました。
といってもこのアドレスはメールボックスがなく以前のアドレスに転送されるだけのアドレスですから、もしメールをくださる時は古いアドレスでも新しいアドレスでもどっちでも大丈夫です。

検証ありがとうございます

これってきっと、Yhooの検索の時にユーザが入力する文字列の解析に使っているプログラムだと思うんですよね。そちらの事情で色んなアルゴリズムが組み込まれているのかもしれません。Yhooでのヒット数ランクとか関係してそうです。
プロフィール

hak

Author:hak

会話プログラムALAINの開発日誌と会話ログ。ALAINとの会話はどなたでもお気軽にどうぞ。相手はプログラムなので、寛容に接して楽しんで頂けると幸いです。

近況報告
 
リンク
最新記事
カテゴリ
月別アーカイブ
検索フォーム
RSSリンクの表示
QRコード
QRコード








上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。