2007年11月 - ポエツ | poets

Logs

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

検索結果に順位をつける

主要なブログサービスにはだいたい記事本文を対象にした検索機能が付いています。検索機能がない場合は Googleの指定URL下を検索する機能(参照)が利用されることが多いです。でもFC2ブログユーザでも既存の検索機能ではなく、この Google検索を設置しているのをたびたび見かけます。

私は、このグーグル検索を自サイト内用に使うのは不便だと感じていました。まずグーグルがすべてをずっとインデックスしている訳ではないですし、まだクロールされていない最近の記事なども対象になりません。ブログなんて個人運営の小規模なサイトがほとんどですから、全文をくまなくインデックスしてるはずない、と言うかしなくていいのかもしれないですが。
その点、ブログサービス側の全文検索であれば、更新された瞬間からその文章はすべて検索対象になるし、一語のもれもなく拾えるでしょう。

前回、Twitter にグーグル検索窓を表示させる GreaseMonkey を作っていた感じたのですが、全文を確実に拾う、という意味では「Twitter 検索」(これは日本語のみの対象ですが)のほうがいいのです。特にTwitterはブログ記事のようにまとまった大きな単位ではなく更新頻度も激しいだけ、グーグルに拾われているのも少ないです。

しかし、当たり前かも知れませんが、マッチした文字があれば確実に拾う、と言うのは優れているようですがけっこう不便です。該当した対象が多くなると、その中から探すのは結局人力です。
あるいはかすかな表記揺れがあった場合でも、該当するものがゼロ件になってしまうこともあります。これに関しては FCafe の記事(参照 FCafe : ファジー・マッチング?)を読んで気づかされました。全文を対象に正確に文字を拾うからといって、それが有効であるとは限らない。

そうなるともうひとつの問題は、検索結果の順位です。グーグルはじめとする検索エンジンの場合は、「重要・最適と思われるもの」をより上位に上げてきます(何が最適かは最終的に主観に因りますが)。しかしブログ検索の場合は「時系列」です。ほかに順位付けする基準がないですから。該当する文字列さえあれば、とにかく「時系列」(記事の投稿日)順に提示されます。
グーグルのページランクほどではないにしても、もうひとつ簡単に順位の基準にできるものがあります。1記事内の当該語の出現頻度です。検索エンジンでも出現頻度はひとつの参考値にしています。
言うまでもないですが、「apple」と1回だけ出現する記事よりは、10回出てきたほうが、それについて書かれた記事である可能性は高いわけです。

で、Danielさんが進められている、ブログの検索機能+JavaScript で補強 と言う形式であれば、検索順位を時系列以外の順にすることができそうです。対象語の出現頻度はもちろん、それ以外にも記事の重要度を上下させる基準はいろいろ考えられておもしろいです。
スポンサーサイト

GreaseMonkey : Google + Twitter = ググッター

Twitter のログ検索といえば、Shin x blog 提供の「Twitter 検索」があります。
サイドバーにこの検索窓を設置する GreaseMonkey もあります。(参照
ここのところ JavaScript の手習いで(動作確認しやすいので)ブックマークレットを色々かいていたのですが、ブックマークレットで動くなら、そのままグリースモンキー化もできそうなんですね(たぶん)。



それで今回のお題は、グーグルの検索窓を twitterに付ける。Google + Twitter = Googtter(ぐぐったー)です。
グーグルのサイト内検索をサイドバーに表示させます。
PublicTimeline と home (サインインした自分の画面)では、全体検索。各ユーザのページへ行くと、そのユーザ内を検索対象にします。

GreaseMonkey googtter
ブックマークレット版(同じ googtter.user.js を呼んでいるだけですが)googtter

※言語は日・英・中(繁体/簡体)の4種類を設定しました。
※パーマリンクに絞ってみようかと、最初は「 twitter.com/*/statuses 」にしてみましたが、あまり目立った違いは無かったです。
※たとえば「reply」で検索すると@username なんかのが探しやすいです。
※favarites が数千とかあるユーザもいるので、fav検索も設定しようと思ったのですが、あまりインデックスされてない様子。
「 twitter.com/*/favorites 」対象にすると結構出てきますが、固定リンクじゃないので結果と一致しないことが多いです。
Twitter Fav検索するとこんな感じになります。(適当な検索語でどうぞ)


【参照】
炭薬缶:twitterで自分と似た趣味の人を見つける

スイーツ(笑)のキモチ

そのような女性が洋菓子・デザートのことをスイーツと呼ぶことに由来する。


スイーツ(笑)とは - はてなダイアリー

なにやら話題になっていましたが、私は「スイーツ(スウィーツ)」という言葉に、この種の恥ずかしさや抵抗感を覚えません。だって、これに相当する端的な日本語がないでしょう? 対応する適当な日本語があるのに、わざわざ言い換えているのであれば、その種の鼻につく感じというのは解ります。
「sweets」は、たしか中学の授業で出て来た単語だと思いますが、始めて知ったときは「甘い(sweet)」を複数形にするだけでいいのかあ、という感慨でした。いちいち「甘いお菓子」と訳していた覚えがあります。
そうです。「菓子」とだけ言った場合には、お煎餅や柿の種、ポテトチップスなどもそうですが、「スイーツ」には入りません。普及している既存の単語をあてるなら「砂糖菓子」でしょうか。
中国語では「甜點」と言います。もしかしたら「sweets」の訳語なのかも知れませんが、こちらも読んで字のごとく、そのまんま「甘いもの」です。

そんなわけで「あまもの」と呼ぶのが一番いいのではないかと思います。漢字で書けば「甘物」ですが、乾物やら奸物やらと混同されそうなので、ひらがなで書くべきでしょう。ひらがなで書くといっそう甘く見えるし。
そしてこの「あ」、「ま」、「も」、「の」を声に出してみると、実に丸っこくて、「スイーツ」というシャープな響きに較べ、よりいっそう甘くて好い感じがするんです。
現時点での検索結果を見る限りまだまだのようですし、これから定着させていくってのはどうでしょう。あまもの(笑)
Google 「あまもの」の検索結果

用FC2,寫部落格日誌也都簡單阿!

検索語抽出

ポップアップ・コメント

poets designed

Ajax検索
AD

台湾留学 完全サポート

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。