Bio-Crawlerによるサイト内検索設定マニュアル |
応用編: 関連サイトの統合検索 |
サイト内検索は,ひとつのWebサイトを対象にしたものです。これは,Webサイト作成者としては,簡単に自分のサイトに検索機能を付けられるので大変便利です。しかし,一方のユーザーにとってはどうでしょうか?
ユーザーの多くは特定のWebサイトにある情報を知りたいというよりは,ある分野のある項目についての詳しい情報を知りたい,あるいはその項目に関する網羅的な情報を得たいがために,インターネットを利用しているはずです。したがって,1ケ所のサイトにユーザーが求めるすべての情報があるならサイト内検索で十分でしょうが,実際にはそういう訳にはいきません(DNAデータベースは例外中の例外といえます)。 もともとインターネットは,皆が少しずつ情報を発信して共有しあうこと,すなわち「情報の共有」を目的として生まれました。ですから,世界中に分散したサーバにある情報を相互に連携させて利用しあうのは,インターネット本来の基本的な利用形態といえます。 検索エンジンは,まさにそのような分散したサーバにある情報を一括して検索するために開発されたもののはず,ですが,すでに何度か指摘しているように,一般の検索エンジンの場合は,収集している情報があまりに膨大になりすぎたため,検索されて欲しくない情報(ノイズ)がたくさん検索にひっかかってしまう,一方では,個々のサイトについての網羅的な検索ができない,という二つの大きな問題を抱えています。
こうなると,サイト内検索と一般の検索エンジン,双方の長所を備え,短所を除いたものが欲しくなります。そこで登場するのが,関連するWebサイトだけを一括して網羅的に検索する「統合型検索システム」です。特定の分野の特定の項目について情報を集めたいユーザーにとっては,これがもっとも有用であろうと考えられます。Bio-Crawlerでは,そのような統合型検索システムとして,収集した数多くの生物系Webサイトの中から,Webサイト制作者側が任意に選んだサイトを一括して検索対象に指定できる新しい機能を開発しました。
方法としては,サイト内検索の場合,FORM文の中で使用する subquery で検索対象とするWebサイトのURLを指定する訳ですが,このsubqueryを複数設定できるようにプログラムを変更しました。これにより,指定した複数のWebサイトをまとめて検索できるようになりました。その他の設定法は,サイト内検索の場合と基本的には同じです。
幸い,Bio-Crawlerでは,以前から収集した生物系Webサイトの情報を,関連性のあるサイトごとに区分けした索引データベースも作っていますので,これらを利用すれば,検索効率を上げることができます。カテゴリの分類は,大分類(cagetory1)と小分類(category2)と2つの階層からなっています(カテゴリの詳細は以下のURLで確認できます)。 http://bio-crawler.dna.affrc.go.jp/search/urllist_j.html
|
Bio-Crawlerによるサイト内検索設定マニュアル |