Bio-Crawlerによるサイト内検索設定マニュアル
back 応用編: 関連サイトの統合検索 forward

 サイト内検索は,ひとつのWebサイトを対象にしたものです。これは,Webサイト作成者としては,簡単に自分のサイトに検索機能を付けられるので大変便利です。しかし,一方のユーザーにとってはどうでしょうか?

 ユーザーの多くは特定のWebサイトにある情報を知りたいというよりは,ある分野のある項目についての詳しい情報を知りたい,あるいはその項目に関する網羅的な情報を得たいがために,インターネットを利用しているはずです。したがって,1ケ所のサイトにユーザーが求めるすべての情報があるならサイト内検索で十分でしょうが,実際にはそういう訳にはいきません(DNAデータベースは例外中の例外といえます)。

 もともとインターネットは,皆が少しずつ情報を発信して共有しあうこと,すなわち「情報の共有」を目的として生まれました。ですから,世界中に分散したサーバにある情報を相互に連携させて利用しあうのは,インターネット本来の基本的な利用形態といえます。

 検索エンジンは,まさにそのような分散したサーバにある情報を一括して検索するために開発されたもののはず,ですが,すでに何度か指摘しているように,一般の検索エンジンの場合は,収集している情報があまりに膨大になりすぎたため,検索されて欲しくない情報(ノイズ)がたくさん検索にひっかかってしまう,一方では,個々のサイトについての網羅的な検索ができない,という二つの大きな問題を抱えています。

 こうなると,サイト内検索と一般の検索エンジン,双方の長所を備え,短所を除いたものが欲しくなります。そこで登場するのが,関連するWebサイトだけを一括して網羅的に検索する「統合型検索システム」です。特定の分野の特定の項目について情報を集めたいユーザーにとっては,これがもっとも有用であろうと考えられます。Bio-Crawlerでは,そのような統合型検索システムとして,収集した数多くの生物系Webサイトの中から,Webサイト制作者側が任意に選んだサイトを一括して検索対象に指定できる新しい機能を開発しました。
(Bio-Crawlerは,データの収集対象を生物系の学術サイトに限定していますので,一般の検索エンジンよりはノイズが少ないのが特徴です。しかし,生物系に限ったとしてもその検索対象はかなり広範囲になります。そのため,一般の検索エンジンほどひどくはありませんが,Bio-Crawlerが収集したWeb情報全体を検索対象にすると,多少なりともノイズが混じる可能性があります。このため,Bio-Crawler側でも,検索対象をある程度絞り込むメニューを用意していますが,今回の開発は,検索エンジン側が検索サイトを絞り込むのではなく,Webサイト制作者自身が任意に検索対象を選んで,自分用にカスタマイズできる点に特徴があります。)

 方法としては,サイト内検索の場合,FORM文の中で使用する subquery で検索対象とするWebサイトのURLを指定する訳ですが,このsubqueryを複数設定できるようにプログラムを変更しました。これにより,指定した複数のWebサイトをまとめて検索できるようになりました。その他の設定法は,サイト内検索の場合と基本的には同じです。
 以下の例のようにcheckbox 方式にすれば,ユーザーが複数用意されたWebサイトから任意に選択したものだけを検索することもできます。

 以下の例の html文をご覧になりたい方はここをクリックしてください。別ウィンドウで表示されます。

検索サイト アサガオ類画像データベース
__ http://protist.i.hosei.ac.jp/Asagao/Yoneda_DB/J/
アサガオホームページ
__ http://mg.biology.kyushu-u.ac.jp/
アサガオの生理学
__ http://www.sc.niigata-u.ac.jp/biologyindex/wada/
キーワード

表示:  並替え:  Description on  off

「表示」,「並替え」,「Description」の設定法の説明は,ここにあります。


 この「お手軽」統合検索は,Bio-Crawlerがたくさんの生物系Webサイトから収集したすべてのデータ(idxname=all)を使ってもできますが,指定する関連サイトが少ない場合,巨大な索引データベース( idxname=all )の中から限られたサイトの情報を検索するというのは,あまり効率的ではあません(idxnameの説明はここにあります)。

 幸い,Bio-Crawlerでは,以前から収集した生物系Webサイトの情報を,関連性のあるサイトごとに区分けした索引データベースも作っていますので,これらを利用すれば,検索効率を上げることができます。カテゴリの分類は,大分類(cagetory1)と小分類(category2)と2つの階層からなっています(カテゴリの詳細は以下のURLで確認できます)。

http://bio-crawler.dna.affrc.go.jp/search/urllist_j.html

 
 索引データベース全体(idxname=all)は非常にたくさんのデータからなりますので,検索に時間がかかりますが,統合検索の対象としたい複数のWebサイトが属する共通のカテゴリを検索対象にすれば,データ量が少ないので検索にかかる時間も短くなります。たとえば,上記アサガオのデータベースの場合,三つのデータベースはいずれも大分類(cagetory1)ではcat6,小分類(cagetory2)ではcat6-14に含まれていますので,idxname=all の替わりに idxname=cat6(または,idxname=cat6-14 )とした方が,検索にかかる時間が短くなります。

back Bio-Crawlerによるサイト内検索設定マニュアル forward

Copyright: 2002 Y. Tsukii