BioCrawlerの特徴

Bio-Crawlerとは？

　Bio-Crawlerは，農業生物資源研究所が運用する検索エンジンですが，以下のような特徴を持っています。

収集対象を生物系学術サイトに限定

　Bio-Crawlerの最大の特徴は，そのデータの収集対象を生物系の学術サイトに限定していることです。
　近年，インターネット上の情報が膨大になるにつれ，一般の検索エンジンでは検索の効率が落ちてしまう，という問題が生じています。たとえば，"amoeba"という用語を入力して原生生物の一種であるアメーバの情報を探そうとすると，検索結果の中に生物以外の"amoeba"の情報（web pages）がたくさん混じってきます。これは，同じ"amoeba"という用語がコンピュータのプログラムの名前として転用されていて，その関連のweb pageが多数あるのが主な原因です。
　このような問題を解決しようと，現在，インターネット上では様々な対策が検討されています。その一つとして，あらかじめ，データの収集対象を特定の分野（たとえば，生物系の学術サイト）に限定してしまう，という手法があります。
　もうひとつの対策がこちら！

　「特定の分野に特化したサーチエンジン」についての日本語での紹介記事が《羅針盤》「インターネット学術情報インデックス」（Academic Resource Guide）の特集「サーチエンジン」にあります。もちろん，海外にもあります（Googleなどを使い「search engine + 各学術分野の英語名」で検索するといろいろ見つかります）。

　生物としての"amoeba"の情報を探したい人は，生物系学術サイト専用の検索エンジンを利用すれば，生物系以外のノイズに煩わされずにお目当ての情報に辿りつくことができます。Bio-Crawlerは，そのような生物系学術サイト専用の検索エンジンとして開発されました。

網羅的なデータ収集を行なう

　一般の検索エンジンの場合，収集対象となるサイトの数があまりに膨大なため，各サイトに対しては，かならずしも網羅的なデータの収集を行なっているわけではありません。多くの場合は，部分的なデータ収集に留まらざるをえないのが現状です。
　しかし，学術情報の検索においては網羅性が必須の要件となります。そこで，Bio-Crawlerでは，検索対象サイト内のすべてのデータを収集し（ただし，Webサイト側が収集を認めているものかぎります），その全文検索を可能にしています。
　なお，現在のBio-Crawlerは，システムの核となるソフトウェアに公開ソフトウェアとしてよく知られているNAMAZUを採用しています。

　以上は，今回の改良前からBio-Crawlerに備わっていた基本的機能です。つぎに，これまでの情報受信者（ユーザー）のための検索サービスではなく，情報発信者（Webサイト制作者）のための個別検索サービス（いわゆるサイト内検索）を実現するために今回行った様々な改良点について紹介します。

サイト内検索サービスの提供

　従来，Bio-Crawlerは情報を探そうとする利用者（情報の受信者）への検索サービスのみを行なってきましたが，最近になって，情報の発信者，すなわち自分でweb pageを作成して情報公開をしようとしている研究者（あるいは研究グループ）への「検索機能の貸し出しサービス」も開始しました。
　研究者が個人または小グループで，ボランティア的に情報発信をしようとする場合，自分が持っている専門的知識をweb page化するのは，さほど難しくはありませんが，これに検索機能まで備えたい，となると大変です。コンピュータに詳しい人は別として，一般の研究者が自作のWeb pageにそのような機能を追加するには，多くの努力と忍耐が必要になります。
　しかし，よくよく考えれば，各自のWebサイトの情報は外部にある検索エンジンに登録しておけば，後は何もしなくても，いずれはそれらの検索エンジンを使って自分のサイトを検索できるようになります。
　ただし，通常，検索エンジンは数多くのWebサイトから集めたデータを一緒にして索引化していますので，そのままでは，自分のサイト専用の検索（いわゆるサイト内検索，SiteSearch）システムとしては使えません。そこで，あらかじめ，検索エンジン側と約束を取り交わすことで，自分のサイトだけを検索対象とした検索サービスを受けられるようにすることができます。このような「外部検索エンジンを利用したサイト内検索」の場合，情報発信者（web page作成者）側は，わずか数行のテキストをweb pageに書き加えるだけで，簡単にサイト内検索機能を自分のWebサイトに付加できます。
　Bio-Crawlerは，データの収集対象となった各生物系学術サイトに対して，そのような「サイト内検索」サービスを無償で提供しています。

ディレクトリ内検索も可能

　上記の「サイト内検索」貸し出しサービスは，一般の検索エンジンでも行なっていますが，Bio-Crawlerでは，さらに一歩進んだサービスも行なっています。
　研究者がWebサーバを使って個人的にデータを発信する場合，ひとつのサーバをひとつのテーマに限定して使用するとは限りません。時間がたつにつれ，様々な内容の情報を様々な目的で発信するようになるのが通例です。テーマごとにサーバマシンが用意できれば話は別ですが，通常，個人の研究者が使えるサーバマシンの台数には限りがあります。研究機関のホストコンピュータに自分用のディレクトリを作成して情報発信している人も多いはずです。
　そうなると，ひとつのホストコンピュータに限定しただけのサイト内検索では，そのサーバマシン全体にある公開されたすべての情報が検索対象となってしまいます。これだと，あるテーマについての「サイト内検索」をしたいと思っても，無関係な情報まで検索されてしまう，ということになりかねません。
　そこで，Bio-Crawlerでは，同一サイト（サーバマシン）内にあるディレクトリ（ないしフォルダ）を指定した検索もできるように新たな機能を開発しました。これにより，発信する情報をテーマごとに別のディレクトリ（フォルダ）に入れ，サイト内検索の書式の中でそれらのディレクトリを指定しておけば，テーマ（あるいはメニュー）ごとの検索ができるようになります。これは他の検索エンジンでは行っていないBio-Crawler独自の機能です。

複数の関連サイトをまとめた"統合検索"も可能

　サイト内検索の応用編として，関連したサイトのデータを一括して検索するサービスも行なっています。
　サイト内検索は，Webサイトの制作者には大変ありがたいサービスですが，特定の分野に関する情報を網羅的に得ようとする利用者には，それほどのありがた味はないかも知れません。なぜなら，個々のWebサイトは，その分野のすべての情報を網羅しているとは限らないからです。一般的には，網羅的でない場合の方が圧倒的に多いといえます。
　したがって，利用者サイドからすると，なるべくなら同一分野のWebサイトをまとめて検索したいと望むはずです。かといって，Bio-Crawlerが収集した生物系サイト全体を対象に検索したのでは，一般の検索エンジンほどではないにしても，ノイズ（関連のない情報）が混じる可能性が高くなります。そこで，Bio-Crawlerでは，サイト内検索の発展型として，データ収集された数多くの生物系サイトの中から，Webサイト制作者自身が，任意に関連するいくつかの生物系サイトを選んで，統合的に検索できる機能をあらたに開発しました（詳細はここ）。
　この「簡易型」統合検索は，共通のテーマで研究している複数の研究者（ないし研究グループ）が連携して情報発信しようとする場合にも役立つはずです。すなわち，各研究者（ないし研究グループ）は，それぞれの所属機関にあるWebサーバから各自の創意工夫で情報発信しながら，この統合検索を導入することで，ネット上では一つのまとまりのある情報サイトとして見せることができるからです。

Bio-Crawlerによるサイト内検索設定マニュアル