サイト内検索設定マニュアル/ 設定法
back サイト内検索ページの作成 forward

 データの収集が終わると,Bio-Crawlerの管理者から次のような連絡がきます。

例:「お知らせいただいたURL以下のデータの収集,および,インデックス(索引)データベースへの組込みが完了しました。 あなたのサイトのidxname は sid278 です。」

 上記の idxnameの値(この例ではsid278) は Bio-Crawlerが収集した各サイトのIDを意味しています。このidxnameの値は,サイト内検索用のhtml文の中で使用します。以下は,そのようなサイト内検索用のhtml文の一例です。

サイト内検索をとりあえず試してみたい,という方は以下の枠内をコピーしてご自分のweb page(実際には htmlテキスト)に貼付けるだけで体験することができます。ただし,このままでは protist.i.hosei.ac.jp のデータが検索されてしまいます。ご自身のwebサイトのサイト内検索を実現するためには, Bio-Crawler管理者に依頼して,webサイトのデータを収集し,Bio-Crawlerの索引データベースに組込んでもらう必要があります。

<FORM action="http://bio-crawler.dna.affrc.go.jp/src-bin/namazu8.pl" name="MyFORM" method="GET">
<!-------------データ入力枠の指定------------->
<input type="text" name="query" size="22">
<input type="submit" name="submit" value="Bio-Crawler">
<!--------------検索条件の設定--------------->
<input type="hidden" name="subquery" value="http://protist.i.hosei.ac.jp/">
<input type="hidden" name="idxname" value="sid278">
<input type="hidden" name="range" value="all">
<input type="hidden" name="lang" value="">
<!-------------検索結果表示の設定------------->
<input type="hidden" name="whence" value="0">
<input type="hidden" name="max" value="25">
<input type="hidden" name="sort" value="score">
<input type="hidden" name="result" value="short">
<input type="hidden" name="cont" value="on">
<input type="hidden" name="reference" value="on">
<input type="hidden" name="cof"
value="LW:260;L:http://protist.i.hosei.ac.jp/GIFs/title_bar.jpg;
LH:29;AH:left;BB:#ffffff;BT:#334444;BL:#003377;BV:#003377;BA:#003377;">
</FORM>

上記のhtml文は,Web ブラウザでは以下のように表示されます。

 つぎに上記のhtml文の意味について説明します。
 なお,ここではhtml文を単純にするため,type="hidden"として値(value)を変更できなくしているものが多くありますが,一般の場合と同様,<select > </select> 文や,<input type="radio">の書式を使って,ユーザーが複数の値から適当なものを選べるように設定を変更することができます。 →詳細はこちら!

使用する検索エンジンの指定
<FORM action="http://bio-crawler.dna.affrc.go.jp/src-bin/namazu8.pl" name="MyFORM" method="GET">
 この文と最後にある </FORM> によって囲まれた部分がサイト内検索のための命令となります。http://bio-crawler.dna.affrc.go.jp/ は,Bio-Crawlerのアドレス名で,namazu8.pl が使用する検索プログラム名です。
 namazu8.plは,全文検索エンジンNAMAZUを基本に,サイト内検索用の様々な機能を追加したものです。Bio-Crawlerには,namazu8.pl以外にもNAMAZUを応用した様々な検索プログラムがありますが(namazu1.pl, namazu2.pl, namazu3.pl, namazu4.plなど),namazu8.pl以外はここで紹介する様々なサイト内検索用の機能には対応していませんので,ご注意ください。

データ入力枠の指定
<input type="text" name="query" size="22">
 ユーザーが検索したいキーワードを入力する文字枠の長さを文字数で指定します。

<input type="submit" name="submit" value="Bio-Crawler">
 検索を実行するためのボタン。テキスト(この場合は,Bio-Crawler)の替わりに,画像ファイルを指定することもできます。

検索条件の設定
検索サイト/ディレクトリの指定
<input type="hidden" name="subquery" value="http://protist.i.hosei.ac.jp/">
 ここでサイト内検索の対象となるURLを指定します。この例では,サーバのアドレスのみを指定していますので,このサーバ全体のデータが検索対象になります。
 ただし,それはデータ収集を同じアドレスで依頼した場合にかぎります。データ収集を依頼する際,収集対象を特定のディレクトリ内に限定した場合は,それによって収集されたデータのみが検索対象となります。
 一方,データ収集はサーバ全体に対して行っていても,ここでサーバのアドレスだけでなくサーバ内のディレクトリ(あるいはフォルダ)まで指定すれば,そのディレクトリ内に限定した検索となります。詳細はこちらをご覧ください。
 また,subqueryは複数個指定することもできます。これにより関連した分野のデータを統合的に検索できるようになります。詳細はこちらをご覧ください。

__
検索する索引データベースの指定
<input type="hidden" name="idxname" value="sid278">
 既述したように,このidxnameで実際の検索対象となる索引データベース(収集したWebサイトのデータから作成)を指定します。
 value= "all"とすると,Bio-Crawlerが収集したデータ全体が検索対象となります。しかし,サイト内検索の場合,他のサイトのデータは検索する必要がありませんので,索引データベースには含めない方が望ましい,といえます(その方が検索効率が上がるため)。そこで,Bio-Crawlerでは,サイト内検索用に,各Webサイトごと(もしくは指定されたURLから内部リンクを辿って収集されたデータ)の索引データベースも用意しました。上記の例では,自分のサイトの索引データベースをvalue="sid278"として指定しています(サイトごとの索引データベースの名前は,sid+番号で表されます)。こうすると,value= "all"とした場合に比べて,検索スピードがかなり上昇します。
 Bio-Crawlerでは,この他に,同じ分野のいくつかのWebサイトを一つにまとめた索引データベース(category2),さらには複数のcategory2をより大きな区分でまとめた索引データベース(category1)も作成しています。これらを上記の「関連したサイトの統合検索」に利用すると,サイト内検索と同様,検索スピードを上げることができます。詳しくはこちらをご覧ください。

検索する言語の指定
<input type="hidden" name="range" value="all">
<input type="hidden" name="lang" value="">
 学術サイトの場合,国内向けだけでなく海外にも情報発信することが求められます。そのためには,同じ内容のWeb pagesを和文と英文の二種類の言語で作成し,前者は国内向けに,後者は海外からのアクセスに対応させる必要があります。
 ここで問題になるのは,日本語対応のWebブラウザは日本語も英語も正しく表示できるが,海外で使用されているWebブラウザでは,当然ながら日本語のWeb pageは読めない(文字化けしてしまう)ということです。このため,サイト内検索においても,国内向けと海外向けで異なる対応を迫られます。
 国内向けのサイト内検索では,日本語,英語両方のWeb pageを検索対象にしても問題ありませんが,海外向けの場合は,日本語で作成されたWeb pageは検索対象から外す必要があります(文字化けしても構わないというのであれば,話は別ですが,,)。逆に,国内の利用者の中には,日本語のWeb pageだけを検索したいという人もいるかも知れません。
 Bio-Crawlerでは,このような記述言語の選択を,rangelang という2つのパラメータで行なっています。
 rangeall の場合(name="range" value="all")は,idxnameで指定された索引データベースにあるすべてのWeb pageが対象となります。ただし,この時,langjaであれば,検索結果の報告(何件ヒットしたかなどの説明)は日本語で表示されますが,langnullname="lang" value="")か en の場合は,結果報告は英語で表示されます。
 一方,rangenullの場合(name="range" value="")は,langの指定にしたがって検索対象を絞り込みます(langja なら日本語ページのみを検索,結果の報告も日本文;langen なら英語ページのみを検索,結果報告も英文)。
 →詳細はこちら!

検索結果表示の設定
<input type="hidden" name="whence" value="0">
 検索結果を何番目から表示するかを指定します。通常は,始めからなので0を入力します。

<input type="hidden" name="max" value="25">
 一度に表示する検索結果のレコード数を指定します。検索結果が指定した値を超えた場合は,複数のページに分けて結果が表示されます。

<input type="hidden" name="sort" value="score">
 検索結果をどのような順番で表示させるかを指定します。 value="score"の場合は,Bio-Crawler側が計算した各URLの評価値(注)の高いものから順番に表示します。

表示設定

<input type="hidden" name="result" value="short">
 検索結果は,各Web pageの 1) タイトル(<title> </title> で囲まれた部分),2) 入力された検索文字列のあるテキスト,3) Web pageの URL,の順に表示されますが, name="result" value="short" の場合は,2) の部分が3行までと短くなります。

<input type="hidden" name="cont" value="on">
 value="on"の場合,収集したhtml文にメタデータ(Description)の記述があれば,検索結果の説明部に,上記の検索文字列のあるテキスト部分の替わりに,Descriptionの内容を表示します。Descriptionの記述がない場合,あるいは,value="off"の場合には,通常の検索文字列のあるテキスト部分を表示します。
 メタデータの詳細については,こちらをご覧ください。

<input type="hidden" name="reference" value="on">
 入力した検索語がいくつかの単語からなる(あるいはBio-Crawler側の語彙分析で自動的にいくつかの単語からなると判断された)場合,このreferenceonにしておくと,その単語ごとの検索ヒット数が表示されます。
 たとえば,「Euglena deses」という学名で検索した場合は,以下のようになります。

reference = on の場合(range=all, lang=ja)
--------------------------------------------------------
検索結果
References: [ +uri:/protist.i.hosei.ac.jp/: 9790 ] [ euglena: 364 ] [ deses: 67 ]
検索式にマッチする 67 個の文書が見つかりました。
--------------------------------------------------------

reference = off の場合(range=all, lang=ja)
--------------------------------------------------------
RESULTS
  URL [http://protist.i.hosei.ac.jp/]
  Query [euglena deses]
検索式にマッチする 67 個の文書が見つかりました。
--------------------------------------------------------
注:range=all, lang=en(または range=all, lang="")の場合は,既述したように,結果の報告文は以下のように英文に変わります。

Total 67 documents matching your query.

<input type="hidden name="cof"
value="LW:260;L:http://protist.i.hosei.ac.jp/GIFs/title_bar.jpg;
LH:29;AH:left;BB:#ffffff;BT:#334444;BL:#003377;BV:#003377;BA:#003377;">
 検索結果を表示させる際に,自分のサイトのロゴを先頭に表示させたり,結果を表示するWeb pageの背景色を指定することができます。これにより,検索結果の表示を他の Web pageのデザインや雰囲気に合ったものに変えることができます。
 詳しくはこちらをご覧ください。

back Bio-Crawlerによるサイト内検索設定マニュアル forward

Copyright: 2002 Y. Tsukii