サイト内検索設定マニュアル/ 設定法
back 検索条件の詳細設定 forward

 前掲のサイト内検索ページの作成で紹介したのは,手軽にサイト内検索機能を付加するためのものです。html文の記述を簡単にする目的で,検索に関する様々な条件(検索対象,表示件数,ソートなど)はすべて固定(hidden)してあり,ユーザー自身が選択できるようにはなっていません。しかし,ユーザーの求めるものは種々様々ですので,それらの要求に応じて,検索条件を柔軟に変更できるのが望ましいといえます。
 Bio-Crawlerでは,利用者の目的に応じてサイト内検索の条件設定を様々に変更することができます。 そのいくつかの例を以下に紹介します。

_
検索URLの変更
検索ディレクトリの選択

 既述したように,研究者が個人的にWebデータを発信する場合,ひとつのサーバマシンをひとつのテーマに限定して使用するとは限りません。時間がたつにつれ,様々な内容の情報を様々な目的で発信するようになります。テーマごとにサーバマシンがあるなら話は別ですが,通常,個人の研究者が使えるサーバマシンの台数には限りがあります。また,研究機関のホストコンピュータに自分用のディレクトリを作成して情報発信している人も多いはずです。いずれの場合も,研究者が個人(または小グループ)で作成したWeb Pagesは,同じサーバ上で,他の異なった目的で作成された複数のWeb Pagesと混在することになります。
 そうなると,ひとつのホストコンピュータに限定しただけのサイト内検索では,そのサーバマシン全体にある公開されたすべての情報が検索対象となってしまいます。これだと,あるテーマについての「サイト内検索」をしたいと思っても,無関係な情報まで検索されてしまう可能性があります。
 そこで,Bio-Crawlerでは,同一サイト内のディレクトリ(ないしフォルダ)を指定した検索もできるようにしました(参照:下記枠内)。これにより,発信する情報をテーマごとに別のディレクトリに分け,サイト内検索の書式の中でそれらのディレクトリを指定すれば,テーマごとの検索ができるようになります。

検索対象 <br>
<select name="subquery">
<option VALUE="http://protist.i.hosei.ac.jp/">全体検索
<option VALUE="http://protist.i.hosei.ac.jp/taxonomy/">原生生物図鑑
<option VALUE="http://protist.i.hosei.ac.jp/PDB/">研究資料館
<option VALUE="http://protist.i.hosei.ac.jp/PDB/Image/">デジタル標本館
<option VALUE="http://protist.i.hosei.ac.jp/ProtistInfo/">関連情報
</select>
 → 
検索対象

複数のサイトをまとめて検索できるようにする方法

 サイト内検索は,

<input type="hidden" name="subquery" value="http://protist.i.hosei.ac.jp/">

という具合に,subqueryを使って検索先のURLを指定しますが,この発展型として,subqueryを複数使って,いくつかのWebサイトを同時に検索することができます。
 この場合,一つWebサイトに限定した検索ではなくなりますので,「サイト内検索」とは呼べなくなりますが,この方法により共通のテーマや同じ生物材料を扱う複数のWebサイトを「統合的」に検索することができるようになります。

  詳細はこちらをご覧ください。

_
索引データベースの変更
記述言語による選択

 日本語版のWebブラウザは日本語も英語も正しく表示できますが,英語版,もしくは日本語以外の言語に対応したWebブラウザでは,日本語のWeb pageは読めません(日本語の部分が文字化けしてしまう)。このため,サイト内検索においては,海外からのアクセス,もしくは日本語版以外のブラウザ利用者のために,日本語で作成されたWeb pageは検索対象から外せるようにしておく必要があります。逆に,国内の利用者の中には,日本語Web pageだけを検索したいという人もいるかも知れません。
 Bio-Crawlerでは,このような記述言語の選択を,rangelang という2つのパラメータで行なっています。 rangeall の場合は,idxnameで指定された索引データベースにあるすべてのWeb pageが対象となります。一方,ここに何もデータがない場合(name="range" value="")は,langの指定にしたがって検索対象を絞り込みます(name="lang" value= ja の場合,日本語ページのみ検索;name="lang" value="en" の場合,英語ページのみを検索)。

 書 式  検索対象
<input type="hidden" name="range" value="all">
<input type="hidden" name="lang" value="">
 →  全てのWeb pagesを検索
結果報告は英文
<input type="hidden" name="range" value="all">
<input type="hidden" name="lang" value="ja">
 →  全てのWeb pagesを検索
結果報告は日本文
<input type="hidden" name="range" value="all">
<input type="hidden" name="lang" value="en">
 →  全てのWeb pagesを検索
結果報告は英文
<input type="hidden" name="range" value="">
<input type="hidden" name="lang" value="ja">
 →  日本語 pagesのみ検索
結果報告も日本文
<input type="hidden" name="range" value="">
<input type="hidden" name="lang" value="en">
 →  英語 pagesのみ検索
(=日本語を含まないWeb pagesのみ)
結果報告も英文
<input type="hidden" name="range" value="">
<input type="hidden" name="lang" value="">
 →  英語 pagesのみ検索
(=日本語を含まないWeb pagesのみ)
結果報告も英文

 Bio-Crawlerは,収集されたWeb pages(実際には,html形式で書かれたテキストファイル)が,日本語Web pagesか英語Web pagesかをそこに含まれる文字コードの種類で判別しています。
 すなわち,アスキーコード(A, a 〜Z, z, 0〜9など)とμ やフランス語やドイツ語で一般的に使用されるウムラウトなどの,いわゆる1バイトコードの特殊文字からなるhtmlファイルを英語(ないし非日本語圏)のWeb pagesである判断し,それ以外の文字コード(すなわち2バイトコードの日本語)を含むhtmlファイルは日本語Web pagesであると判断しています。
 ですから注意していただきたいのは,自分は海外向けに英語でWeb pagesを作成したつもりでも,その文中に日本語(日本語フォントの中にあるμや<>などの記号も含みます)が一文字でも混じっていれば,それは英語Web pagesとはみなされない,ということです。英語のみのモードで検索した場合,そのWeb pagesは検索されません。

英語/日本語の識別は本文のみ
 ただし,上記の英語/日本語の識別は,あくまでhtml文の本文(<body> </body>で囲まれた部分,すなわち,実際に画面に表示される部分)のみに適用されます。ヘッダの部分(<head></head>で囲まれた部分で画面には表示されない)には適用されません。
 この理由は,ヘッダの部分には,タイトル(<title></title>)以外に,メタデータ(解説)などが記述されますが,メタデータとしては,英語Web pagesであっても,日本語環境で作成される場合は,英語だけでなく日本語の記述を含めることもある,ためです。
 たとえば,本文が英語で記述されていても,その要旨を英語と日本語でメタデータとして記述しておけば,日本語で検索した場合,rangeall の設定であれば,言語の種類は異なっても,内容が同じであれば,英語のWeb pagesも検索されてきます。いわば,検索の際の「翻訳機能」をメタデータに持たせることができるわけです。
 この他,Webブラウザはその種類ごとにデフォルトで使用するフォントが異なりますので,Webサーバ側でフォント指定をしない場合は,同じWeb page であってもブラウザによって見栄えが随分変わってしまいます。Web pagesがどのブラウザでも同じに見えるようにするためには,表示用フォントをあらかじめヘッダ部分で指定しておく必要があります。その際,英語Web pagesであっても,フォント名として日本語を使用せざるを得ない場合もあります(日本語対応のWebブラウザ使用者が英語のpagesを見る場合など)。
 これらの理由から,Bio-Crawlerでは,ヘッダ部の言語はチェックしない(英語Web pagesでもヘッダ部分では日本語も使用可)ことにしています。

_
データ入力法の変更
語群から検索語を選択する

 先に紹介した検索書式では,ユーザーが自分で文字枠に検索するキーワードを入力する方式を採っています。これは検索したい用語が明確にわかっている場合は問題ありませんが,なんとなく漠然としか言葉が思い浮かばない,というユーザーにとってはこれではお手上げです。
 研究者による研究者のための検索システムであれば,文字枠を設定するだけで十分かも知れませんが,インターネットで情報公開を行った場合には,じつに様々な人々がアクセスしてきます。それらの非専門家の理解の程度は十人十色で,自力で用語を入力できる人もいるでしょうが,中には,上記のように漠然としか言葉が浮かんでこない人も大勢いるはずです。
 そのようなユーザーへの対応として,選択の幅は狭まるものの,あらかじめ設定した用語の中からボタン形式やポップアップメニュー形式で用語を選択して検索する,という方法も有用です。

ポップアップメニュー形式の例:select文を使用
採集地選択
検索対象
表示件数 表示順
 これは,原生生物に関するWeb pagesをその採集地の名称で検索するためのものです。採集地の名称をあらかじめ select文で記述しておけば,ユーザーは採集地による検索がしやすくなります。
 なお,この html文をご覧になりたい方はここをクリックしてください。 また,表示件数,表示順の設定法についてはこちらをご覧ください。

ボタン形式の例:type="radio"文を使用
キーワードの選択(微生物に共通の用語)
細胞質
オルガネラ
細胞膜
原形質流動
微小管
繊毛
鞭毛
食作用
飲作用
細胞分裂
    
 生物学にあまり詳しくないユーザーにとっては,自分で正確な用語を手入力するよりも,このような語群から選ぶ方式の方が使いやすいはずです。
 この html文をご覧になりたい方はここをクリックしてください。

back Bio-Crawlerによるサイト内検索設定マニュアル forward

Copyright: 2002 Y. Tsukii