公開講演会:生物多様性研究・教育を支える広域データベース

原生生物情報サーバ
http://protist.i.hosei.ac.jp/index-J.html
学術研究におけるインターネットの有用性と生物多様性DBの行方
月井雄二(法政大学 自然科学センター)

1 原生生物情報サーバの紹介
1-1 データベース構築の目的

 「原生生物情報サーバ」は1995年から構築を始め,同年に画像データベースとしてインターネット上で公開した。制作者は月井(法政大),木原(法政大),鵜川(宮城教育大)の三名で,画像の作成,Web pagesの編集を月井が,静止画・動画編集システムの開発,古文献データベース(後述)の構築を木原が,そして,ネットワークの管理を鵜川が担当している。構築の目的は,様々な原生生物の画像や記載情報をネットワーク上で公開し,広く世界中の人々に利用してもらうことにある(図1)。


図1 原生生物情報サーバ(日本語版)

URL, http://protist.i.hosei.ac.jp/index-J.html

 ただし,構築当初は,自分達の手許にある画像,すなわち研究の過程で作成したものの論文等で使用せずに残った写真などを主なデータベース化の対象にしていた。そのため,公開した画像は実験に使われるアメーバやゾウリムシなどごくわずかな生物種に限られていた。しかし,いざ公開してみると,利用者の多くは一般の人々であり,専門的な知識を得ることよりも,原生生物に関する基本的な知識,その中でもとくに分類情報を求めてアクセスしてくることがわかった。社会は原生生物に関する分類データベースを必要としていたのである。

 これは制作者の一人である私(月井)にとっては「渡りに舟」だった。なぜなら,私はもともと原生生物の進化に興味があったからである。進化を研究するには分類学の知識が不可欠だが,私はそれまでは分類にはまったく関心がなく,データベース構築当初は,自分の研究材料であるゾウリムシやアメーバ以外にどんな原生生物がいるかほとんど知らなかった。そこで,網羅的な分類データベースを作れば,自分にとっても原生生物の分類を学習するよい機会になるのではないかと考えるようになったのである。

 とはいえ,動物や植物で「網羅的な分類データベース」を作ろうとすれば,世界中をかけ回ってサンプルを採集もしくは撮影しなければならないだろう。これはとても個人レベルでできる仕事ではない。しかし,原生生物の場合は,その小ささ故に他の生物での常識が往々にして通用しないことがある。私の場合はそれが幸いした。というのは,原生生物の多くは,コスモポリタン,すなわち,形態的に同種と見なせる生物が世界中に広く分布しているのである。これは言い換えると,限られた場所を調べるだけで,世界中で知られている数多くの種が発見できることを意味する。多くの労力と費用をかけて世界中を駆け回らなくとも,身近な池や沼,あるいは町中の下水道などからサンプルを採集するだけで網羅的なデータベースが作れる(可能性がある)のである。

 そこで,実際に数年前から,野外採集した原生生物を片端から撮影して,その名前を調べ画像とともにデータベースに組み込む作業を行うようになった。

1-2 データベースを作る意義

 以上のように,当初は自分達の研究素材(画像等)を公開することを目的としてスタートした「原生生物情報サーバ」だったが,途中から分類データベースとしての性格を強めていった。それとともに,私自身の原生生物の分類に関する知識も増え,知識の増加に伴って分類学に対する興味も高まった。また,その過程で以下のような原生生物における分類データベースの必要性とその意義に気づくことができた。

○原生生物の多くは保存標本が作れない

 殻を持つ原生生物の中には,その殻の形で種を同定できるものがいる。したがって,その場合は殻を保存標本として利用することができる。しかし,ほとんどの原生生物は殻をもたず死ぬと同時にその形を失ってしまう(図2)。このため,保存標本を作るのは極めて難しく,他の生物のように標本に頼った分類を行うことができない。やむなく,従来,原生生物の分類は記載と線画に頼って行われてきたが,このことが原生生物(とくに原生動物)の分類を混乱させる一因にもなっていた。


図2 繊毛虫の一種 Halteria grandinella

細胞の横方向に真直ぐに伸びた棘毛がある。こういった構造は細胞を固定しただけでも崩れてしまう。

 そこで考えられるのが,生きた状態の細胞を写真や動画に記録し保存標本の替りとして利用する方式である。勿論,いかに精緻な画像であっても本物の標本の完全な替わりにはならない。しかし,元々保存標本が作れない原生生物であれば,画像を記録することが最良の選択肢であるのは間違いない。また,画像をデジタル化してネットワーク上で公開すれば,世界中の誰もが容易に見ることができる。これは保存標本にはない優れた特徴であり,これによって原生生物の分類に関する知識の普及が促進されるはずである。さらにいえば,仮に今後国内あるいは世界各地にいる原生生物研究者が自分達の周囲にいる原生生物を採集・撮影して我々と同様なデータベースを公開すれば,それらの画像をネット上で比較・検討することで,分類学研究そのものにも役立てることができるのではないかと期待している。

注1) 微生物の場合は,生きた生物そのものを「系統保存」して,それを基準に種の同定を行なうこともある。しかし,系統保存されているのは既知種のごく一部に過ぎず,すべての種を系統保存するのは現実的にはほぼ不可能と言ってよい。また,系統保存する場合は,野外と同じ培養条件を確保するのが難しいため,培養している間に細胞の形態や生理学的特徴が変化してしまうこともある。

○身近にたくさんの種類がいる

 既述したように,原生生物の多くはコスモポリタンである。これは私のように網羅的なデータベースを作ろうとする者にとってはサンプルを集めやすいので都合がよいが,一般的には非常にやっかいな特徴といえる。

 世界中ではこれまでに140万以上の生物種が発見され,未発見のものも含めると3000万,あるいは1億といった膨大な数になると言われているが,翻って我々の日常生活を考えると,自分の目の届く範囲にいる動物や植物の種類はごく限られている。そのため,近所の川や林で鳥や昆虫,魚などを観察する際には,市販のガイドブックを何冊か用意すれば通常は十分事足りる。

 しかし,原生生物の場合は,そういう訳にはいかない。近所の池や水たまりから,わずか数十mlの水や泥を採集するだけでも,そのサンプルからは世界中に分布する数多くの種が見つかる可能性があるからだ。実際,ガイドブックどころか専門書を何冊調べても,属名すらわからない原生生物に遭遇することは決して稀ではない(図3)。

 かりに身近にいる原生生物を種のレベルまできちんと同定しようとするなら,それまでに発表された原生生物の分類に関するすべての文献を,原著論文まで含めて,手許に置いておかなければならなくなる。しかし,それはあまりに非現実的な話である。一方,データベースにそれらの膨大な情報を蓄積しネットで公開すれば,誰もが手軽にそれらの情報を利用して,採集した原生生物の種類を調べることができる。


図3 所属不明の原生生物

細胞全体に多数の鞭毛(繊毛?)と触手がある。移動時には触手が縮み高速で回転しながら素早く泳ぐ。繊毛虫のActinobolinaに似るが細胞口が見当たらないなど違いも多い。日本と米国で観察された。

○たくさんいても一度に観察できるのはごくわずか

 身近にたくさんの種類がいるとはいえ,実際にそれらを観察するとなると話は別である。わずかなサンプルであっても,そこにいるすべての原生生物を観察するのは事実上不可能と言ってよい。通常,顕微鏡観察用のプレパラートにのせられる水の量は多くても0.1 mlかそれ以下である。これだけ僅かなサンプルでもその全体を観察し終えるには早くても10分程度はかかる。となると 1 mlの水をくまなく観察するには100分ないし2時間程度はかかるという計算になる(注2)。例えば 1 t(トン;1000リットル)の水の中に1000匹の原生生物がいたとしても,1リットル当りではわずか1匹にしかならない。このわずか1匹を発見するだけでも単純計算で最大2000時間も費やさなければならないことになる。眼の前に1000匹(個体)も生物がいれば,動物や植物なら絶対に見逃すことはないはずだが,原生生物の場合はほとんどいないのと同然なのである。

注2) ゾウリムシやアメーバプロテウスなど大型の原生生物であれば,低倍率の実体顕微鏡で比較的簡単に見つけることができる。しかし,これらは哺乳類で言えば,ゾウやクジラのようなもので,原生生物の中ではかなり特殊な部類に属する。他の数多くの原生生物は実体顕微鏡ではその存在すら確認できないので,400倍あるいはそれ以上の倍率で観察する必要がある。そのため一度に観察できる量がごく限られてしまうのである。

 さらに,通常,多くの原生生物はシストと呼ばれる形で休眠しているため観察しずらいという問題もある。野外の環境は変化が激しいので,原生生物は自分の生育に適した条件になった時にシストから出て素早く増殖し,環境が悪化すると再びシストの中に入って生き残りをはかっている。シスト化した原生生物を観察するには,シストから出て増殖しやすい環境を作ってやらなければならないが,すべての種類に対してそのような条件を作るのは事実上不可能であり,その意味でも採集したサンプルで観察できるものはごく一部に限られてしまうのである。

 このような性質を持っているため,これまで原生生物の種の多様性については十分に理解されて来なかった。そこで,観察したサンプルの画像を長年少しずつでもデータベースに蓄えていけば,後々になって各生物種ごとの種内変異の研究等に役立てることができるはずである。

1-3 データベースの作り方

 さて,それではどのようにして「原生生物データベース」を作っているかについてだが,これに関しては,すでに以下のURLで一般向けの解説として詳細に述べているのでここではごく簡単に作成手順だけを紹介する。

画像・動画作成支援
 http://ameba.i.hosei.ac.jp/BRNet/index.html

 生物系研究者のための研究資材データベース構築&ネットワーク公開ガイド
  http://protist.i.hosei.ac.jp/Science_Internet/guidelines/index.html

 画像データベーステクニカルガイド
  http://ameba.i.hosei.ac.jp/BRNet/index.html

 まず,野外から採集してきたサンプルを顕微鏡で観察し,それまでに撮影したことのない種類や,あるいはすでに撮影した種であっても,採集地が異なっていたり,形態的な変化がみられるものについては可能なかぎり写真撮影(場合によっては動画も撮影)を行なう(図4)。


図4 データベースの作り方

 写真の場合,原生生物の多くは「動く」ものが多いため,ASA400のリバーサルフィルムで撮影を行なう。フィルムを現像した後,データベースに組み込むものを選ぶ(この段階で2/3程度は捨てている)。選んだフィルムはフォトCDサービスを利用してデジタル化する(一万円余/100枚)。できあがったフォトCD画像は,画像処理ソフトを利用してJPEG画像に一括変換/圧縮してパソコンの中に取り込む。その際,フォトCDの最大サイズの画像(3072 x 2048 pixels)はネット上で配信するには大きすぎるので除外し,1ランク下の画像(1536 x 1024 pixels)とそれを1/2,1/4,1/8,1/16に圧縮したJPEGファイルを作成する。1/16サイズのもの(96 x 64 pixels)はサムネイル表示用,他は利用者の目的(モニタで見るか,印刷するか等)に応じて使い分けてもらうためのものである。

 作成したJPEG画像ファイルはフォトCDごとにまとめてデータベースに組み込む。一方,各画像ごとの採集地,年月,撮影者等の基礎データとその生物名(学名;不明な場合もある)からなる記載データを作成し,これと各画像が配置されているURLのデータを合体させた画像表示用のhtml形式のテキストファイルを作成する。

 つぎにこのテキストファイルにある各画像の情報(記載情報と画像のURL)を撮影されたサンプル(標本)ごとに切り抜いて,属・種の解説が付いたhtmlファイルに貼付ける。ここで新たに作成されたhtmlファイルは標本ごとの画像を表示させるための「標本Web page」となる。この後,これらの標本Web pageを,標本一覧用の「種Web page」にリンクさせ,さらにそれぞれの種Web pageを種一覧用の「属Web page」へとリンクさせる。こうすることで,利用者は属から種へとリンクを辿って最終的に標本ごとの画像を閲覧できるようになる(図5)。


図5 データベースのファイル構成

1-4 原生生物情報サーバの基本構成

 以上のように,「原生生物情報サーバ」で基本となるのは,採集(あるいは培養)した各標本(細胞またはクローン,現在約4300サンプル)ごとの画像であり,これらを分類体系にしたがって種,属ごとにまとめて整理してある。

○主なメニュー

研究資料館
http://protist.i.hosei.ac.jp/PDB/menu.html

 標本画像には,メインメニューにある「研究資料館」からアクセスすることができる。ただし,研究資料館にある情報は途中までは日本語と英語の両方の解説がついているが,最終的に辿り着く標本Web pagesは,種の解説から画像の説明まですべて英語で記載してある。これは,日本語版と英語版の両方を作るのが面倒なのと,研究資料館の利用者としては基本的に研究者を想定しているので,利用者が日本人でも研究者なら英語のみでも利用上はさほど支障はないはずとの考えによる(図6)。


図6 「研究資料館」メニュー

 なお,この「研究資料館」をよく見ていただくとわかるのだが,現在は,原生生物だけでなく,多細胞の動物や原核生物の画像もわずかだが公開している。これは原生生物の採集をすると同じサンプルの中にこれらの生物も多数観察されるので,なにげなく撮影を始めたのがきっかけとなった。クマムシやワムシ,イタチムシ,ミジンコといった微小多細胞動物やユレモ,Merismopediaといった原核生物については,当初はまったく知識も興味もなかったが,撮影を続ける間に,原生生物の時と同様,次第に興味が湧き,かつ,ネット上にはこれらの画像を公開しているサイトがほとんどないという事実に気付いてからは積極的に撮影するようになった。今後も可能なかぎりこれらの画像も充実させていこうと考えている。

原生生物図鑑
http://protist.i.hosei.ac.jp/taxonomy/menu.html

 研究資料館は研究者向けに作っているが,ネットワークを介してアクセスしてくるのは研究者だけとはかぎらない。むしろ利用者の大半は研究者以外の一般の人々であるといってよい。そこで,一般利用者へのサービスとして,原生生物の分類に関する簡単な説明と,それに関連した画像を組み合わせた「原生生物図鑑」も用意してある。ただし,これは日本語版のみで英語版は作成していない。その訳は,英語版まで作成する余裕がないというのが一番大きな理由だが,あえて付け加えれば,データベースを構築する上で公的な資金の援助を受けているためでもある(全てではないが,,)。公的な資金とは元を糾せば税金であり,したがって「原生生物図鑑」はスポンサーである納税者への「利益還元」であると位置付けている(図7)。


図7 「原生生物図鑑」メニュー

 原生生物図鑑では代表的な生物の画像のみを紹介しているが,各属ごとの解説のページの最後には,研究資料館にある属ごとのWeb pagesへのリンクも付けられている。各生物群の基本的な特徴を理解して,個々の生物についてより詳しく知りたくなった人のためのものである。

動画データベース
http://protist.i.hosei.ac.jp/Movies/htmls/index.html

 最近は,静止画だけでなく,原生生物の動画データも追加しつつある(研究資料館)。これは,実際に種を同定する際には,たんにその形態的特徴だけでなく「動き」も重要な判断基準になっていることに気づいたためである。従来分類学では形態的な特徴が主な種の判定基準とされてきたが,その訳は,たんに印刷物である学術文献には動画が記録できず,他に動画を記録するための適当な媒体がなかったから,にすぎない。動きのおおまかな特徴は文献に記載できても,文章では表現しようのない微妙な動きは,分類学者の脳裏に記憶されるだけで他に伝達されることはなかった。しかし,ネットワークでは,テキストや静止画だけでなく動画や音も記録できるので,今後,分類学ではこれらの情報も分類形質として利用されていくものと予想される。

 ただし,現在公開している動画は,ネットワークの通信速度を考慮して,もとのDV動画をかなり圧縮している(ファイルサイズは最大で500 kバイト〜1 Mバイト程度)。そのため細部の動きが明瞭ではない。また,時間も短いカットに抑えてあるので,種の特徴を把握する上では不十分かも知れない。だが,オリジナルのDV動画も保存してあるので,将来,通信速度が向上した暁には,これらのDV動画ファイル(数十M〜数百Mバイト)をそのまま公開したいと考えている。

イメージブック(古文献データベース)
http://protist.i.hosei.ac.jp/PDB/ImageBook/menu.html

 静止画や動画の他に,原生生物に関する貴重かつ希少な古文献の画像データベース化も行なっている(図8)。原生生物の分類学研究は19世紀〜20世紀前半にかけて盛んに行なわれた。その結果,原生生物の種に関する記載も半世紀以上前の古い文献にあるものが多い。しかし,これらの古文献は誰もが容易に入手できるものではないため,種の同定をする際の支障になっていた。そこで,著作権の消失した古文献の各ページをスキャナで画像化してWeb ブラウザ上で閲覧できるようにした(研究資料館)。データベース化の手法も公開しているので,他でもこの手法を用いて古文献のデジタル化,ネットワーク公開が進めば,分類学研究がやり易くなるものと期待している。


図8 「イメージブック」メニュー

 この他,「関連情報」「インターネットと生命科学」といったメニューもあるが,長くなるのでここでは省略する。

○Google/Bio-Crawlerを利用したサイト内検索

 データベースと銘打っている以上はなんらかの検索機能があるはずと思われるかも知れないが,「原生生物情報サーバ」は自前の検索機能は備えていない。その替わりとして,外部の検索エンジンを利用した「サイト内検索」という手法を導入している。

 これは外部の検索エンジンを利用する際に,あらかじめ検索対象を自分のサイトのみに限定して検索を行なう方式で,現在いくつかの検索エンジンが有償/無償でこのようなサイト内検索サービスを提供している。ただし,一般向けの検索エンジン(当データベースはGoogleを利用させてもらっている)の場合は,各サイトに対してデータ収集を網羅的に行なっているとはかぎらないので,外部検索エンジンを利用したサイト内検索では検索漏れが起こる可能性がある。

 そこで,昨年度,農業生物資源研究所が運営する生物系の学術サイトに特化した検索エンジン,Bio-Crawler (http://bio-crawler.dna.affrc.go.jp/ )をサイト内検索に利用できるようにする改良プロジェクトにユーザーの立場で協力した。これによりBio-Crawlerを利用した網羅的なサイト内検索ができるようになった。Bio-Crawler では,通常の全文検索の他に,メタデータ(html文の場合はメタタグに記載された情報)の検索もできる。メタデータとしては一般的なAuthor, Description, Keywordsの他に,生物系独自のものとして Field,Organismを試験的に設定してある。

 「原生生物情報サーバ」は広域分散型公共データベース(DPDD,Distributed Public-Domain Database,参照:Green, D. G. (1994). Databasing diversity - a distributed, public-domain approach. Taxon 43, 51-62. URL, http://life.csu.edu.au/~dgreen/papers/taxon.html )の一つとして構築しているが,ネット上で分散できるのはデータだけでなく,データベースの機能そのものも分散できるのである。「餅は餅屋」なので他に任せられるものは任せて,研究者はデータ作りに専念する方が望ましいと考えている。

 なお,このBio-Crawler を利用したサイト内検索の設定法については,以下のURLで詳しく解説しているので参照願いたい。

___ http://protist.i.hosei.ac.jp/Science_Internet/BioCrawler/index.html

○画像提供者/協力者
http://protist.i.hosei.ac.jp/PDB/contributors_J.html

 既述したように,途中からデータベース構築の目的を網羅的な分類データベース作りにシフトさせたため,最近は自分で撮影した画像が多くなっているが,それだけでなく,これまでにネットを通じて様々な人から多数の画像の提供を受けている。それらの画像はデータベース本体に組み込むとともに,「画像ギャラリィ」(http://protist.i.hosei.ac.jp/PDB/Galleries/index.html)として各提供者ごとに画像を一覧できるようにしてある。

 画像提供者以外にも,ネットを介して,公開した画像を見て同定の誤りを指摘してくれたり,生物名がわからずに公開してあった画像を見て同定を手助けしてくれる人もいる。さらには,「原生生物図鑑」の記載(菌類関係)が古いので新しいものに書き換えてくれた人もいる。

○画像数,ファイル数,データサイズ

 現在公開している画像は静止画 約30,000枚(約490属,1,600種以上,約4,300サンプル),動画 556クリップである。既述したように,静止画は閲覧用のサムネイル画像からモニタでの閲覧用中型画像,印刷用の大型画像まで5段階の異なるサイズのものが用意されている。また,元の画像を加工して説明などを書き加えたものも各属・各種・各標本ごとにある。このため,静止画のファイル数は画像枚数の6倍以上となっている(約19万個)。動画も静止画と同様に利用者の要求に応じて異なる4段階の画面サイズの動画が見れるようにしてある。ただし,公開しているのはごく一部で多くはまだ編集段階にある。

 一方,原生生物図鑑にある解説文用のhtmlファイル,および,研究資料館にある各サンプルごと,種ごと,属ごとの解説と画像を表示させるためのhtmlファイルは,合計で約9,000個ある。そして,これらテキスト,静止画,動画のすべてを合計したデータベース全体のデータサイズは,およそ9ギガバイトほどである。

1-5 利用状況,利用者との交流

 「原生生物情報サーバ」は,現在,法政大 の他に,筑波大総研大の計3ケ所に同じ内容のもの(ミラーサーバ)が設置されている。いずれも連日かなりのアクセスがあるのだが,現在正確なアクセス数は把握できていない。と言うのも,最近はあまりにアクセスが増え過ぎてログをとるのがままならなくなったからである。

 法政大のサーバの場合,今年始め頃まではアクセス(ファイルアクセス)を記録していたのだが,最近になってサーバ用のパソコン(Macintosh G3)が頻繁にシステムエラーを起こすようになった。これには途中でOSを更新したことも影響しているようなのだが,直接の原因はアクセスの急増だった。記録したかぎりでは1日あたり最大9万件のアクセスがあったこともある。これは平均すると1秒に1回弱のアクセスになるが,アクセスは常時一様にあるわけではない。アクセスが集中した時にパソコンの処理能力を超えてしまいエラーを起こしたらしいのである。

 そこで,今年の途中からはパソコンへの負荷を極力減らすため,アクセスを記録することをやめた。こうすれば記録する工程が減る分だけサーバマシンがファイルアクセスに応えるスピードも上がるので,利用者側からすれば画面の表示が早くなり利用しやすくなるという利点もある。

 つぎに実際にどのように利用されているかについて紹介する。既述したように,利用者の中には専門家もいるので,このような人々の中には,国内外からメール等を介して画像を提供してくれたり,種の同定が不確かな画像を見て同定を助けてくれる人もいる。しかし,なんといっても一番多いのは,一般の利用者からの画像の利用願いや,種の同定依頼などの問い合わせである。多い時には週に3,4回の頻度で問い合わせがある(最近は,海外からの問い合わせの方が多い)。データベースの制作目的は公開した画像を利用してもらうことなので,これは制作者としては大変喜ばしい。

 ただし,気になるのは著作権がらみの問題である。画像を利用してもらうのはありがたいが,かと言って画像の撮影者(=著作権者)に無断で公の場で利用したり,商用目的に利用されては困る。一方,利用者側からすれば,どうすれば画像が利用できるのか許可条件や手続きの仕方がわからないと利用しずらい,という人も多いはずである。そこで,利用の際の条件や手続きの仕方を紹介した「著作権について」というWeb pages(日本語版 http://protist.i.hosei.ac.jp/PDB/copyright_J.html と英語版 http://protist.i.hosei.ac.jp/PDB/copyright_E.html )も用意してある。そして,画像があるすべてのページで,そこにある「Copyright」という文字をクリックすればこのページが表示されるようにしてある。この他,データベースにある情報を頼りに,直接,本人が研究室に訪ねてくるケースも多い。

 データベースのCD-ROM版を制作して無償配布する活動も行なっている(正確には,行なった)。1995年に第一版を制作して以来,これまでに2回改訂を行なったが,第三版(1999年制作)は約7000枚を配布して全国から様々な反響を得た。ただし,画像が増えるにつれ,途中からネットワークで公開している5種類のサイズの画像ファイルすべてをCD-ROMに収録することができなくなった。そのため,第二版からは画像ファイルを2種類(サムネイル画像と画面サイズの画像)のみに減らして制作した。だが,第三版以後は,さらなる画像の増加により画像ファイルの種類を最小限に減らしてもすべての画像をCD-ROMに収録できなくなった。このため,CD-ROMの配布活動は現在中止している。

2 ネット上で公開された情報の評価と保存
2-1 学術研究用メディアとしてのネットワークの不完全性

 以上が「原生生物情報サーバ」についての紹介であるが,このような自分たちのデータベースを構築・公開する活動以外に,生物系研究者による同様な情報発信がさかんになるよう様々な活動を行なっている。他の研究者がデータベースを作るのを手伝ったり(総研大共同研究,生物形態資料画像データベースの構築,http://taxa.soken.ac.jp/),データベース構築のための支援システムを開発したりもしている(科学技術振興事業団,生物系研究資材のデータベース化及びネットワークシステム構築のための基盤的研究開発,http://bio.tokyo.jst.go.jp/biores/index.htm )。さらには,学会やWebサイト上での啓蒙活動も行っている。

 しかし,残念ながら,これまでのところ期待するほどには生物系研究者からの情報発信は増えていない。その原因を分析した結果,研究者がネットワーク上で情報発信することに熱心でないのは,たんにWeb pageの作成法やデータベースの構築法などに不慣れなため,といった技術的な問題によるのではなく,むしろ,社会システム上の問題であることに気づいた。すなわち,ネットワークには,学術研究に不可欠な2つの要素,公開された情報を「評価」し「保存」するための社会的仕組みが欠けているのである。そのため,ネット上で公開された情報は,研究者の業績としては認められず,そのことが研究者から「やる気」を奪っているのではないかと考えるようになった。

 この問題は,他で詳しく紹介しているので(http://protist.i.hosei.ac.jp/Science_Internet/WorkShop1999/JSZ_1999/index.html)ここでは簡単に概略のみを紹介する。

 まず,従来の科学のシステムでは,研究者が生産した情報は,学術雑誌等の印刷メディアを介して公開される。そして,公開されたものは大学図書館等の公的機関で恒久的に保存される。学術情報は,このような「生産」と「公開」そして「保存」という3つの要素(ないし機関)が連携してはじめて学術情報本来の機能を果たし得るのである。また,公開前に,論文審査という形で学術的価値の「評価」(=品質管理)が行なわれ,一定の評価を得たもののみが公開される(図9)。

図9 印刷とネットワークの比較

 このようなシステムがあることで,研究者の論文等が業績として認められ,ゆくゆくはそれが様々な形で研究者自身の利益にもつながっていくのである。

 一般に,生産(研究者)と公開(学術雑誌)の役割については認知されているが,大学図書館等が果たしている保存の役割については意識されることが少ないようである。だが,この学術情報の恒久的な保存がなされてこそ,後になって論文等で引用することが可能となり,研究の継続性が保証されるのである。

 しかし,従来,ネットワーク上で公開されている学術情報に関しては,DNAなど一部の例外を除いて,それらを永続的に保存するための公的機関は存在しなかった。ネットワーク上の情報は,公開後に内容が書き換えられたり,サイトじたいがいずれは消滅する可能性が高い。そのため,内容の如何に関わらず,論文等で引用することができず(もしくは引用しても無効になる可能性が高いので),実質的には学術情報としての利用価値を持たなかった(持てなかった)のである。そして,そのような情報を発信する活動も研究者の業績としてこれまでは認知されなかった。業績にならなければ研究者にやる気が起こらないのも無理はない。

 また,情報の生産者が同時に発信者にもなれるというのがネットワークの基本的特徴である以上,印刷メディアにあるような公開前の評価システムは基本的に存在しえない。このため,ネット上に存在する情報がいわゆる「玉石混交」の状態になるのはやむを得ない。そこで,印刷メディアとは異なるやり方で情報の評価を行なう必要があるのだが,そのような仕組みもこれまでは存在しなかった。

2-2 Wayback machine と PageRank

 しかし,近年,状況は急速に改善しつつある。「保存」については,Internet Archive(http://www.archive.org/)が,その集めた膨大な情報を昨年末から公開するようになったことの意義が大きい。Internet Archiveとは,ネットワーク上にある情報を人類の貴重な歴史遺産として残すことを目的として,6年前から世界中のありとあらゆるサイトから収集可能なすべてのデータを集めて保存する活動を行っている組織である(これまでに収集したデータは約100テラバイト余!)。従来は,収集した情報の中に著作権やプライバシーに関係するものが含まれているという理由で一般には公開していなかったが,昨年11月頃よりすべてのデータを一般に公開するようになった。このInternet Archiveが集めたデータを閲覧するためのシステムをWayback machineという(http://protist.i.hosei.ac.jp/GBIF/DB_list/About_wayback.html )。

 たとえば,「原生生物情報サーバ」の場合は,1997年1月から収集が始まっているが,この当時のURLはhttp://mac2031.fujimi.hosei.ac.jp/index-J.html というものだった。その後,2000年4月に学内ネットワークの大幅な変更があり,その際,当サーバもURLの変更を余儀なくされた(変更後のURLはhttp://protist.i.hosei.ac.jp/index-J.html)。この間もInternet Archiveによるデータ収集は定期的に行なわれ,現在は新旧いずれのURLのデータも閲覧可能になっている(図10)。データベースの内容は頻繁に書き換わっているため,現在,制作者である私の手許には1997年当時のWeb pageのデータは存在しない。だが,Internet Archiveにアクセスすればその当時自分が作ったWeb pageがどんなものだったかを見ることができる(注;初期の頃は画像の収集が不完全だったため,1997年頃のWeb pageの一部は画像のないものもある)。


図10a 1997年〜URL変更前のWebデータ

URL, http://web.archive.org/web/*/
http://mac2031.fujimi.hosei.ac.jp/index-J.html

 mac2031.fujimi.のサーバは2000年4月にはprotist.i.に切り替わったが,その後1年余の間,大学の情報センターにお願いしてmac2031.fujimi.でアクセスがあった場合は,それをprotist.i.に読み替えてもらっていた。そのため,Wayback Macineでは2001年8月までmac2031.fujimi.としてデータが保存されている。

図10b URL変更後〜現在のWebデータ

URL, http://web.archive.org/web/*/
http://protist.i.hosei.ac.jp/index-J.html

 2002年にはまだ何もデータがないが,これは他のすべてのサイトについても同様である。2002年に収集したデータは,年内には公開されない模様である。

 このInternet Archiveの活動には,プライバシーや著作権保護などの問題も残されてはいるが,ネットワークを学術目的で利用しようと考えている者にとっては大変ありがたいサービスといえる。なぜなら,これにより,図書館に収蔵された学術文献と同様,ネットワーク上で公開された情報も安心して論文等で引用できるようになったからである。よって今後はネットワークを学術情報発信のためのメディアとして利用する研究者が増えることが期待される。

 一方,評価(情報の品質管理)に関しては,検索エンジン Googlehttp://www.google.co.jp/)が採用しているPageRankという検索結果を順位付けする仕組みが注目される。検索エンジンには色々なものがあるが,現在,世界でもっとも利用者が多いと言われるのがGoogleである。その理由は,収集した情報量の多さ(2002年12月現在,約31億web pages)と,検索の的確さにある。他の検索エンジンの多くは,収集したWeb pageにあるキーワードの位置や数など,Web pageの内容を分析して,検索結果を順位付けし一覧表示する方式をとっている。しかし,この方式だと,Webサイトの制作者側がキーワードを意図的に書き加えることで検索結果の順位を上げるといった操作ができてしまう。そのため,検索のヒット数が多くなればなるほど,利用者が探している情報が見つかりにくくなる,という欠点がある。


 これに対して,GoogleのPageRank方式では,各Web pageに対する他のWebサイトからのリンク数を元に順位を決めている(図11)。その際,リンクを張っているサイト自身のPageRankも考慮される。すなわち,PageRankの高いサイトからリンクを張られている場合はそのリンクのポイントは高く,逆に,PageRankの低いサイトからのリンクはポイントが低くカウントされる,という具合である。リンクを張るという行為は,通常,「このサイトは役に立つ」,「他の人にも見せたい」,「参考にした」などの理由で行われるので,リンクには各Web pageを実際に見た利用者(人間)の評価が反映されている,といえる。このため,PageRank方式は,収集した情報が増えれば増えるほど,注目度(評価)のより高いWeb pagesが検索結果の上位に来る傾向があり,利用者は必要な情報を得やすくなる,という優れた特徴をもつ。


図11 PageRankのしくみ

注2) 的確に検索ができることは利用者にとっては便利でありがたいが,その結果として,一方の情報を発信する側は大変厳しい競争にさらされることになる。例えば,あるキーワードを含むWeb pagesが世界中に数千,数万あったとしても,利用者が閲覧するのは,検索結果の上位10位以内か,多くとも100位程度までであろう。となるとそれ以下にランクされたWeb pagesを見る利用者はほとんどいないことになる。利用者が閲覧してその内容が良いと評価されれば,それはそのWeb pageへのリンク数の増加につながるので,ランクの上位に来たサイトにはますます利用者が集まり,下位のランクのサイトとの差が拡大していくことになる。今後,Googleなどの検索エンジンを利用して情報を探す人が増えるにつれ,こういった情報利用の一極集中はますます進むものと予想される。これはインターネットの出現によってもたらされた「情報のグローバル化」の特徴の一つといえる。

 ただし,Googleが収集対象としているのは学術情報に限定している訳ではないので,PageRank方式による検索結果のリストの上位に来るものがそのまま学術的価値の高さを反映しているわけではない。とはいえ,検索する際のキーワードとして,他分野では使用されることが少ない専門性の高い学術用語を使えば,その検索結果の上位に来るものはそれなりに学術的にも評価されたWeb pagesであるといえるはずである(参考:http://protist.i.hosei.ac.jp/ProtistInfo/Records/Google.html )。

3 生物多様性DBの行方
3-1 生物多様性関連Webサイト調査について

 また,今回の講演会を契機に,ネット上にある「生物多様性関連Webサイト」の調査も行った。調査はYahooなどのディレクトリサービスに登録された様々な生物関連のWebサイトの中から「標本画像」としての情報を含むもの,すなわち,画像はある程度の大きさがあって,各生物の特徴が写っていると思われもの,かつ,各画像についての記載(和名,学名,撮影者,撮影場所,撮影条件,生物の特徴,等々)があるものを探すことから始まった。しかし,Yahooなどのディレクトリサービスに登録されているのは全体のごく一部にすぎないので,途中から各Webサイトにある生物多様性関連リンクを辿ったり,あるいは,上記のGoogleなどの検索エンジンを使い,適当な学名や和名を入力して,得られた検索結果の中から該当するWebサイトをしらみつぶしに探す,という方式を採った。

 調査は現在も継続中だが,これまでに選びだしたのは約400サイト程である。その結果,公開開始年などから判断して,近年これらのサイトの数が急速に増加しつつあることがわかった(http://protist.i.hosei.ac.jp/GBIF/DB_list/index.html )。

 これらのサイトの大部分は,専門家が作成したものではなく,一般の人々が個人的な興味から作成・公開しているものである。そのため,専門知識を網羅したものは少ないが,逆に一般の利用者にとって(そして専門外の研究者にとっても)わかりやすく利用しやすいものが多い。したがって,教育用のリソースとしては十二分に役立っているといえる。

3-2 デジタル標本を集めた広域データベースとしての利用

 現時点では専門知識を網羅したものが少ないとはいえ,各Webサイトは時間の経過とともに内容が充実しつつあるのもまた確かである。その筆頭が,今回の公開講演会の演者でもある山田まち子さんの「微小貝」であろう。公開歴8年(制作開始からだと12年!)の微小貝に比べると,他のWebサイトは公開歴が1, 2年のものがほとんどなので,内容的にはこれからのものが多いのはやむを得ない。しかし図鑑ないしはデータベースといった,いわゆるコレクター的な要素をもつサイトは,時間の経過とともに制作者本人のWebサイトへの思い入れも深まっていく傾向があるので,今後,すべてではないにしても,多くは質・量ともに充実していくと予想される。

 また,これらのWebサイトの制作者は日本各地に分散しており,各々が自分の住んでいる地域の生物を主な対象にして画像を公開しているケースが多い。したがって,個々のWebサイトは網羅的ではなくとも,上記の検索エンジン等を利用すれば,日本各地で撮影された数多くの野外サンプル(標本)の情報を一つの統合化されたデータベースとして利用することも可能である。故に,これらの「生物多様性関連のWebサイト」は,今後,多様性研究の基礎となる標本データを集めた全国(ないしは世界)規模の広域データベースとして役立つことが期待される。

 ただし,そのためにはいくつかの克服しなければならない課題がある。各地に分散した生物多様性関連Webサイトを統合的に利用できるようにするためには,ある程度,各Webサイト間の連携ないし協調が必要になる。そのために役立つのがメタデータと呼ばれるものだが,ここで説明するには紙数が足りないので,詳しくは以下を参照願いたい。

 http://protist.i.hosei.ac.jp/GBIF/subjects/metadata.html

 また,可能なかぎり各Webサイトの英語化が望まれる。せっかく充実したものを作っても英語の説明がないと日本以外の国の人には見てもらえず,結果として正当な評価が得られないことになってしまう。多様性データベースの場合は,画像についての生物名や簡単な特徴の記載を英語化するだけでも世界的に十分利用価値のある情報提供になるはずである。

 さらに,今後緊急の課題になると思われるのが,山田さんも指摘しているように,各Webサイトがあるサーバの容量不足の問題である。生物多様性関連Webサイトの多くは個人がボランティア的に作っているので,その公開場所は民間のプロバイダである場合がほとんどである。これらのサイトは,内容が充実するにつれ,当然ながら大量の画像データを抱え込むようになるはずだが,個人が経費のかかる民間のプロバイダ上でそのようなデータ量の多いWebサイトを維持するのは無理があろう。そのため,質の高いサイトについては公的機関が公開場所を提供する等の対策が望まれる。