原生生物と日本産アリ類の広域画像データベース

2 インターネットと生命科学
  素材データベース構築の学術的意義

2-3 遺伝情報データベースと画像データベース

遺伝情報データベースから画像データベースへ
 そのような研究素材広域データベースの代表である遺伝情報データベースがどのようにして生まれたかを考えると,その構築の目的は既述したように,

● 膨大な量の配列情報は学術雑誌に掲載しきれない

● 配列情報を研究素材として利用するには電子化が必須

 であったといえる。また,それが実際に実現した背景としては,

● 計算機とそのネットワークの発達

● 遺伝情報はコンピュータで処理しやすい

 という時代背景とDNAのもつ特性という2つの要因が関係していたことは疑いない。

 とはいえ,研究素材はDNAに限ったものではない。DNAデータベースの場合は,一度論文を執筆する際に利用した配列情報であっても,他の研究者,ないし他の研究目的からすれば異なる利用価値があるはず,という発想に基づいて作られたわけだが,同じことは,他の素材情報(画像や測定値など)についても言えるはずである。

 ただ,DNA以外の素材情報については内容が均一ではなくその扱いが難しかったため,これまではデータベース化して再利用しようという動きはあまり盛んではなかった。しかし,近年のコンピュータの普及とそれに伴う処理能力の向上は,それらの複雑な素材情報もパソコン上でも比較的楽に処理できる時代を到来させたのである。

 これからは個人レベルでも大容量の画像等の素材データを処理してデータベース化する試みが盛んになっていくと予想される。そうなれば,いずれは,それらの素材情報をDNAと同様にインターネット上で公開し,広く世界全体で共有しようという流れが起こるのは必至といえる。

DPDD(Distributed Public Domain Database)
 これらの広域データベースのうち,遺伝情報データベースは扱う情報量が多いこともあり特定の専門機関がデータを収集し,ネットワークを通じて多くの利用者へ情報を提供する形をとっている(鵜川 1994)。そこではデータの管理者(サーバ)と利用者(クライアント)は完全に分離している。しかし,多種多様かつ膨大な量の生命科学情報のすべてを専門機関がデータベース化するのは不可能である。

 そこで登場してくるのが,研究者自らがサーバを管理し各自のデータをネットワーク上で公開して相互に利用しあう形態の分散型広域データベース,DPDD(Distributed Public Domain Database)である(Green 1994;図2-1)。そこではデータベースの利用者が同時に管理者(もしくはデータの提供者)でもあるわけで両者の区別はない。そのような研究者間の連携により,複数のホストコンピュータが相互にリンクしてサーバ分散型のデータベースが形成される。DPDDとしてDNAデータベース程世界規模で組織化されたものはまだないが,その試みはかなり以前から続いている。

図2-1 Distributed Public Domain Databaseの概念図

 WWW(World Wide Web)が普及する以前はGopherサーバを利用したものが多かった。Gopherサーバは他のサーバとのリンクを簡単に設定することができるため,関連するGopherサーバどうしが次々とリンクすることにより自然にサーバ分散型の広域データベースが構築できるのである。

 その後,より使いやすく高機能なWWWサーバが急速に普及したことにより,近年はWWWを利用したDPDDが増えてきた。例えば,アリゾナ大のWWWサーバ「The Tree of Life」(http://phylogeny.arizona.edu/tree/phylogeny.html)では,全生物界の系統樹の骨格部分を構築し,自分達が研究している生物の情報をその系統樹にしたがって提供するとともに,他の生物関連のWWWサーバがその系統樹の該当する部分へリンクすることを呼びかけている(図2-2)。これは全世界に分散した生物学関連のWWWサーバのもつ情報をアリゾナ大のサーバ上に構築された系統樹に関連づけて統合しようという壮大な試みである。

図2-2 「The Tree of Life」
http://phylogeny.arizona.edu/tree/phylogeny.html

Broadcast or perish
 インターネットの最大の特徴は,全世界で相互に接続された莫大な数のホストコンピュータ(1996.1現在 947万台, by Lotter; gopher://akasha.tic.com:70/11/matrix/growth/internet)のすべてが各々ホストとして情報の発信機能をもつことにある。どんなにちいさなパソコンであってもそれをサーバとして稼働させれば,原理的には全世界のホストコンピュータ,および,それを利用する人々に向けて情報を発信することができる。従来のマスメディアでは1対多&一方通行にしか情報がながれないが,インターネットでは多対多&相互交信可能な新しいメディアなのである。DPDDは,その新しいメディアとしてのネットワーク機能を最大限に活用したものといえる。

 今後,DPDDあるいはこれに類するものが普及すれば,科学のあり方が基本的に変わる可能性がある。なぜなら,DPDD等の普及は科学雑誌など従来のメディアが果たしてきた公報(Broadcasting)機能を研究者自らが持つことを意味するからだ。その結果として,研究情報の公開・共有システムが基本的に変わらざるをえなくなる。かつて研究競争の激しさを表す「Publish or perish」という表現が流行したことがあるが,「Broadcast or perish」,すなわち,研究者自らが自らの情報(論文など)をネットワーク上で公開するか,さもなければ研究者として自滅するかの時代が来る,のかも知れない(Green 1992)。