公開講演会:生物多様性研究・教育を支える広域データベース

牧野標本館タイプ標本データベース
http://wwwmakino.shizen.metro-u.ac.jp/MakinoDB/makino/html_j/index.html
木原 章(法政大学 自然科学センター), 加藤英寿(東京都立大学 牧野標本館)

1.はじめに

 牧野富太郎は,日本の植物にラテン語名をつけて登録した最初の日本人植物学者である。1884年に彼が発見し「ヤマトグサ」(Cynocrambe japonica Makino) として「植物学雑誌」 (1887年) に登録されたものが,それである(図1)。当時,西洋の学者に頼らざる負えなかった学名登録を日本人として最初に行ったと言う点で,牧野富太郎が我が国の分類学に残した功績は大きい。牧野没後に,大泉の自宅に残された約38万点にものぼる標本は,当時彼が名誉都民だったことから,東京都立大学に寄贈され「牧野標本館」としてその管理を委託されることに成った。植物標本は,その植物が地球上に存在したという証しであり,分類学では,最初に登録された標本をタイプ標本として,その種を判定するための基準として用いられることから,人類共通の重要な資産と言うことができる。牧野富太郎は生涯を通じて約1600種の新種記載を行ったが,牧野標本館にはその内の743種のタイプ標本が保管されている。これらの分類学的にも,また日本の文化財としても貴重な価値を持つタイプ標本のラベル情報と高解像度画像をデータベース化し,インターネットを通じて公開したのが,牧野標本館タイプ標本データベースである。
図1 ヤマトグサ Cynocrambe japonica Makino

2.データベース化への道のり

 一般に,植物標本館では仕事として,標本の整理・保管を行っていると考えるのは至極当然である。従って,標本館には所蔵標本データベースが完備されていて,少なくともそこへ行けば所蔵標本のリストを見て現物を探すことが出来るだろうと思われるかも知れない。しかし,現実はそうは成っていない。事実,2000年にインターネット上に公開された当データベースは,我が国では最初の植物標本データベースとなった。ここでは,一般ではなかなか知ることの出来ない標本館の活動も含めて,データベース完成に至るまでの道筋を御紹介しよう。

2−1 標本の鑑定作業

 植物標本はさく葉標本(押し葉)として台紙に貼られ,そこに採集地,採取者名等のデータを記載したラベルをつけた形態で保管されている。従って,ラベル情報を文字データとして,また標本撮影写真を画像データとして入力すれば,データベースはでき上がるはずである。しかし,実際には多くの植物標本は,直ぐにデータベース化できるだけの状態になっていない。牧野富太郎が収集した標本も,実際には新聞紙に挟まれた押し葉標本とその新聞紙に書かれた覚え書きからなる,完全標本からはほど遠い状態の標本だった(図2)。
図2 牧野富太郎が収集した押し葉標本

従って,それらの標本を植物分類学の基礎的,標準的研究資料としての使用に耐える標本に整えるために,標本の鑑定と添付ラベルの作成,台紙への貼り付け等の作業が,1958年から約40余年に渡って行われてきた。その成果として,現在では寄贈標本約38万点の鑑定が終わり,うち約27万点を完成標本として保管し,また重複標本約8万点を世界各国の主要標本館へ交換のため発送した。すなわち,牧野富太郎が残した膨大な押し葉標本は,東京都立大学に寄贈後約40年を経て,ようやくデータベース化を始められるだけの状態に達したと言っても過言では無いのである。

2−2 ラベル情報入力

 さて,では実際にラベル情報を入力する作業であるが,以下の入力項目を設定した(図3)。


図3 設定した入力項目
 標本番号,学名,和名,科学名および科和名,採集地名,採集者,採集年月日,採集者番号,重複標本の所在,タイプ標本の種類,原記載(文献情報),[現行学名],[現行和名],[現行採集地名]

 このうち,[現行学名],[現行和名],[現行採集地名]は,ラベルには記載されていない情報である。しかし,データベースとして公開するために必須であると考え,データ入力中に追加した。個これらの情報を追加するためには,昔の和名や学名と現在の名前を対照する作業や,さらに地名を現在の名前に対応させるために,当時の牧野富太郎の足跡を追う等,かなりの労力を要する仕事であった。

 また,既に記したように,当データベースは我が国最初の植物標本データベースであることから,他に参考とする物が無いままに,独自の判断でデータ項目の設定を行った。しかし,最終的には全国・全世界の植物標本が共通したフォーマットを持つことが,今後のデータベースの広がりの中で必須に成る。現在行われているGBIFの活動の中で,世界的に共通の入力項目の設定が一日も早く行われ,当データベースもその形態に適応可能なデータ形態へと進化していくことが期待される。
2−3 画像データ入力

 植物標本を撮影し,画像データとしてデータベースに組み込むために,接写台とデジタルカメラを用いた(図4)。植物標本は,貴重な歴史的遺産であることから,撮影過程で標本を傷めない細心の注意が必要である。高い感度を得やすいデジタルカメラの導入と,あらかじめ条件設定することで標本に対する照明時間の短縮を心がけている。画像のサイズは,画像検索用(60 x 90 pixels),簡易表示用(300 x 420 pixels),高解像度画像(最高で 3000 x 1800 pixel)の三段階の解像度の画像をあらかじめ作製し,それぞれ必要な局面でWeb上で閲覧可能にしている。最高画像画像については,その時々の撮影機器で得られた元データであり,機器の変換に伴って解像度は変わっている。 接写台とデジタルカメラ
図4 使用した接写台とデジタルカメラ
2−4 データ構造

 タイプ標本の特徴は,それを規定するラベルが各標本について1枚貼られている点である。タイプ以外の一般標本では,分類基準の変化に伴い,同定結果が変化するため,その都度,新たなラベルが追加される。タイプ標本だけは,その標本自信が基準であることから,同定結果も変わることなく,1枚のラベルで事足りるのである。従って,標本データは,ラベルデータと1:1で対応し,データベース構造は単一データテーブルで事が済む。撮影画像は,その時の撮影機器の性能に依存するが,全体像だけでは事足りない場合は部分画像を追加している。従って,標本と画像については別のデータテーブルを設定し1:Nの関係で処理することを可能とした(図5)。


  図5 データテーブル

2-5 Webで公開するための手法

 本データベースでは,入力中のデータをできるだけ早く公開するために,ファイルメーカーのWeb機能を使って,入力データを即公開できるシステムと,ネットワーク接続無しでも内容を見ることができるシステムとして,HTMLに書き出しCD−ROMとして配付する方式の2つのステムを併用している。

○ ファイルメーカー版

http://MAKDB.shizen.metro-u.ac.jp/database.htm

 ファイルメーカー版では,利用者が入力したキーワードに基づいて検索結果を出力し,その一覧の中から目当ての標本を見つけ出す方式を採用している(図6)。この方式の利点は,データ入力側の更新が,そのままWebの更新に対応することと,既知の知識を持つ人間が,目的の標本データを見つける時に役立つ方式である。


図6 ファイルメーカーを利用した検索結果例

○ HTML版(CD-ROM版)

http://wwwmakino.shizen.metro-u.ac.jp/MakinoDB/makino/html_j/index.html

 ファイルメーカーで作られたデータベースを,AppleScriptを用いてHTML文に書き出し,CD-ROMとして配付した(図7)。この方式の利点は,サーバーやネットワークの負荷を減らすことができる点,CD-ROMが出版物と同様の汎用性をもつので,学術的な文献としての引用に耐え,また将来的には時代を示す証にもなる点が挙げられる。更に,副次的な効果として,CD-ROM発行はデータベースを作る側のモチベーションを高め,締め切りを設定することで具体的な作業目標の設定が可能となる点で,データベース構築を一気に進めることができるチャンスを与えてくれる。
図7 牧野標本館タイプ標本データベース
CD-ROM版

 この方式の欠点は,構築中のデータベースの一時的な側面を繁栄させることしか出来ない点で,即時性に欠ける点,あらかじめ用意したHTMLへのリンクだけで構成されるので,柔軟な検索機能を期待できない点が挙げられる。


図8 索引画面の一例

 検索機能をできるだけ強化するため,2001年に発行したCD-ROM版では,学名や和名のみならず,最終地名などでもリンクを辿れるように,索引として9種類の項目(科  名・科学名・タイプ和名・現行和名・タイプ学名・現行学名・標本番号・採集地名・科別画像一覧)を設定した(図8)。

3.データ構造と他のデータベースとの連携

 データベース構築を始めるにあたって,どの情報を選択しどのような項目設定でデータベースを構築するかという問題は,「概念設計」と呼ばれる作業である。どんなデータベースも初期の概念設計をそのまま維持しながら,データを入力し続けるのは難しく,予想しないデータの出現や,逆に無意味な項目設定等が,次第に明らかになってくる。しかし,いったん決めたデータ構造を,いつどのような理由で諦めて,新たなデータ構造を目指せば良いのだろうか?

 牧野タイプ標本データベースを作製する段階でも,初期は,1標本,1ラベル,1画像として,一つのデータテーブルで管理する予定で作業を開始した。しかし,実際には画像に関しては標本に対して1:Nの関係を作製したほうが柔軟に対応できることが判明し,データ構造の変換を行った。更に,現在タイプ以外の標本をデータベース化する作業を開始したが,その場合には標本対ラベルの関係も1:Nになる。そうなると,新たに標本対ラベルの関係性も見直す必要が出てくるのである。

 一方で,現在世界では植物標本を始めとする標本データベースの作製が盛んに行われるようになってきた。やがて,個々のデータベースは連携して地球規模の生物標本データベースが完成する日も間近である。その時,個々のデータベースで作られた個々の構造は,どのように連携すれば良いか?その手続きを考えると今作り始めるよりも,もう少し安定した構造が確定するまで,作業を待ったほうが得かもしれないと,ついつい思われがちである。しかし,その考え方は正しいとは思えない。我々のデータベースの作製過程を見ても,既存の標本の鑑定,整理,保管と言う初期の手続きに一番時間がかかり,いったん整理された情報を入力するスピードは,はるかに前者を上回っている。また,データベースは作製途中で,いずれにしても構造の変更を求められるものである。更に,いったんデジタル化された情報を新たな構造に対応させることは,決して難しい作業でも無い。

 牧野タイプ標本データベースは,現在,JST(日本科学技術振興事業団)のBRNetの「 生物系研究資材共有データベースシステム」( http:// bio.tokyo.jst.go.jp: 8080/ jstapp/ owa2/ jst_top_page.main_page ) にも登録されている(図9)。これら2つのデータベースは,データ構造が必ずしも一致していないが,いったんデジタル化された文字情報は,様々な変換手段で再利用可能である事を示す良い例である。画像データに関しては,サーバーの能力とも関わるので,プライマリのサーバーを決めたら,その画像情報へのリンク(URL)として他のデータベースで転用する事が可能である。
図9 BRNetの検索結果画面

 つまり,他のデータベースなどとの連携も含め,データ構造をめぐる問題は継続的に発生しうる事であり,そのことを気にするばかりにプライマリのデータベースが完成されないという事では,多くの情報をデータベース化することは望めないとものと考えて前に進んでいるのが現状である。

4.今後の活動

 タイプ標本のデータベースを完成後,牧野標本館では,文科省科学研究費の助成を請けて牧野標本30万件の全てのデータベース化の作業を行っている。ラベルデータについては,2002年の時点で既に6万件に達する入力を完了した。更に,標本画像も随時追加していくことにしている。標本の鑑定に約40年を費やした事を考えれば,データベース化ははるかに速いスピードで進んでいると言えよう。しかし,世界的に見るかぎりは日本の国内標本のデータベース化は明らかに遅れていると言わざる終えない。現在,国際的な活動として行われているGBIFに於いて,植物標本のデータベース化は東大・京大と言う専門家内では強い意見を言えるグループによって進められているようであるが,依然として日本に牧野標本データベースありきと言う状況は変わっていない。今後,世界各国で作られている植物標本データベースを対等の立場で利用するためには,日本から世界に向けて植物標本の情報を発信することは重要な意味を持つ。牧野標本館の活動が,今後GBIFを含めた世界的なデータベースの輪にどのように関与していけるかが,我が国の植物標本データベースの未来を占うと言っても過言ではないかもしれない。