生物系素材情報のデータベース化に関する提案 (月井雄二・木原 章・鵜川義弘 1997.6.6)

6 実施計画

上記の支援センターの在り方はあくまで理想像であり,最初からそのような体制がとれるとは考えにくい。最初は,仮説のセンターを作って,生物系情報専用の検索エンジンの開発,ディジタル化,広域データベース化の基礎研究,サーバ構築を希望する研究者への支援(講習会など),既設サーバの backupなど最低限の作業を行なうことになる(ステップ0)。
 その上で,ネット上の生物系サーバが増加していくのに対応して,支援センターの永続化,数の増えた分野から順次分野別支援センターを独立させる,などを実施したい。

当面行なうべきこと

●仮センターの設置

 認証コードの発行,既設サーバのバックアップ,サーバ新設の支援,サーバが持てない人のデータの受け容れ等,既述した一連の作業を試行し,問題点を探る。
 ロボットによるURLの収集,データベース化,検索エンジンの開発,公開もここで行なう。

●teraバイトサーバ

 以下のように,高画質の画像・動画データをバックアップしていくには大容量のサーバが必要になる。既設サーバが少ない現状では,当面は必要ないかも知れないが,いずれ必要になることを考慮して,サーバの設置・管理に必要なノウハウを得る。

●ロボットの開発について

 学術情報専用のテキストデータの収集を行なう。
 収集する上でのデータフォーマット(htmlファイルに分野別のコードを記載する等)
 収集すべきサーバの選定,データの選定
  認証コードが発行されたテキストデータ(htmlファイル)ないしそのサーバ
  それ以外にサーバ管理者から申請があったサイトのデータ

 ここで大切なのは,網羅的であること。現在のサーチエンジンはデータ量は多いが,各サーバについてすべてのデータを網羅しているわけではない。
 不必要なロボットのアクセスを減らし,より効果的なデータ収集を行なうためには,サーバ管理者との連携が不可欠である。
 ロボットがサーチする対象となるサーバを特定し,収集すべきデータの範囲をあらかじめ通知してもらう。また,更新があった場合は,サーバ管理者から連絡してもらい,適宜,更新されたデータの収集を行なう。

●高画質画像・動画データベース構築システムの開発

 学術情報として価値のあるデータとするには高画質であることが不可欠である。
 
 詳しくは,学術審議会の報告書「学術標本画像データベース作成の指針」参照。
 指針の周知をはかることも大切。

 以上の他に, 
 これまでの活動の延長として,インターネット公開と他のメディアとの連携も重要である。

●CD-ROMによるデータベースの配布

 CD-ROMの配布を行なってきた。利用者にとって,利用しやすいように便宜をはかるべきである,という立場から,画像などの大容量のデータはネットワーク経由よりもCD-ROMを利用した方が便利と考えて,配布活動を行なっている。
 CD-ROMが普及すれば結果的にネットワークのトラフィックを軽減できる。
 情報生産者にとっても,データのバックアップになる上,論文別刷等の著作物に替わるものとして役立つ。
 産地直送方式(CDプレス会社へ100枚単位で発注)を採用すれば,低コストで全国の学校等に大量配布が可能。教育現場に教材としての学術情報を安く大量に普及させることができる。 → 原生生物データベースでは,それを目指して試験的な配布活動を行なっている。

●今後はDVDによるデータベースの配布を目指す

 現在,コンテンツの制作 新たに動画データベースを制作する計画がある。
 学会のメンバー等からのデータの提供を募っている。
 → 情報の増加にともないCD-ROMに収容しきれなくなる。
  原生生物ではすでにCD-ROMの容量を超えている。
 とくに画像・動画などが多い場合は,より大きな容量のメディアが必要。
 CD-ROMに続くものとして・・・DVDがある。
 高解像度画像を取り扱う新しい技術の開発
 → DVD化のノウハウの習得

●その他

情報の公開を促す方法・システムを考案する
 データのauthorization,データの永続的保存ができれば情報公開が促進されるだろうとしたが,これら以外にも,研究者がもつ情報の公開促進につながる手立てを考える必要がある。
   authorizeされたデータを業績として認める体制作り(科研費審査等)
 データ公開を行なう研究者(グループ)への資金的補助
 (系統保存への補助と同じ発想で)