生物系素材情報のデータベース化に関する提案 (月井雄二・木原 章・鵜川義弘 1997.6.6)

4 基本戦略

 上述のように,ネットワークで公開されたデータの学術的価値を保証するには,データのauthorizationとその恒久的な維持管理が必須である。学術的価値の認められたものを長期的・安定的に確保・維持していくことが望まれる。そのためには,各分野ごとにセンターを設置して,各データのauthorizationを行なうとともに,長期的・安定的に維持管理を行なう体制作りが必要となる。

#DNAデータベースがその見本になるが,条件が異なる部分もある。
 見習うべき点:accession numberの発行等,authorizationの仕組み
 異なる点:集中管理は無理,そのため,せめて学会等のグループ単位でデータを管理したい。

●情報発信支援センターの設置について

 各研究分野ごとにネットワーク上で公開されている学術情報のauthorization,および恒久的保存(サーバのbackup)を行なう情報発信支援センターを設置する。センターでは,学術情報としての価値が認められたデータ(もしくはサーバ)にそのことを示す認証コードを発行するとともに,認証コードが与えられたデータのbackupを行なう。この他,新規にサーバを構築しデータの公開を行なおうとする研究者への技術的支援も行なう。さらに,どうしても自前のサーバが開設できない研究者のためには,センター側でデータを受け容れ・データベース化して公開するサービスも提供する。
 この他,生物科学系全分野にわたりネット上で公開されているデータのURLをロボットを使って収集し,データベース化して,検索エンジンを開発する総合情報発信支援センターも必要である。総合情報発信支援センターでは,検索エンジンの開発の他に,生物系素材情報のディジタル化,広域データベース化に関する基礎的研究を行なう。それらの研究を基に,各分野ごとの支援センターへの技術支援・各センター間の役割分担の調整などを行なう。また,分野ごとの支援センターがカバーしきれないデータをもつサーバへの対応は,総合支援センターで行なう。

1)審査委員会による認証コードの発行
 センター内に審査委員会を設置し,公開された学術情報の評価を行なう。
 評価対象となる情報は,情報発信者から申請されたものを基本とするが,センター側で探して認証を与えることもある。
 対象となる情報発信者は,主に研究機関に所属する研究者であるが,一般(学校・企業・個人等)からの申請であっても学術的価値があると思われるものは受け付ける。
 審査委員会では,
  情報の分類・評価(研究分野,研究的価値,教育的価値の有無など)
  重複・誤りの排除
  などを行なう。
 これらの審査を経た後,学術情報としての価値が認められた情報については,以下の対応をとる。

 A)認証コードの発行
  (学術情報としての価値が認められないものについては認証コードを発行しない)

 B)利用者に対する学術情報の所在を紹介するサービス
    学会誌・ホームページ等による告知
    認証コードとそのURLのデータベース化
 C)情報生産者による情報の維持・管理への支援(必要に応じて)
    技術サポート,資金援助,データのバックアップ を行なう。

2)認証コードが発行された情報の管理
 テキスト(htmlファイル等)の場合は,ロボットにより定期的にアクセスして,内容が更新された場合は,随時新規のデータとして検索用データベースに登録する。
 画像等については,WWW形式の場合,その内容説明などはhtmlファイルにあるのが通常なので,画像の検索はhtmlファイルの検索に基づいて二次的に行なうことができる。

3)データのバックアップ体制の確立
 サーバのbackupは,できるかぎり認証コードが与えられたすべてのサーバについて行なうのが望ましい。また,各サーバのデータは随時,変更・追加・削除されているので,定期的にアクセスして最低年1回程度の頻度でbackupを追加していく必要がある。
 なぜならば,そのデータが他の論文等で引用されている可能性があるからである(とくに論文など研究成果情報の場合)。したがって,その引用後にデータの更新があった場合には,更新前の情報もどこかに保存する必要がある。その作業を情報生産者全員に求めるのは無理なので,基本的にはセンター側で恒久的にバックアップしていく体制が必要となる。
 この作業は,極めて重要である。なぜならば,これをやることにより,はじめてネット上で公開されたデータを,学術雑誌上の論文などと同等に扱うことが可能となるからである。
(参照:Internet Archive )
 →このため,センターにはteraバイトの容量をもつサーバの設置が必要になろう。
  当面は,その設置に向けた準備を行ないたい。

4)一般利用者へのサポート
 インターネットで公開された学術情報と従来の印刷メディアで公開されたそれとの最大の違いは,一般の利用者への対応(日本語の解説などを添付して一般の利用者が利用しやすくする等)の有無にある。
 インターネットで公開された学術情報は,インターネットの性格上,専門の研究者にかぎらず広く一般からのアクセスがありえる。実際ある。(データの種類によっては,一般の利用の方が多くなることもあり得る)それらの一般の利用者は,専門家とは異なる視点で学術情報を利用することが予想される。
 一般利用者への対応は専門の研究者が行なう必要はないとする意見もあるかも知れないが,公的資金によって研究が行なわれていることを考慮すれば,一般への対応をないがしろにすべきではない。一般利用者への対応は,納税者への利益還元にもなるのでむしろ重要である。
 また,公的機関の情報公開という流れからしても当然行なうべきことであり,研究者の社会的責任ともいえる。(アカウンタビリティ:研究の意義を周知することは研究を継続する上でも必要。)
 したがって,支援センターでは自身がそのような対応をとると同時に,各サーバ管理者である研究者にもそのような一般利用者への配慮を欠くことのないよう指導していくことが望ましい。

●予想される利用形態

 研究分野 同じ専門,異なる専門分野の利用もある。
 教育分野 教材探し これがとくに多いだろう。
 企業活動 参考資料 営利目的の場合は著作権が問題
 個人   啓蒙的意義

●使用言語

 本来は英語と日本語両方があることが望ましいが,公開を促進するためには,とくに強制しない。一般向けとして,納税者への利益還元という観点からは,日本語による記述が必須。