「生物系研究資材データ収集ロボットに関する研究」
(所属)農業生物資源研究所・遺伝資源第二部DNA管理情報科
(氏名)鵜川 義弘
本研究では、インターネット上で提供されている種々雑多なWWWサーバから、生物系研究資材情報を選択的かつ効率的に収集し、研究者にノイズのない研究情報を提供するためのデータ収集ロボットを試作することを目的とし、このために必要な技術開発と試験研究を行う。
研究資材情報もその多くがWWWサーバで提供されつつある。WWWによるデータベースの提供は、分散した個別の研究者による発信が容易であるが、それゆえ、データのフォーマットが一定でなく、そのままでは、既存のデータベースのように、一箇所で、一定の枠に取り込んで検索することができない。また、データベースがパソコン等のWWWサーバで提供される場合には、そのサーバ自体で検索機能を持っていないことが多いので、データベースを利用するものにとって必ずしも便利ではなかった。
一方、現在一般向けに、Altavista、Goo、Infoseek、Lycos、Webcrawler等、インターネット内のWWWサーバの内容を収集し検索するのロボットが運用されているが、対象があまりにも広く、収集すべきWWWサーバの数が多いため、かならずしも、生物系研究資材サーバのデータすべてが検索できるわけではなく、検索できたとしても、研究以外の情報を多く含むなど、検索結果に抜けとノイズが多く、研究に利用することができないのが実情であった。
そこで、本研究では、インターネット上で提供されているWWWサーバから、研究資材データベースを選択的に収集し、効率的に生物系研究資材情報を収集するロボットのプロトタイプシステムを開発し、充実しつつある生物系研究資材データを検索しやすくすることを目標とする。
一般のロボット: 既存のロボットサーチエンジンを利用すると、 全データを集めようとするため 1)生物系以外のデータが含まれる →研究以外の情報が混入しノイズが多い 2)数が多くて、必要な生物系データを 取りこぼしている 生物系ロボット: 生物系ロボットサーチエンジンを運用できれば、 生物系研究専用のため 1)コンパクトでノイズがない 2)必要なデータが全部そろう 3)個別のサーバに、検索機能を持つ必要がない →パソコンサーバで簡単にデータベースの発信ができる 試験システムで成功すれば、公的機関で実運用、 生物系以外の他の分野にも適用可能なお、ここで開発するプロトタイプは、ロボットシステムの規模を拡大するだけで、他の分野にも応用が可能で、広く、科学技術分野のデータベース検索ロボットシステムとして利用できるものと思われる。
平成9年度は、研究に用いるロボットシステムの調査とその基本設計など、研究環境を整備することが目標である。
現在インターネットで稼働している代表的な既存ロボットシステムのうち、生物系研究資材データの収録・検索に用いることができ、導入可能なものを選定した。
このロボットシステムをインストールし、試験用データを持つLAN内のサーバからデータ収集を行い、性能の検討を行った。また、インターネットのWWWサーバから、生物系研究資材データを持つサーバの候補を選び、それらから試験的データ収集を行うことで、このロボットの生物系研究資材データ収集への適用の可能性の調査を行った。
現段階では、今回導入したロボットの試運転、収集の試験環境ができたところで、実際に、予定したデータ収集は完了しておらず、また、それらのデータを使った検索のテストを行うまでには至らなかった。
WWWの検索ロボットシステムは、大きく2つの部分で構成されている。1つは、データ収集を行う部分。もう一つは、収集したデータに対し、検索を行う部分である。これらについて、既存ロボットシステムの調査をおこなったところ、1997年末現在で、WebPageの自動収集ソフトウエア(スパイダー)は、5タイプ(Indexing, Maintenance, Mirror, Search, WebMapping)、156種、4プラットフォームあることがわかった。また、収集した日本語を含むデータを検索するために使われる、日本語全文検索エンジンソフトウェア、3タイプ、46種、3プラットフォーム存在することがわかった。これらの中から、既存特定分野に関するデータ収集と検索ロボットとして運用実績のある、松下製のロボットの導入を行った。
まず、このロボットがもれなくデータを収集できるかどうかを、データ取得途中で変更が起らないCD−ROMに記録したデータをサーバに持たせ、テストを行った。テストの結果は良好だったので、以下のWWW生物情報資源についてデータ収集を開始した。
データベース検索 細胞&遺伝子コレクション ATCC (American Type Culture Collection) http://www.atcc.org/catalogs.html ATCC (American Type Culture Collection):Recombinant http://www.atcc.org/catalogs/recomb.html ATCC (American Type Culture Collection):Others http://www.atcc.org/catalogs/catalogs.html FGSC (Fungal Genetics Stock Center) http://www.kumc.edu/research/fgsc/main.html JCRB (Japan Cancer Research Resources Bank):Gene Bank http://www.nih.go.jp/yoken/genebank/ JCRB (Japan Cancer Research Resources Bank):Cell Bank http://www.nihs.go.jp/cellbank/wwwjcrb.html 培養生物世界データセンター(WDCM) http://wdcm.nig.ac.jp/ JCM (Japan Collection of Microorganisms) http://www.jcm.riken.go.jp/ JFCC (Japan Federation for Culture Collections) http://wdcm.nig.ac.jp/wdcm/JFCC.html クローニングベクターコレクション http://shigen.lab.nig.ac.jp/cvector.html Phabagen vector database http://www.cbs.knaw.nl/phabagen/search_pdb.html 統合データベース DBGET (ゲノムネット) http://www.genome.ad.jp/dbget/dbget.links.html SRS (Network Browser for Databanks in Molecular Biology) http://www.seqnet.dl.ac.uk/srs/srsc/ EBI (European Bioinformatics Institute) http://www.ebi.ac.uk/queries/queries.html Entrez (NCBI) http://www.ncbi.nlm.nih.gov/Entrez/ Entrez (NCBI):Nucleotide http://www.ncbi.nlm.nih.gov/Entrez/nucleotide.html Entrez (NCBI):Protein http://www.ncbi.nlm.nih.gov/Entrez/protein.html Entrez (NCBI):PubMED http://www.ncbi.nlm.nih.gov/PubMed/ KEGG (Kyoto Encyclopedia of Genes and Genomes) http://www.genome.ad.jp/kegg/kegg.html 核酸&タンパク質 Codon Table http://www.kazusa.or.jp/java/codon_table/ CUTG (コドン使用テーブル) http://www.dna.affrc.go.jp/~nakamura/CUTG.html DDBJ/GenBank Daily Updates http://watson.nih.go.jp/new/latest.html EPD:ゲノムネット http://www.genome.ad.jp/htbin/www_bfind?epd dbEST (Expressed Sequence Tags) http://www.ncbi.nlm.nih.gov/dbEST/ OMIM (Online Mendelian Inheritance in Man) http://www3.ncbi.nlm.nih.gov/Omim/ OPD (Oligonucleotide Probe Database) http://www.cme.msu.edu/OPD/ REBASE (制限酵素データベース) http://www.neb.com/rebase/rebase.html RDP (リボゾームデータベースプロジェクト) http://www.cme.msu.edu/RDP/ The rRNA WWW Server http://rrna.uia.ac.be/ TRANSFAC http://transfac.gbf-braunschweig.de/TRANSFAC/ TRRD (転写調節部位データベース) http://www.bionet.nsc.ru/TRRD/ Vector db http://www.atcg.com/vectordb/ SAKURA (DDBJ DNA データ登録システム) http://sakura.ddbj.nig.ac.jp/Welcome-j.html AutoDep (PDB data submission) http://www.pdb.bnl.gov:8080/ QUEST http://siva.cshl.org/ Danish Centre for Human Genome Research http://biobase.dk/cgi-bin/celis/ The AAA Superfamily http://yeamob.pci.chemie.uni-tuebingen.de/ EC-Enzyme (an enzyme classification database) http://www.bis.med.jhmi.edu/Dan/proteins/ec-enzyme.html Histo http://histo.cryst.bbk.ac.uk/ Molecules R US (PDBデータベース検索) http://molbio.info.nih.gov/cgi-bin/pdb/ NRL_3D (a sequence-structure database) http://www.bis.med.jhmi.edu/Dan/proteins/nrl3d.html OWL http://www.biochem.ucl.ac.uk/bsm/dbbrowser/OWL/OWL.html PEP-LEXICON (オリゴペプチドの機能予測) http://www.fqs.co.jp/CCS/OLIGO/ PDB (Protein Data Bank) http://www.pdb.bnl.gov/ IVR http://genzi.virus.kyoto-u.ac.jp/Software/Pfam/top.html Sanger Center http://www.sanger.ac.uk/Pfam/ PROSITE http://www.expasy.ch/sprot/prosite.html SCOP (Structural Classification of Proteins) http://scop.mrc-lmb.cam.ac.uk/scop/ SWISS-PROT http://www.expasy.ch/sprot/sprot-top.html TagIdent http://www.expasy.ch/www/guess-prot.html GDB (The Genome Database) http://www.gdb.org/ Genome Information Broker for Microbial Genomes http://mol.genes.nig.ac.jp/gib/ Genome Navigator http://www.mpimg-berlin-dahlem.mpg.de/~andy/GN/ PEDANT http://pedant.mips.biochem.mpg.de/frishman/pedant.html AFDB (The Archaeoglobus fulgidusGenome Database) http://www.tigr.org/tdb/mdb/afdb/afdb.html 家畜ゲノムデータベース http://ws4.niai.affrc.go.jp/jgbase2.html Java-based clickable map http://ws4.niai.affrc.go.jp/dbsearch2/java/linkage/jgbase.html AaeDB (Aedes aegypti genomic database) http://klab.agsci.colostate.edu/acedb/AaeDB-acedb.html BBDB (The Borrelia burgdorferi Genome Database) http://www.tigr.org/tdb/mdb/bbdb/bbdb.html CyanoBase http://www.kazusa.or.jp/cyano/cyano.html Genome Project http://www.genetics.wisc.edu/ CGSC (Genetic Stock Center) http://cgsc.biology.yale.edu/ EcoCyc (Encyclopedia of Genes and Metabolism) http://www.ai.sri.com/ecocyc/server.html The E. coli Index http://sun1.bham.ac.uk/bcm4ght6/res.html E. coli WWW Home Page http://mol.genes.nig.ac.jp/ecoli/ Escherichia coli データバンク http://genome4.aist-nara.ac.jp/ FlyBase http://morgan.harvard.edu/ HPDB (The Helicobacter pylori Genome Database) http://www.tigr.org/tdb/mdb/hpdb/hpdb.html HIDB (The Haemophilus influenzae Rd Genome Database) http://www.tigr.org/tdb/mdb/hidb/hidb.html HIV Database (Los Alamos Natl. Inst.) http://hiv-web.lanl.gov/ Methanobacterium thermoautotrophicum http://www.genomecorp.com/htdocs/sequences/methanobacter/abstract.html MGI (Mouse Genome Informatics) http://mgd.niai.affrc.go.jp/ MJDB (The Methanococcus jannaschii Genome Database) http://www.tigr.org/tdb/mdb/mjdb/mjdb.html MycDB (Mycobacterium database) http://kiev.physchem.kth.se/MycDB.html MGDB (The Mycoplasma genitalium Genome Database) http://www.tigr.org/tdb/mdb/mgdb/mgdb.html MYCOPLASMA PNEUMONIAE GENOME PROJECT http://www.zmbh.uni-heidelberg.de/M_pneumoniae/MP_Home.html Protist Databases http://urchin1.biol.metro-u.ac.jp/WWW/PDB/menu.html Pseudomonas Genome Project http://www.pseudomonas.com/ Pyrococcus horikoshii OT3 http://www.bio.nite.go.jp/E-home/ot3db-e.html RATMAP http://ratmap.gen.gu.se/ SGD (Saccharomyces Genome Database) http://genome-www.stanford.edu/Saccharomyces/ The Yeast Genome Project http://speedy.mips.biochem.mpg.de/mips/yeast/ Streptomyces coelicolor A3(2) http://www.uea.ac.uk/nrp/jic/gstrgenome.htm YPD (酵母のタンパク質データベース) http://siva.cshl.org/#ypd 化合物 薬剤情報 http://koto2.kpu-m.ac.jp/NetDrug.html ChemFinder http://chemfinder.camsoft.com/ ChemSource http://chemsource.jst.go.jp/ DrugDB http://pharminfo.com/drugdb/db_mnu.html GINC (Global Information Network on Chemicals) http://db.nihs.go.jp/ Klotho: Biochemical Compounds Declarative Database http://www.ibc.wustl.edu/moirai/klotho/ NIST Chemistry WebBook http://webbook.nist.gov/chemistry/ 文献 Actinomycetes Related Articles Appeared in PubMed http://www.nih.go.jp/~jun/act/articles/ AIDS特許データベース http://app.cnidr.org/ 日本国内図書館OPACリスト (On-line Public Access Catalog) List http://ss.cc.affrc.go.jp/ric/opac/opac.html COPAC http://copac.ac.uk/copac/ PubMED http://www.ncbi.nlm.nih.gov/PubMed/ GratefulMed http://igm.nlm.nih.gov/ HealthGate http://www.healthgate.com/HealthGate/MEDLINE/search.shtml HealthWorld http://www.healthworld.com/library/search/medline.htm その他 DDBJ http://sakura.ddbj.nig.ac.jp/uniTax.html NCBI http://www.ncbi.nlm.nih.gov/Taxonomy/taxonomyhome.html PDQ http://www.ncc.go.jp/cnet.html PUMA http://www.mcs.anl.gov/home/compbio/PUMA/Production/puma_graphics.html Transgenic and Targeted Mutant Animal Database http://www.ornl.gov/TechResources/Trans/hmepg.html Visible Human http://www.nlm.nih.gov/research/visible/visible_human.htmlデータの収集は、終わっていないが、検索システムの導入は済み、収集が終わっている一部のデータについては、インターネットの次のURLで、だれでも検索テストができるようになっている。
試験ロボット http://bio-crawler.dna.affrc.go.jp/
「LAN内に模擬サーバを置き、そこからデータの収集を行う」ことについては、平成10年2月中にテストを行い、正常に検索ができることを確認したが、次の目標である、「限られた少数のインターネットサイトからの収集」については、まだ成功していない。これには、収集サイトとして指定した中に膨大な生物系研究資材データを持つインターネットサイトがあるためと思われる。これらについては、一般のサーチエンジンのロボットは、ルートページ(トップページ)から数層のレベルまでしかデータ収集を行っていないため、データ収集を途中で放棄しているのではないかと思われる。今回のテストで、どこまでデータ収集を続ければよいか、結論を出すことはできないが、最初ということもあり、先方に、迷惑をかけていないか検討することは必要と考える。
実際に10,000ページを越えているサイトは下記の3つ。
GDB (The Genome Database) URL: http://www.gdb.org/ 培養生物世界データセンター(WDCM) URL: http://wdcm.nig.ac.jp/ JCM (Japan Collection of Microorganisms) URL: http://www.jcm.riken.go.jp/来年度は、本度の成果を踏まえ、実際に検索がうまく行くかどうかのチェックと共に、さらに多くのインターネットサイトを対象に、実際にロボットシステムを動作させ、検索が実用になるかどうかの検討を行う必要がある。そして、これらに必要なシステムの開発と改修を続ける。さらに、収集対象とすべき「研究資材のデータベース」を調査し、データ量の見積りも行う必要がある。
また、複数のデータ収集ロボットや、検索専門のサイトに対して、統合的に検索が行なえるシステムの開発に向け、本プロトタイプが対象とする個別検索サーバの1つとして組み入れられるよう、システムの開発と改修を続ける必要があると思われる。
学術データベースの為のサーチエンジン・マトリクスエンジン, 日本動物学会ワークショップ 「インターネットにおける生物データベースの現状と展望」(講演要旨) URL: http://mac2032.fujimi.hosei.ac.jp/WWW/WorkShop/ugawa.html (1997)
生物系データベースのインターネットによる共有, 筑波ネットワーク研究 Vol.4, P.43-46, ISSN 1341-254X, 平成9年8月(学会(誌)発表)
バイオデータベースにおけるネットワークを利用した研究支援環境, 第8回コンピュータサイエンス学会総会、1997年10月(講演要旨) URL: http://www.dna.affrc.go.jp/~ugawa/19971018/ (1997)
Mirror Servers over the APAN for Genome Science, Proceedings of The International Workshop on Asia-Pacific area advanced research information sharing technology, Internet Workshop '98 (IWS'98) 3-4 March 1998 Tsukuba Dai-ichi Hotel, Tsukuba, Ibaraki, Japan URL: http://www.dna.affrc.go.jp/~ugawa/19980303/ (1998)
URL: http://bio-crawler.dna.affrc.go.jp/ URL: http://bio-crawler.dna.affrc.go.jp/log/ URL: ftp://ugawa@bio-crawler.dna.affrc.go.jp/home1/macse/README.log URL: ftp://ugawa@bio-crawler.dna.affrc.go.jp/home1/macse/db_j.list