調査研究成果報告書

[研究題目]

「生物系研究資材データ収集ロボットに関する研究」

[担当研究者]

(所属)農業生物資源研究所・遺伝資源第二部DNA管理情報科

(氏名)鵜川 義弘

[研究目標]

 本研究では、インターネット上で提供されている種々雑多なWWWサーバから、生物系研究資材情報を選択的かつ効率的に収集し、研究者にノイズのない研究情報を提供するためのデータ収集ロボットを試作することを目的とし、このために必要な技術開発と試験研究を行う。

 研究資材情報もその多くがWWWサーバで提供されつつある。WWWによるデータベースの提供は、分散した個別の研究者による発信が容易であるが、それゆえ、データのフォーマットが一定でなく、そのままでは、既存のデータベースのように、一箇所で、一定の枠に取り込んで検索することができない。また、データベースがパソコン等のWWWサーバで提供される場合には、そのサーバ自体で検索機能を持っていないことが多いので、データベースを利用するものにとって必ずしも便利ではなかった。

 一方、現在一般向けに、Altavista、Goo、Infoseek、Lycos、Webcrawler等、インターネット内のWWWサーバの内容を収集し検索するのロボットが運用されているが、対象があまりにも広く、収集すべきWWWサーバの数が多いため、かならずしも、生物系研究資材サーバのデータすべてが検索できるわけではなく、検索できたとしても、研究以外の情報を多く含むなど、検索結果に抜けとノイズが多く、研究に利用することができないのが実情であった。

 そこで、本研究では、インターネット上で提供されているWWWサーバから、研究資材データベースを選択的に収集し、効率的に生物系研究資材情報を収集するロボットのプロトタイプシステムを開発し、充実しつつある生物系研究資材データを検索しやすくすることを目標とする。

 

一般のロボット:
既存のロボットサーチエンジンを利用すると、
 全データを集めようとするため
 1)生物系以外のデータが含まれる
  →研究以外の情報が混入しノイズが多い
 2)数が多くて、必要な生物系データを
   取りこぼしている
 
生物系ロボット:
生物系ロボットサーチエンジンを運用できれば、
 生物系研究専用のため
 1)コンパクトでノイズがない
 2)必要なデータが全部そろう
 3)個別のサーバに、検索機能を持つ必要がない
  →パソコンサーバで簡単にデータベースの発信ができる
 
試験システムで成功すれば、公的機関で実運用、
生物系以外の他の分野にも適用可能

 なお、ここで開発するプロトタイプは、ロボットシステムの規模を拡大するだけで、他の分野にも応用が可能で、広く、科学技術分野のデータベース検索ロボットシステムとして利用できるものと思われる。

 平成9年度は、研究に用いるロボットシステムの調査とその基本設計など、研究環境を整備することが目標である。

[研究成果の概要]

 現在インターネットで稼働している代表的な既存ロボットシステムのうち、生物系研究資材データの収録・検索に用いることができ、導入可能なものを選定した。

 このロボットシステムをインストールし、試験用データを持つLAN内のサーバからデータ収集を行い、性能の検討を行った。また、インターネットのWWWサーバから、生物系研究資材データを持つサーバの候補を選び、それらから試験的データ収集を行うことで、このロボットの生物系研究資材データ収集への適用の可能性の調査を行った。

 現段階では、今回導入したロボットの試運転、収集の試験環境ができたところで、実際に、予定したデータ収集は完了しておらず、また、それらのデータを使った検索のテストを行うまでには至らなかった。

[研究成果の詳細内容]

 WWWの検索ロボットシステムは、大きく2つの部分で構成されている。1つは、データ収集を行う部分。もう一つは、収集したデータに対し、検索を行う部分である。これらについて、既存ロボットシステムの調査をおこなったところ、1997年末現在で、WebPageの自動収集ソフトウエア(スパイダー)は、5タイプ(Indexing, Maintenance, Mirror, Search, WebMapping)、156種、4プラットフォームあることがわかった。また、収集した日本語を含むデータを検索するために使われる、日本語全文検索エンジンソフトウェア、3タイプ、46種、3プラットフォーム存在することがわかった。これらの中から、既存特定分野に関するデータ収集と検索ロボットとして運用実績のある、松下製のロボットの導入を行った。

 まず、このロボットがもれなくデータを収集できるかどうかを、データ取得途中で変更が起らないCD−ROMに記録したデータをサーバに持たせ、テストを行った。テストの結果は良好だったので、以下のWWW生物情報資源についてデータ収集を開始した。

 

データベース検索
  細胞&遺伝子コレクション
    ATCC (American Type Culture Collection)                     http://www.atcc.org/catalogs.html
    ATCC (American Type Culture Collection):Recombinant         http://www.atcc.org/catalogs/recomb.html
    ATCC (American Type Culture Collection):Others              http://www.atcc.org/catalogs/catalogs.html
    FGSC (Fungal Genetics Stock Center)                         http://www.kumc.edu/research/fgsc/main.html
    JCRB (Japan Cancer Research Resources Bank):Gene Bank       http://www.nih.go.jp/yoken/genebank/
    JCRB (Japan Cancer Research Resources Bank):Cell Bank       http://www.nihs.go.jp/cellbank/wwwjcrb.html
    培養生物世界データセンター(WDCM)                            http://wdcm.nig.ac.jp/
    JCM (Japan Collection of Microorganisms)                    http://www.jcm.riken.go.jp/
    JFCC (Japan Federation for Culture Collections)             http://wdcm.nig.ac.jp/wdcm/JFCC.html
    クローニングベクターコレクション                            http://shigen.lab.nig.ac.jp/cvector.html
    Phabagen vector database                                    http://www.cbs.knaw.nl/phabagen/search_pdb.html
 
  統合データベース
    DBGET (ゲノムネット)                                        http://www.genome.ad.jp/dbget/dbget.links.html
    SRS (Network Browser for Databanks in Molecular Biology)    http://www.seqnet.dl.ac.uk/srs/srsc/
    EBI (European Bioinformatics Institute)                     http://www.ebi.ac.uk/queries/queries.html
    Entrez (NCBI)                                               http://www.ncbi.nlm.nih.gov/Entrez/
    Entrez (NCBI):Nucleotide                                    http://www.ncbi.nlm.nih.gov/Entrez/nucleotide.html
    Entrez (NCBI):Protein                                       http://www.ncbi.nlm.nih.gov/Entrez/protein.html
    Entrez (NCBI):PubMED                                        http://www.ncbi.nlm.nih.gov/PubMed/
    KEGG (Kyoto Encyclopedia of Genes and Genomes)              http://www.genome.ad.jp/kegg/kegg.html
 
  核酸&タンパク質
    Codon Table                                                 http://www.kazusa.or.jp/java/codon_table/
    CUTG (コドン使用テーブル)                                   http://www.dna.affrc.go.jp/~nakamura/CUTG.html
    DDBJ/GenBank Daily Updates                                  http://watson.nih.go.jp/new/latest.html
    EPD:ゲノムネット                                            http://www.genome.ad.jp/htbin/www_bfind?epd
    dbEST (Expressed Sequence Tags)                             http://www.ncbi.nlm.nih.gov/dbEST/
    OMIM (Online Mendelian Inheritance in Man)                  http://www3.ncbi.nlm.nih.gov/Omim/
    OPD (Oligonucleotide Probe Database)                        http://www.cme.msu.edu/OPD/
    REBASE (制限酵素データベース)                               http://www.neb.com/rebase/rebase.html
    RDP (リボゾームデータベースプロジェクト)                    http://www.cme.msu.edu/RDP/
    The rRNA WWW Server                                         http://rrna.uia.ac.be/
    TRANSFAC                                                    http://transfac.gbf-braunschweig.de/TRANSFAC/
    TRRD (転写調節部位データベース)                             http://www.bionet.nsc.ru/TRRD/
    Vector db                                                   http://www.atcg.com/vectordb/
    SAKURA (DDBJ DNA データ登録システム)                        http://sakura.ddbj.nig.ac.jp/Welcome-j.html
    AutoDep (PDB data submission)                               http://www.pdb.bnl.gov:8080/
    QUEST                                                       http://siva.cshl.org/
    Danish Centre for Human Genome Research                     http://biobase.dk/cgi-bin/celis/
    The AAA Superfamily                                         http://yeamob.pci.chemie.uni-tuebingen.de/
    EC-Enzyme (an enzyme classification database)               http://www.bis.med.jhmi.edu/Dan/proteins/ec-enzyme.html
    Histo                                                       http://histo.cryst.bbk.ac.uk/
    Molecules R US (PDBデータベース検索)                        http://molbio.info.nih.gov/cgi-bin/pdb/
    NRL_3D (a sequence-structure database)                      http://www.bis.med.jhmi.edu/Dan/proteins/nrl3d.html
    OWL                                                         http://www.biochem.ucl.ac.uk/bsm/dbbrowser/OWL/OWL.html
    PEP-LEXICON (オリゴペプチドの機能予測)                      http://www.fqs.co.jp/CCS/OLIGO/
    PDB (Protein Data Bank)                                     http://www.pdb.bnl.gov/
    IVR                                                         http://genzi.virus.kyoto-u.ac.jp/Software/Pfam/top.html
    Sanger Center                                               http://www.sanger.ac.uk/Pfam/
    PROSITE                                                     http://www.expasy.ch/sprot/prosite.html
    SCOP (Structural Classification of Proteins)                http://scop.mrc-lmb.cam.ac.uk/scop/
    SWISS-PROT                                                  http://www.expasy.ch/sprot/sprot-top.html
    TagIdent                                                    http://www.expasy.ch/www/guess-prot.html
    GDB (The Genome Database)                                   http://www.gdb.org/
    Genome Information Broker for Microbial Genomes             http://mol.genes.nig.ac.jp/gib/
    Genome Navigator                                            http://www.mpimg-berlin-dahlem.mpg.de/~andy/GN/
    PEDANT                                                      http://pedant.mips.biochem.mpg.de/frishman/pedant.html
    AFDB (The Archaeoglobus fulgidusGenome Database)            http://www.tigr.org/tdb/mdb/afdb/afdb.html
    家畜ゲノムデータベース                                      http://ws4.niai.affrc.go.jp/jgbase2.html
    Java-based clickable map                                    http://ws4.niai.affrc.go.jp/dbsearch2/java/linkage/jgbase.html
    AaeDB (Aedes aegypti genomic database)                      http://klab.agsci.colostate.edu/acedb/AaeDB-acedb.html
    BBDB (The Borrelia burgdorferi Genome Database)             http://www.tigr.org/tdb/mdb/bbdb/bbdb.html
    CyanoBase                                                   http://www.kazusa.or.jp/cyano/cyano.html
    Genome Project                                              http://www.genetics.wisc.edu/
    CGSC (Genetic Stock Center)                                 http://cgsc.biology.yale.edu/
    EcoCyc (Encyclopedia of  Genes and Metabolism)              http://www.ai.sri.com/ecocyc/server.html
    The E. coli Index                                           http://sun1.bham.ac.uk/bcm4ght6/res.html
    E. coli WWW Home Page                                       http://mol.genes.nig.ac.jp/ecoli/
    Escherichia coli データバンク                               http://genome4.aist-nara.ac.jp/
    FlyBase                                                     http://morgan.harvard.edu/
    HPDB (The Helicobacter pylori Genome Database)              http://www.tigr.org/tdb/mdb/hpdb/hpdb.html
    HIDB (The Haemophilus influenzae Rd Genome Database)        http://www.tigr.org/tdb/mdb/hidb/hidb.html
    HIV Database (Los Alamos Natl. Inst.)                       http://hiv-web.lanl.gov/
    Methanobacterium thermoautotrophicum                        http://www.genomecorp.com/htdocs/sequences/methanobacter/abstract.html
    MGI (Mouse Genome Informatics)                              http://mgd.niai.affrc.go.jp/
    MJDB (The Methanococcus jannaschii Genome Database)         http://www.tigr.org/tdb/mdb/mjdb/mjdb.html
    MycDB (Mycobacterium database)                              http://kiev.physchem.kth.se/MycDB.html
    MGDB (The Mycoplasma genitalium Genome Database)            http://www.tigr.org/tdb/mdb/mgdb/mgdb.html
    MYCOPLASMA PNEUMONIAE GENOME PROJECT                        http://www.zmbh.uni-heidelberg.de/M_pneumoniae/MP_Home.html
    Protist Databases                                           http://urchin1.biol.metro-u.ac.jp/WWW/PDB/menu.html
    Pseudomonas Genome Project                                  http://www.pseudomonas.com/
    Pyrococcus horikoshii OT3                                   http://www.bio.nite.go.jp/E-home/ot3db-e.html
    RATMAP                                                      http://ratmap.gen.gu.se/
    SGD (Saccharomyces Genome Database)                         http://genome-www.stanford.edu/Saccharomyces/
    The Yeast Genome Project                                    http://speedy.mips.biochem.mpg.de/mips/yeast/
    Streptomyces coelicolor A3(2)                               http://www.uea.ac.uk/nrp/jic/gstrgenome.htm
    YPD (酵母のタンパク質データベース)                          http://siva.cshl.org/#ypd
  化合物
    薬剤情報                                                    http://koto2.kpu-m.ac.jp/NetDrug.html
    ChemFinder                                                  http://chemfinder.camsoft.com/
    ChemSource                                                  http://chemsource.jst.go.jp/
    DrugDB                                                      http://pharminfo.com/drugdb/db_mnu.html
    GINC (Global Information Network on Chemicals)              http://db.nihs.go.jp/
    Klotho: Biochemical Compounds Declarative Database          http://www.ibc.wustl.edu/moirai/klotho/
    NIST Chemistry WebBook                                      http://webbook.nist.gov/chemistry/
  文献
    Actinomycetes Related Articles Appeared in PubMed           http://www.nih.go.jp/~jun/act/articles/
    AIDS特許データベース                                        http://app.cnidr.org/
    日本国内図書館OPACリスト (On-line Public Access Catalog) List       http://ss.cc.affrc.go.jp/ric/opac/opac.html
    COPAC                                                       http://copac.ac.uk/copac/
    PubMED                                                      http://www.ncbi.nlm.nih.gov/PubMed/
    GratefulMed                                                 http://igm.nlm.nih.gov/
    HealthGate                                                  http://www.healthgate.com/HealthGate/MEDLINE/search.shtml
    HealthWorld                                                 http://www.healthworld.com/library/search/medline.htm
  その他                        
    DDBJ                                                        http://sakura.ddbj.nig.ac.jp/uniTax.html
    NCBI                                                        http://www.ncbi.nlm.nih.gov/Taxonomy/taxonomyhome.html
    PDQ                                                         http://www.ncc.go.jp/cnet.html
    PUMA                                                        http://www.mcs.anl.gov/home/compbio/PUMA/Production/puma_graphics.html
    Transgenic and Targeted Mutant Animal Database              http://www.ornl.gov/TechResources/Trans/hmepg.html
    Visible Human                                               http://www.nlm.nih.gov/research/visible/visible_human.html
 

 データの収集は、終わっていないが、検索システムの導入は済み、収集が終わっている一部のデータについては、インターネットの次のURLで、だれでも検索テストができるようになっている。

 試験ロボット http://bio-crawler.dna.affrc.go.jp/

[考察]

 「LAN内に模擬サーバを置き、そこからデータの収集を行う」ことについては、平成10年2月中にテストを行い、正常に検索ができることを確認したが、次の目標である、「限られた少数のインターネットサイトからの収集」については、まだ成功していない。これには、収集サイトとして指定した中に膨大な生物系研究資材データを持つインターネットサイトがあるためと思われる。これらについては、一般のサーチエンジンのロボットは、ルートページ(トップページ)から数層のレベルまでしかデータ収集を行っていないため、データ収集を途中で放棄しているのではないかと思われる。今回のテストで、どこまでデータ収集を続ければよいか、結論を出すことはできないが、最初ということもあり、先方に、迷惑をかけていないか検討することは必要と考える。

実際に10,000ページを越えているサイトは下記の3つ。

GDB (The Genome Database)
 URL: http://www.gdb.org/
培養生物世界データセンター(WDCM)
 URL: http://wdcm.nig.ac.jp/
JCM (Japan Collection of Microorganisms)
 URL: http://www.jcm.riken.go.jp/

 来年度は、本度の成果を踏まえ、実際に検索がうまく行くかどうかのチェックと共に、さらに多くのインターネットサイトを対象に、実際にロボットシステムを動作させ、検索が実用になるかどうかの検討を行う必要がある。そして、これらに必要なシステムの開発と改修を続ける。さらに、収集対象とすべき「研究資材のデータベース」を調査し、データ量の見積りも行う必要がある。

 また、複数のデータ収集ロボットや、検索専門のサイトに対して、統合的に検索が行なえるシステムの開発に向け、本プロトタイプが対象とする個別検索サーバの1つとして組み入れられるよう、システムの開発と改修を続ける必要があると思われる。

[参考文献]

  1. 鵜川義弘、
    学術データベースの為のサーチエンジン・マトリクスエンジン,
    日本動物学会ワークショップ
    「インターネットにおける生物データベースの現状と展望」(講演要旨)
    URL: http://mac2032.fujimi.hosei.ac.jp/WWW/WorkShop/ugawa.html (1997)
  2. 鵜川義弘、月井雄二、木原 章、
    生物系データベースのインターネットによる共有, 
    筑波ネットワーク研究 Vol.4, P.43-46, ISSN 1341-254X, 平成9年8月(学会(誌)発表)
  3. 鵜川義弘、
    バイオデータベースにおけるネットワークを利用した研究支援環境,
    第8回コンピュータサイエンス学会総会、1997年10月(講演要旨)
    URL: http://www.dna.affrc.go.jp/~ugawa/19971018/ (1997)
  4. Ugawa Y., Gilbert, D.,
    Mirror Servers over the APAN for Genome Science,
    Proceedings of The International Workshop on Asia-Pacific area advanced 
    research information sharing technology, Internet Workshop '98 (IWS'98) 
    3-4 March 1998 Tsukuba Dai-ichi Hotel, Tsukuba, Ibaraki, Japan
    URL: http://www.dna.affrc.go.jp/~ugawa/19980303/ (1998)
  5. サーバーログ他
    URL: http://bio-crawler.dna.affrc.go.jp/
    URL: http://bio-crawler.dna.affrc.go.jp/log/
    URL: ftp://ugawa@bio-crawler.dna.affrc.go.jp/home1/macse/README.log
    URL: ftp://ugawa@bio-crawler.dna.affrc.go.jp/home1/macse/db_j.list