平成16年度日本学術振興会未来開拓学術研究推進事業
研究成果報告書概要


研究推進分野名   ゲノム研究
研究プロジェクト名 生命システム情報統合データベースの構築とゲノム情報理学の創成
(英文名) Biological Systems Database and Genome Information Science
研究期間 平成12年度 〜 平成16年度

プロジェクトリーダー 研究経費 総額1,322,200千円
氏名・所属研究機関
所属部局・職名
金久 實・京都大学
化学研究所・教授
内訳 平成12年度  242,000 千円
平成13年度  266,200 千円
平成14年度  267,000 千円
平成15年度  285,000 千円
平成16年度  262,000 千円
  1. 研究組織(コアメンバー及び研究協力者)
  2. 氏名 所属機関・部局・職 研究プロジェクトでの役割分担
    五斗 進 京都大学・化学研究所・助教授 解析システム開発の統括、ケミカルユニバース解析
    川島 秀一 京都大学・化学研究所・助手 発現データ解析、ジーンユニバース解析
    中谷 明弘 京都大学・化学研究所・助手 アルゴリズム開発、ジーンユニバース解析
    奥野 恭史 京都大学・化学研究所・助手 化合物・化学反応の知識収集、ケミカルユニバース解析(平成15年4月1日〜平成16年3月31日)
    服部 正泰 京都大学・化学研究所・助手 化合物・化学反応の知識収集、ケミカルユニバース解析(平成16年4月1日〜平成17年3月31日)
    阿久津 達也 京都大学・化学研究所・教授 アルゴリズム開発、プロテインネットワーク解析(平成15年4月1日〜平成17年3月31日)
    上田 展久 京都大学・化学研究所・助手 アルゴリズム開発、ケミカルユニバース解析(平成15年4月1日〜平成16年3月31日)
  3. 研究計画の概要(簡潔に記入)
  4.  生命システム情報統合データベースKEGGは旧文部省ヒトゲノムプログラム第T期の最終年度である1995年に特定領域研究「ゲノム情報」の下で開始し、第U期に特定領域研究「ゲノムサイエンス」で発展させてきたデータベースである。2000年に開始された本研究プロジェクトでの新しいKEGGは、ネットワーク情報(PATHWAY)、ゲノム情報(GENES)、ケミカル情報(LIGAND)を統合した「生命システム情報統合データベース」と位置づけ、以下の計画を実施した。(1) PATHWAYデータベースでは代謝系をさらに充実させると同時に、様々な細胞プロセスやヒトの病気に関する知識を集約した。またパスウェイマップのXML化も行った。(2) GENESデータベースではオーソログ遺伝子グループKO (KEGG Orthology) の体系化を行い、遺伝子アノテーションとパスウェイ再構築に基づく高次機能解読の自動化を実現した。(3) LIGANDデータベースでは化合物と化学反応に加えて糖鎖の情報を蓄積し、化学構造比較アルゴリズムを開発して化合物や糖鎖の類似構造検索を可能とした。また生体内反応をRC (Reaction Classification) として体系化し、EC番号づけの自動化を実現した。(4) 幅広い基盤的なデータベースであるKEGGを個々のニーズに応じて利用できるよう、標準的なプログラミングインターフェースKEGG APIを開発し提供した。(5) ケミカル物質のネットワークは反応のネットワークでもあり、それを触媒する酵素遺伝子のネットワークでもあることから、ゲノムとケミストリーを融合した様々な方法論を開拓し、ゲノムと環境との相互作用を理解するゲノム情報理学の研究領域を創成した。
  5. 研究目的(研究プロジェクトが当初目指した開発、立証、解析、確立等の目的を箇条書きで簡潔に記入)
  6.  ゲノム研究およびプロテオーム研究の進展とともに、大量の配列情報、発現情報、変異情報、立体構造情報等が系統的に得られるようになり、細胞・個体・生態系といった異なるレベルで生命の原理を明らかにする基礎研究、ならびにゲノム情報を有効利用する応用研究等、バイオインフォマティクス研究の重要性が高まっている。しかしながら、従来のように個々の分子や遺伝子を対象とした解析方法あるいはデータベースだけでは、ゲノムの情報を真の意味で解読すること、すなわち生命システムとしての機能や有用性を解読することは不可能である。これまでに蓄積された生命科学の膨大な知識を体系化し、自然界の法則、とくに物質間相互作用や化学反応に関する法則と関連づけて、生命のシステムを理解していく必要がある。そこで本研究プロジェクトでは、
    (1) 細胞レベルでの生命システムの機能に関する知識を分子間相互作用ネットワークの情報(PATHWAYデータベース)としてコンピュータ化し、ゲノム解析がもたらす遺伝子・タンパク質の情報(GENESデータベース)、ならびに生体内化学反応と関与する化学物質の情報(LIGANDデータベース)を統合した「生命システム情報統合データベース」KEGGを構築すること
    (2) 生命科学、情報科学、物理学、化学の分野を包含する「ゲノム情報理学」の研究領域を創成し、ゲノムから生命のシステムを、さらには自然界のダイナミックスを理解する研究を開拓することを目的として研究を行う。
  7. 研究成果の概要
  8. 4−1 研究計画、目的に対する成果(なお、研究目的が達成できなかったテーマについては、その理由及び今後の展開を記入)
    (1) データベース構築の成果
     KEGGはネットワーク情報(PATHWAY)、ゲノム情報(GENES)、ケミカル情報(LIGAND)を統合したデータベースと位置づけて開発を行った。生の実験データを蓄積することよりも、そこから得られる知識を集約することに焦点を置いた。主な成果は以下の通りである。
    • ネットワーク情報に関しては、代謝系中心のKEGGからシグナル伝達をはじめとした様々な制御系を含むKEGGへと発展させた。またKEGGパスウェイマップのXML化を実現し、パスウェイデータベースの国際標準となった。
    • ゲノム情報に関しては、KEGGパスウェイに対応づけてオーソログ遺伝子グループKOを定義し、ゲノム中の遺伝子にKOづけを行うことで、パスウェイ再構築とそれに伴う高次機能解釈を可能とした。KOづけの自動化システムを広く提供することで、遺伝子アノテーションにおいてもKEGGは国際標準となると考えている。
    • ケミカル情報に関しては、化合物・化学反応に加えて糖鎖の構造情報をデータベース化した。生体内化学反応を基質と生成物の間の構造変化パターンで分類したRCを開発し、これを用いてEC番号づけの自動化を実現した。
    • KEGGを個別の研究目的にカスタマイズして利用できるよう、KEGG APIと名付けたプログラミングインターフェースを開発し提供した。
    (2) ゲノム情報理学研究の成果
     本研究では、生命システムのコンピュータ表現(オントロジー)について、ネステッドグラフ(階層グラフ)とライングラフの概念を導入した。ネステッドグラフは、上記のKEGGのパスウェイ階層表現に使われ、ゲノムからパスウェイ再構築と高次機能解釈を行う方法論として実用化した。もう1つの概念であるライングラフとはノードとエッジを入れ替えたグラフのことで、代謝系において酵素(遺伝子)ネットワークと化合物ネットワークの相補性に関する概念である。これは以下のゲノム情報理学研究におけるゲノムとケミストリーの融合の基礎となった。
    • 化合物の化学構造と糖鎖構造に関して、KCF (KEGG Chemical Function) と名付けたあたらしい構造比較アルゴリズムやモチーフ抽出のアルゴリズムを開発した。
    • 既知の酵素反応を基質と生成物の2項関係のセットに分解し、それぞれでどのような構造変化があったかを構造比較アルゴリズムで判定し、分類することで、RC (Reaction Classification) の体系化を行った。これによりEC番号づけの自動化を実現することができた。
    • ゲノム中の遺伝子レパートリーから生物が生産し得る化合物を予測したり、逆に天然物の構造からゲノム中の遺伝子や合成経路を予測したり、ゲノムとケミストリーを融合した研究を開拓した。これはゲノムと環境との相互作用を理解するゲノム情報理学の研究へと発展しつつある。
    4−2 研究計画、目的外の成果(経緯、状況、展望等を記入)
     研究計画、目的外の成果として特筆すべきことは、以下の国際連携が生まれたことである。
    • 上記のEC番号づけの自動化は、プロジェクトリーダーがメンバーであるIUBMB/IUPACの生化学命名委員会(以前のEC番号命名委員会)に提供した。現在のEC番号づけは酵素を同定した論文に基づき手作業で行われており、新規反応予測を含めたゲノムスケールでの解析にはむいていないため、本研究成果の意義は非常に大きいと考えられる。
    • 糖鎖についても、反応ネットワークを通してゲノム中の遺伝子のレパートリーと、特定の生物種あるいは特定の組織・細胞で発現した糖鎖構造のレパートリーとの対応づけが可能となり、わが国の糖鎖研究コミュニティだけでなく、米国のCFG (Consortium for Functional Glycomics) をはじめ海外の糖鎖研究コミュニティとの国際連携に発展した。
    • 米国ではNIHのロードマップに沿って、NCBIが化合物情報(PubChem)のデータベース化を開始し、KEGGへの連携の呼びかけがあった。これに応じる形でKEGG LIGANDとNCBI PubChemおよびKEGG GENESとNCBI RefSeqの間での連携が進んでいる。
    4−3 研究成果の展望(学問的・学術的なインパクト、新分野の可能性等の今後の展望を具体的に記入)
     2003年秋に発表された米国NIHのロードマップでは、ヒトゲノム解読の次のステップとして、パスウェイ・ネットワーク研究とケミカルゲノミクス研究が新たな重点項目に取り上げられている。KEGGのPATHWAYデータベースとLIGANDデータベースはこのような流れを先取りした先駆的なデータベースであり、国際的に広く認められるようになった。とくにネットワーク情報(PATHWAYデータベース)に関しては国際標準のデータベースとなった。本研究の最終年度には薬物に関する情報を集中的にデータベース化した。薬物は生命システムにゆらぎを与える物質の1つであり、今後はゆらぎ物質とそのターゲットとなる生体内分子の相互作用の観点からデータベース化と情報解析研究を行っていく必要がある。本研究では生体内物質(代謝化合物や糖鎖)に限定し、生体内化学反応ネットワークと通してゲノム情報とケミカル情報の融合を行ったが、本研究の成果は生体外物質を含めた反応ネットワークや相互作用ネットワークへと発展させることが可能である。これにより、本研究で開発してきたバイオインフォマティクス技術を医療や産業で活用することができ、生命システムと環境との相互作用を解析するゲノム情報理学研究への展望を拓くことができたと考えている。
    4−4 本事業の趣旨に鑑み、果たした役割(未来開拓につながるどのような成果が得られたのか、具体的に記入)
     本事業はミレニアムプロジェクトの一貫として行われ、わが国の知的財産権および国際競争力の観点から以下の役割を果たした。
     KEGGを中心としたゲノムネットのWebサイトへのアクセス件数は、本研究プロジェクト開始時に月間200万件であったのが終了時には月間800万件に達し、5年間でKEGGが飛躍的に発展したことを物語っている。アクセス件数の6〜8割は海外からであり、国際的な知的情報基盤としての地位を確立し、同時にわが国の知的財産権を確保した。とくにネットワーク情報(PATHWAYデータベース)は国際標準としての地位を不動のものとした。ゲノム情報(GENESデータベース)に関しては、KOの体系化と高次機能解釈の自動化により、GO (Gene Ontology) にかわる遺伝子アノテーションの標準となりつつある。ケミカル情報(LIGANDデータベース)においてもRCによるEC番号づけの自動化で、生体内化学反応に関する国際標準を目指している。  医療や産業へつながるバイオインフォマティクス技術としては、とくにケミカル情報に関するものが最も進み、化合物・糖鎖の構造比較とパターン抽出、化学構造変化と反応の予測といった技術を開発した。これまでのLIGANDデータベースは生体内の代謝物質が中心であったが、最終年度には薬のような生体外物質にも着目するようになり、データベースおよび情報技術の両面から、創薬研究等の新しい展開の可能性を拓いた。
  9. キーワード
  10. 1.ゲノム   2.プロテオーム   3.バイオインフォマティクス
    4.パスウェイ 5.ネットワーク 6.データベース
    7.オントロジー 8.機能予測 9.ケミカルゲノミクス
  11. 研究成果発表状況
  12. A. 学術雑誌論文(Journal Papers)[査読つきの論文に限ること。]

    全著者名 論文名(招待論文にはInvitedを明記)
    Kanehisa, M. Prediction of higher order functional networks from genomic data.
    学術雑誌名 初めの頁-終わりの頁 発行年(西暦)
    Pharmacogenomics 2   373-385 2001

    全著者名 論文名(招待論文にはInvitedを明記)
    Kanehisa, M., Goto, S., Kawashima, S., and Nakaya, A. The KEGG databases at GenomeNet.
    学術雑誌名 初めの頁-終わりの頁 発行年(西暦)
    Nucleic Acids Res. 30   42-46 2002

    全著者名 論文名(招待論文にはInvitedを明記)
    Goto, S., Okuno, Y., Hattori, M., Nishioka, T. and Kanehisa, M. LIGAND: database of chemical compounds and reactions in biological pathways.
    学術雑誌名 初めの頁-終わりの頁 発行年(西暦)
    Nucleic Acids Res. 30   402-404 2002

    全著者名 論文名(招待論文にはInvitedを明記)
    Kanehisa, M. and Bork, P. Bioinformatics in the post-sequence era. (Invited)
    学術雑誌名 初めの頁-終わりの頁 発行年(西暦)
    Nat. Genet. 33   305-310 2003

    全著者名 論文名(招待論文にはInvitedを明記)
    Park, K.-J. and Kanehisa, M. Prediction of protein subcellular locations by support vector machines using compositions of amino acids and amino acid pairs.
    学術雑誌名 初めの頁-終わりの頁 発行年(西暦)
    Bioinformatics 19   1656-1663 2003

    全著者名 論文名(招待論文にはInvitedを明記)
    Hattori, M., Okuno, Y., Goto, S., and Kanehisa, M. Development of a chemical structure comparison method for integrated analysis of chemical and genomic information in the metabolic pathways.
    学術雑誌名 初めの頁-終わりの頁 発行年(西暦)
    J. Am. Chem. Soc. 125   11853-11865 2003

    全著者名 論文名(招待論文にはInvitedを明記)
    Kanehisa, M., Goto, S., Kawashima, S., Okuno, Y., and Hattori, M. The KEGG resource for deciphering the genome.
    学術雑誌名 初めの頁-終わりの頁 発行年(西暦)
    Nucleic Acids Res. 32   D277-D280 2004

    全著者名 論文名(招待論文にはInvitedを明記)
    Aoki, K.F., Yamaguchi, A., Ueda, N., Akutsu, T., Mamitsuka, H., Goto, S., and Kanehisa, M. KCaM (KEGG Carbohydrate Matcher): a software tool for analyzing the structures of carbohydrate sugar chains.
    学術雑誌名 初めの頁-終わりの頁 発行年(西暦)
    Nucleic Acids Res. 32   W267-W272 2004

    全著者名 論文名(招待論文にはInvitedを明記)
    Igarashi, Y., Aoki, K.F., Mamitsuka, H., Kuma, K., and Kanehisa, M. The evolutionary repertoires of the eukaryotic-type ABC transporters in terms of the phylogeny of ATP-binding domains in eukaryotes and prokaryotes.
    学術雑誌名 初めの頁-終わりの頁 発行年(西暦)
    Mol. Biol. Evol. 21   2149-2160 2004

    全著者名 論文名(招待論文にはInvitedを明記)
    Kotera, M., Okuno, Y., Hattori, M., Goto, S., and Kanehisa, M. Computational assignment of the EC numbers for genomic-scale analysis of enzymatic reactions.
    学術雑誌名 初めの頁-終わりの頁 発行年(西暦)
    J. Am. Chem. Soc. 126   16487-16498 2004

    全著者名 論文名(招待論文にはInvitedを明記)
    Itoh, M., Goto, S., Akutsu, T., and Kanehisa, M. Fast and accurate database homology search using upper bounds of local alignment scores.
    学術雑誌名 初めの頁-終わりの頁 発行年(西暦)
    Bioinformatics 21   912-921 2005

    全著者名 論文名(招待論文にはInvitedを明記)
    Aoki, K.F., Mamitsuka, H., Akutsu, T. and Kanehisa, M. A score matrix to reveal the hidden links in glycans.
    学術雑誌名 初めの頁-終わりの頁 発行年(西暦)
    Bioinformatics 21   1457-1463 2005

    B.国際会議発表論文(International Conferences)[査読つきの論文に限ること。]

    全著者名 論文名(招待論文にはInvitedを明記)
    Nakaya, A., Goto, S., and Kanehisa, M. Extraction of correlated gene clusters by multiple graph comparison.
    会議名 開催場所 論文番号 初めの頁-終わりの頁 発表年(西暦)
    GIW2001 Yokohama   44-53 2001

    全著者名 論文名(招待論文にはInvitedを明記)
    Yamanishi, Y., Itoh, M., and Kanehisa, M. Extraction of organism groups from phylogenetic profiles using independent component analysis.
    会議名 開催場所 論文番号 初めの頁-終わりの頁 発表年(西暦)
    GIW2002 Yokohama   61-70 2002

    全著者名 論文名(招待論文にはInvitedを明記)
    Yamanishi, Y., Vert, J.-P., Nakaya, A., and Kanehisa, M. Extraction of correlated gene clusters from multiple genomic data by generalized kernel canonical correlation analysis.
    会議名 開催場所 論文番号 初めの頁-終わりの頁 発表年(西暦)
    ISMB2003 Brisbane, Australia   i323-i330 2003

    全著者名 論文名(招待論文にはInvitedを明記)
    Vert, J.-P. and Kanehisa, M. Extracting active pathways from gene expression data.
    会議名 開催場所 論文番号 初めの頁-終わりの頁 発表年(西暦)
    ECCB2003 Paris, France   ii238-ii234 2003

    全著者名 論文名(招待論文にはInvitedを明記)
    Aoki, K.F., Yamaguchi, A., Okuno, Y., Akutsu, T., Ueda, N., Kanehisa, M., and Mamitsuka, H. Efficient tree-matching methods for accurate carbohydrate database queries.
    会議名 開催場所 論文番号 初めの頁-終わりの頁 発表年(西暦)
    GIW2003 Yokohama   134-143 2003

    全著者名 論文名(招待論文にはInvitedを明記)
    Hattori, M., Okuno, Y., Goto, S., and Kanehisa, M. Heuristics for chemical compound matching.
    会議名 開催場所 論文番号 初めの頁-終わりの頁 発表年(西暦)
    GIW2003 Yokohama   144-153 2003

    全著者名 論文名(招待論文にはInvitedを明記)
    Hizukuri, Y., Yamanishi, Y., Hashimoto, K., and Kanehisa, M. Extraction of species-specific glycan substructures.
    会議名 開催場所 論文番号 初めの頁-終わりの頁 発表年(西暦)
    IBSB2004 Kyoto   69-81 2004

    全著者名 論文名(招待論文にはInvitedを明記)
    Itoh, M., Akutsu, T., and Kanehisa, M. Clustering of database sequences for fast homology search using upper bounds on alignment score.
    会議名 開催場所 論文番号 初めの頁-終わりの頁 発表年(西暦)
    IBSB2004 Kyoto   93-104 2004

    全著者名 論文名(招待論文にはInvitedを明記)
    Yamada, T., Goto, S., and Kanehisa, M. Extraction of phylogenetic network modules from prokayrote metabolic pathways.
    会議名 開催場所 論文番号 初めの頁-終わりの頁 発表年(西暦)
    IBSB2004 Kyoto   249-258 2004

    全著者名 論文名(招待論文にはInvitedを明記)
    Aoki, K.F., Ueda, N., Yamaguchi, A., Kanehisa, M., Akutsu, T., and Mamitsuka, H. Application of a new probabilistic model for recognizing complex patterns in glycans.
    会議名 開催場所 論文番号 初めの頁-終わりの頁 発表年(西暦)
    ISMB/ECCB2004 Glasgow, Scotland   i6-i14 2004

    全著者名 論文名(招待論文にはInvitedを明記)
    Yamanishi, Y., Vert, J.-P., and Kanehisa, M. Protein network inference from multiple genomic data: a supervised approach.
    会議名 開催場所 論文番号 初めの頁-終わりの頁 発表年(西暦)
    ISMB/ECCB2004 Glasgow, Scotland   i6-i14 2004

    全著者名 論文名(招待論文にはInvitedを明記)
    Nikitin, F., Rance, B., Itoh, M., Kanehisa, M., and Lisacek, F. Using protein motif combinations to update KEGG pathway maps and orthologue tables.
    会議名 開催場所 論文番号 初めの頁-終わりの頁 発表年(西暦)
    GIW2004 Yokohama   266-275 2004

    C.著書(Books)

    全著者名 書名(分担による執筆の場合は編者を記入すること)
    Kanehisa, M. and Goto, S. Current Topics in Computational Molecular Biology (Jiang, T., Xu, Y., and Zhang, M.Q., eds.)
    出版者名 出版場所 ISBN番号 初めの頁-終わりの頁 発行年(西暦)
    MIT-Press Cambridge, MA, England     2002

    全著者名 書名(分担による執筆の場合は編者を記入すること)
    Vert, J.-P. and Kanehisa, M. Advances in Neural Information Processing Systems (Becker, S., Thrun, S., and Obermayer, K., eds.)
    出版者名 出版場所 ISBN番号 初めの頁-終わりの頁 発行年(西暦)
    MIT-Press Cambridge, MA, England     2003

    全著者名 書名(分担による執筆の場合は編者を記入すること)
    Yamanishi, Y., Vert, J.-P., and Kanehisa, M. Kernel Methods in Computational Biology (Scholkopf, B., Tsuda, K., and Vert, J.-P., eds.)
    出版者名 出版場所 ISBN番号 初めの頁-終わりの頁 発行年(西暦)
    MIT-Press Cambridge, MA, England     2004

    D.特許等取得状況 [当該研究プロジェクトの研究成果から生じた特許等(発明者から当該所属研究機関に承継した特許等に限ること。出願中のものは除くこと。)]

    -


戻る