天然化合物の立体構造データベース

タイトル 天然化合物の立体構造データベース
担当機関 (国研)農業・食品産業技術総合研究機構 高度解析センター
研究期間 2008~2017
研究担当者 前田美紀
発行年度 2018
要約 立体化学的精度を高めた天然化合物の立体構造を収録したデータベースである。本データベースはゲノム研究によって同定され機能不明である遺伝子産物の生理的役割を推定する立体構造アノテーションを行うための基本リソースとして活用される。
キーワード データベース、立体構造、天然化合物、分子デザイン、二次代謝産物
背景・ねらい イネゲノムの全配列のうちmRNAの存在が確認された予測遺伝子は約40,000件あるが、アノテーションのつけられた配列は「○○ドメイン蛋白質」等の生理生化学的意味を持たないものを含めてその6割程度であり、残りの機能は未解明のままである。そのため、従来の配列のみに依存するアノテーションとは視点の異なる新規アノテーション法の開発が必要とされていた。
我々が提唱する「立体構造アノテーション」は、コンピュータ上で蛋白質の立体構造に対し天然物質の立体構造セットを逐次的に結合させ、複合体形成が可能であると推定できる化合物を探索することにより、機能未知遺伝子のコードする蛋白質が結合する天然物質を推定するものである。計算プログラムは実用レベルのものが複数存在するが、キーとなる高精度な天然物質の立体構造セットはこれまで存在していない。そこで、収録対象を天然に存在する物質に限定し、コンピュータシミュレーションに供するのに十分な精度の立体構造を収録したデータベースの開発を行う。本データベースを活用することにより機能未知蛋白質に結合する生体内物質を推定することが可能となる計算化学的方法の確立を目指す。
成果の内容・特徴
  1. 「立体構造アノテーション」に使用する天然化合物の立体構造を収集したデータベースである(3DMET)。リリース3.0ではデータソースを文献情報とし、表1に示す書籍から収集した化合物構造をマニュアルキュレーション(化学的知識のある担当者による手入力)により収録している。書籍ごとのデータセットはカテゴリ別の化合物構造セットとしても利用できる。
  2. 構造作成の各作業段階の自動化を試みたところ、使用したプログラムのエラーの蓄積により化学的に不正確な構造が高頻度で出現し、例えば、一定の割合で、原子キラリティが反転する、完全自動構築した構造では直鎖部分の二重結合の向きが最初の構造とは異なる(図1)等の現象が見られる。そのため、結果的に化学の判る担当者(化学キュレータ)による確認が必要となることから、最初から構造を手入力とし、入力と確認を複数の化学キュレータにより行う体制とすることで、作業ミスに由来する間違いを最小になるようにしている。
  3. 書籍・論文で図示されている化学構造であってもその記載の正確性が保証されているわけではないことから(図2)、データベースの精度を高めるためには情報源の精度も上げる必要がある。そのため、構造構築と同時に参照した資料の内容・構造の更新情報も精査し、資料中の誤りを訂正することで構造データの精度を高めている。
  4. 立体構造を保有する化学データベースの大多数は自動作成された構造を収録しており、立体化学的な精度に疑問が残る。唯一信頼できる結晶構造が集められたCSD(ケンブリッジ結晶構造データベース)と3DMETに収録されているデータとの重複を確認したところ、共通データは3.4%しかなかったことから、CSDと3DMETは補完的な利用が可能であるといえる。
成果の活用面・留意点
  1. 「立体構造アノテーション」の必須リソースである。
  2. 農薬・医薬等の化合物設計分野において天然化合物から新規生理活性物質を発見する際に利用できる。
  3. 化合物自体の解析を目的とする、機械学習の学習セットおよび統計的な解析資源として利用できる。
  4. Wikipediaの化合物ページには本データベースのIDの記入が推奨されている、KEGG等の化合物データベースとの相互リンク、天然物質に関する総説に引用されるなど、本データベースは世界的に認知されている。
研究内容 http://www.naro.affrc.go.jp/project/results/4th_laboratory/naac/2018/naac18_S1.html
カテゴリ 病害虫 データベース 農薬

こんにちは!お手伝いします。

メッセージを送信する

こんにちは!お手伝いします。

リサちゃんに問い合わせる