遺伝子情報に基づく巨大系統樹推定プログラムの開発

タイトル 遺伝子情報に基づく巨大系統樹推定プログラムの開発
担当機関 (独)農業環境技術研究所
研究期間 2001~2005
研究担当者 三中信宏
山本春雄(ボーゲンファイル)
浅野剛弘(ボーゲンファイル)
町井弘禧(チュラルテック)
陶村貴(チュラルテック)
発行年度 2003
要約 遺伝子の塩基配列データに基づいて系統樹を推定する新しいソフトウェアを開発した。既存の系統推定ソフトウェアでは計算それ自体が不可能だった,万単位の端点(種)をもつ巨大データに対しても相対的に短い時間内で最節約系統樹を構築することが可能になった。
背景・ねらい 系統推定に用いられる形質データのサイズがますます巨大化する傾向が強まってきた。形質数だけでなく,端点(種)の数が増大するとともに,最節約法や最尤法のような最適性基準(目的関数)による系統樹の離散最適化を行なう手法では,いかにして効率的にかつ高速に最適系統樹を計算するかという問題につねに直面している。とりわけ,計算の複雑性の点で,もはや完全探索が不可能である以上,発見的探索のためのアルゴリズムを高速化する必要がある。
成果の内容・特徴
  1. 形質状態(塩基配列)をもつ端点集合を与え,形質空間の中でハミング距離(マンハッタン計量)の上で近い端点部分集合を同時並行的に作成する。端点の各部分集合に対して,部分木を最節約的に構築する。その際,仮想祖先(スタイナー点)の形質状態は最節約復元のメディアン演算によって計算する。構築された複数の部分木を逐次的に結合することにより,最終的に完全な最短系統樹を探索的に構築する(図)。
  2. 最節約系統推定においてもっとも広く用いられているソフトウェアPAUP*(version 4)との性能比較をしたところ,今回開発した系統スタイナー樹ソフトウェアBogenは,より短い計算時間でより巨大なデータの系統解析を可能であることがテスト塩基配列データから示された(表)。ソフトウェアの比較を実行した計算環境はWindowsマシン(Pentium 4,2.26GHz,RAM 1GB)である。その他の既存ソフトウェアPHYLIPやTNTとも比較し,系統樹の計算速度や分析可能なデータサイズの点でBogenが勝っていることを確認した。
  3. とくに,端点数が数千を越えるケースでは既存のいずれのソフトウェアでも系統解析そのものが不可能だが,Bogenを用いれば許容される計算時間の範囲内で最適系統樹を探索できることがわかった。現バージョンでの最大端点数は3万種,最大形質数は5万塩基対である。
成果の活用面・留意点
  1. Bogenは最節約法に基づく分子系統樹推定ソフトウェアであり,距離法には対応していない。最尤法については現バージョンでは対応していないが, Bogenの最適性基準(目的関数)を尤度に変更することにより将来的には対応可能になるだろう。
  2. 今回開発したソフトウェアは塩基配列に基づく分子系統樹推定にはいつでも利用できる。ただし,塩基配列データはあらかじめアラインメント(整列)されている必要がある。入力データ形式として現在広く用いられているNEXUS形式などには対応している。
  3. Bogenの公開方法については現在検討中である。詳細については担当者(minaka@affrc.go.jp)へ連絡ないしウェブサイト(http://www.bogen.co.jp/)を参照されたい。
図表1 225383-1.png
図表2 225383-2.png
カテゴリ

こんにちは!お手伝いします。

メッセージを送信する

こんにちは!お手伝いします。

リサちゃんに問い合わせる