KAISTの研究チーム、深層学習を利用した遺伝子転写因子予測システムを開発

研究開発

KAISTの研究チーム、深層学習を利用した遺伝子転写因子予測システムを開発

韓国科学技術院(KAIST)は去る29日、生命化学工学科のイ・サンヨプ特別教授(Distinguished Professor)とカリフォルニア大学サンディエゴ校(UCSD)生命工学科のベルンハルト・パルソン(Bernhard Palsson)教授の共同研究チームが、人工知能を利用し、ペプチド配列から転写因子を予測するシステム、「DeepTFactor」の開発に成功したことを明らかにした。

転写因子は、特定のペプチド配列に特異的に結合し、遺伝子の転写(遺伝情報のコピー)を調節するタンパク質である。転写因子による遺伝子の転写を分析することで、有機体が遺伝的、環境的変化にどのように反応し、遺伝子の発現を制御するかについての理解を深めることができる。このような観点から、有機体の転写因子を探索することは、有機体の転写調節システム分析の第一段階と言える。

今までの転写因子の探索モデルでは、既知の転写因子との相同性(類似した性質)を分析や、機械学習(マシーンラーニング)のような、データ基盤の接近方式が主に利用されてきた。既存の機械学習モデルの利用には、分子の物理化学的特性の計算、生物学的配列の相同性の分析などの入力が必要であるため、専門知識に依存し、入力値として使用する特徴を探索する過程が不可避である。

一方、深層学習(ディープラーニング)は、問題解決のための潜在的特徴を内在的に学習できるため、近年、生物学分野で広く活用されている。しかし、深層学習を利用した予測システムは、内部の演算が極めて複雑であるため、推論の過程を確認できない、「ブラックボックス(black box)」の特徴を持っている。

共同研究チームは、深層学習技法を利用し、与えられたペプチド配列が転写因子であるかを予測するシステム、DeepTFactorを開発した。DeepTFactorはペプチド配列から転写因子を予測するために、3つの並列した畳み込みニューラルネットワーク(CNN: convolutional neural network)を利用する。共同研究チームはDeepTFactorを利用し、大腸菌(Escherichia coli K-12 MG1655)の転写因子を332個予測した。また、そのうち3つの転写因子の遺伝子結合位置(genome-wide binding site)を実験で確認することで、DeepTFactorの性能を検証した。

さらに、共同研究チームはDeepTFactorの推論過程を理解するために、特定地図(saliency map)基盤の深層学習モデル解析方法論を使用した。その結果、明示的に提示しなかった、転写因子とDNAの結合領域の情報が内在的に学習され、DeepTFactorの予測に活用されていたことが確認された。

研究チームの関係者によると、特定生物群のペプチド配列のみに対応していた既存の方法論とは違い、DeepTFactorは全ての生物群のペプチド配列で優秀な性能を見せ、多様な有機体の転写システムの分析への活用が期待されている。

イ・サンヨプ特別教授は、「今回の研究で開発したDeepTFactorを利用し、新たに発見されるペプチド配列と、まだ特性化していない数多くのペプチド配列を高い処理能力で分析できるようになった」と述べ、「これは、有機体の転写調節ネットワーク分析のための基礎技術として活用できるはず」と明らかにした。

この研究は科学技術情報通信部の支援する気候変化対応技術開発事業の、バイオリファイナリーのためのシステム代謝工学源泉技術開発課題の支援で遂行された。また、この研究は国際ジャーナル、「米国科学アカデミー紀要(PNAS)」に12月28日、掲載された。(論文題目: DeepTFactor: A deep learning-based tool for the prediction of transcription factors)


 
 
あなたの感想をSNSでシェアする


この記事について、あなたの感想は?
  • 強い関心がある
  • 関心がある
  • どちらでもない
  • 関心がない
  • 全く関心がない