概論
AlphaFoldがもたらすタンパク質構造生物学の新時代
A new era of protein structural biology brought about by AlphaFold
富井健太郎
Kentaro Tomii:Artificial Intelligence Research Center(AIRC),National
Institute of Advanced Industrial Science and
Technology(AIST)(産業技術総合研究所人工知能研究センター)
AlphaFoldやAlphaFold DBの公開により,構造生物学以外の分野にもその影響が浸透しつつある.また,AlphaFoldによる予測構造モデルを利用した解析ツールや手法などの開発も着々と進んでいる.そこで本特集では,国内外の気鋭の研究者による多様な取り組みを踏まえつつ,AlphaFoldに関する最新の知見を俯瞰し,AlphaFoldによる予測構造モデルの有効性や適用限界,そして今後解決されるべきあるいはされつつある課題について紹介するとともに,予測構造モデル情報の利活用により生命医科学分野にもたらされる効果と,構造情報を自らの研究に役立てようとする際の注意点や手がかりなどを紹介する.
はじめに
ライフサイエンス分野の技術革新は近年一層加速しつつあり,構造生物学の分野もその例外ではない.特に,タンパク質立体構造解析については,要素技術の改善やスループットの向上,低温電子顕微鏡の普及などにより,実験的な構造決定の一層の効率化や適用範囲の拡大に大きな進展がみられる.また,これまでに蓄積されたタンパク質のアミノ酸配列および立体構造に関する大量のデータと深層学習の分野の発達が,AlphaFold 1)などの高精度立体構造予測技術として結実した.こうした変化により,生命現象を理解するうえで,その実体を担うタンパク質などの分子構造の情報を抜きにして研究を進めることはむしろ稀であるような時代となりつつある.そこで本特集では,国内外で活躍著しい関連分野のエキスパートを執筆陣に迎え,AlphaFoldとその関連ツールやリソースの利用あるいは開発などについて,最新の知見を俯瞰し,AlphaFoldによる予測構造モデル情報の利活用法,あるいはそれらの利用の際の注意点,またAlphaFoldのさらに進んだ利用法などについて紹介する.
1AlphaFoldによる予測構造モデルの状況
囲碁AIのAlphaGoなどで知られるDeepMind社の開発したAlphaFoldは,非常に多くのタンパク質について高精度の立体構造予測が可能な深層学習モデルである.2020年に開催されたタンパク質の立体構造予測の国際大会CASP14で他参加グループを著しく上回る成績を残し,広く知られることとなった.このときDeepMind社は,以前のバージョンとの区別のためAlphaFold2というグループ名でCASP14に参加しており,このAlphaFold2という名称が広まった(が,本稿ではDeepMind社の呼称に倣いAlphaFoldと記載).なお,AlphaFoldのこれまでの経緯や技術の詳細に関する日本語の解説記事は,本誌2022年2月号いま知りたい!!「使ってわかったAlphaFoldのリアル」や森脇博士の記事2)などがすでに刊行されているので,それらも参照いただきたい.
AlphaFoldは,近年のタンパク質立体構造予測の二大潮流である,アミノ酸配列のmultiple sequence alignment(MSA)に基づくアミノ酸残基間コンタクト予測と,予測対象タンパク質との類似性を有すると考えられる「鋳型」構造情報を深層学習により統合した手法である.AlphaFoldは,「鋳型」構造という既知の立体構造情報を利用しているものの,通常のホモロジーモデリングが可能な範囲のみならず,既知構造とは異なる構造を有するタンパク質に対しても優れた予測精度を示すことも多い(服部の稿).CASP14の後,DeepMind社はAlphaFoldのアルゴリズムを詳述した論文を発表1)するとともに,欧州バイオインフォマティクス研究所(EMBL-EBI)と連携し,ヒトを含む複数の生物種の多くのタンパク質に対する予測構造モデルのセットをAlphaFold Protein Structure Database(AlphaFold DB,図1)3)として公開し,Science誌の2021 Breakthrough of the Yearにも選出された.このデータベースは当初30万あまりのタンパク質に対する予測構造モデルを公開していたが,現在では総計2億を超える予測構造モデルを擁するデータベースへと成長しており,本特集では,こうした大規模な構造データを効率的に検索するための手法についても紹介している(木原の稿,富井の稿).
ヒトのタンパク質の場合,現状では約10%は実験的に構造が決定されており,残基レベルでは約17%に対して三次元座標が決定されているとされる4).これに対して,AlphaFold DBでは,ほとんど(98.5%)のヒトのタンパク質に対して予測構造モデルが提供されている.ただし残基レベルでみると,全体の58%が高信頼度(pLDDT>70;予測信頼度を示すpLDDTについては木原の稿,森脇の稿を参照)で予測されている領域となる5).ヒトタンパク質の約4~5割が特定の構造をとらない天然変性(領域をもつ)タンパク質と予測されている6)ことを考慮すると,実質的には大部分のヒトタンパク質に対してかなり精度の良い予測構造モデルが存在しているものと考えられる.
また,ヒトの疾患関連遺伝子がコードするタンパク質とその変異に関しては,AlphaFold登場以前でも,ClinVarに登録されている病原性変異の69%,発がん性変異の88%について何らかの構造情報が存在していたが,AlphaFoldの予測構造モデルによってこれらタンパク質変異の13%程度がさらにカバーされることとなった.さらに,病原性細菌を含むヒト以外の生物種のもつタンパク質に対しても,AlphaFoldによる予測構造モデルがもたらす構造情報は,ヒトタンパク質に対するそれよりも多いものと見積もられている7).これらは,ヒトゲノムにコードされている,あるいは何らかの疾患に関するタンパク質のセットについて,多くの場合その立体構造情報を利用した研究の推進が可能である状況を示しており,生命医科学分野の研究に及ぼす影響は非常に大きいものと考えられる.
ただし,技術的な問題から,AlphaFold DBには2,700残基を超える長大なタンパク質に対する全長の予測構造モデルは存在しない.多数のドメインから構成されることが多いヒトのタンパク質にとっては,今後解決されるべき課題の1つである.また,手法の性質上,ドメイン間の相対配置については,ドメイン単位で期待されるほどの予測精度に達していない場合があることが知られている.特に多数のドメインから構成される長大なタンパク質に対するAlphaFoldの予測構造モデルでは,AlphaFoldにより計算されるpredicted aligned error(PAE)とよばれる全残基ペア間の距離に関する予測誤差を示す指標の確認や,可能であれば実験的に決定されたデータの参照などが必要な場合も多いと考えられる4).またAlphaFoldによる高精度の予測構造モデル全体をみると,既知の構造分布と比較してαヘリックスで構成されている構造が多い(木原の稿)といった偏りが生じていることにも注意を払う必要がある.
2AlphaFoldによる予測構造モデルの利用とAlphaFoldのさらなる利用
本特集では,国内外の実験および計算機の研究者による多様な取り組みを通して,AlphaFoldに関する最新の研究動向を俯瞰し,AlphaFoldによる予測構造モデルの有効性や課題とともに,予測構造モデルの実践的な利活用事例などを紹介する(概念図).
まず,AlphaFoldによる高精度の予測構造モデルは,タンパク質の立体構造解析において非常に有用であることがしばしばである.常にそうであるわけではない8)ものの,X線結晶構造解析での位相決定の際,AlphaFoldの予測構造モデルを利用した分子置換法により構造解析が著しく促進した例が国内外で報告されている(服部の稿).また特に近年,低温電子顕微鏡による観測で得られた密度マップに基づく構造決定の際,AlphaFoldの予測構造モデルが初期構造として利用されることも多い.ただし,高精度の予測構造モデルを利用する場合であっても,密度マップに対する全体的な適合性のみならず,局所的な適合性も確認することが重要である9).
次に,生命医科学分野の研究にとって重要な,しかしAlphaFoldの予測構造モデルのみでは解決しない問題の例として,リガンド結合部位および様式の推定,複合体構造予測,および構造ダイナミクスなどがよくあげられる.リガンド結合部位および様式の推定については,タンパク質とリガンドの(複合体構造が)既知の相互作用との比較が有効であり,現時点でもAlphaFoldの予測構造モデルを利用したある程度有効な手法やデータベースなどがすでにいくつか提案されている(木原の稿,富井の稿).また,局所構造比較のみならず,全体構造の比較(木原の稿)もタンパク質の機能推定にとって有益であることも多い.さらに,複合体構造予測に関しては,DeepMind社がAlphaFoldを(ある程度限られた)複数鎖からなる複合体予測に拡張したAlphaFold-Multimerを開発,公開するなどさまざまな展開がみられる(小野田らの稿).
また,AlphaFoldの普及を一層促進している大きな存在の1つが,ColabFold(図2)である10).本家AlphaFoldと同様の機能を有し,Googleで(アカウントがあれば)無料で利用可能なColabFoldの登場により,非常に多くの人々が実際にAlphaFoldのアルゴリズムを利用した計算を実行可能な環境が提供された(森脇の稿).これにより,paired MSAの利用による複合体構造予測(小野田らの稿)や,自身による入力MSAの改良などを通した予測構造モデルの高精度化(森脇の稿),タンパク質のリデザイン(小林・佐久間の稿)などの多岐にわたる計算がなされている.さらに,AlphaFoldのアルゴリズムは,勃興著しいタンパク質の生成モデルにも大きな刺激を与えている(小林・佐久間の稿).
おわりに
ほとんどのヒトタンパク質に対する高解像度あるいは高信頼度の三次元構造情報が入手可能となった現在,立体構造情報に基づく生命医科学分野の研究の可能性は大きく広がっている.特に,一挙に大量に利用可能となったAlphaFoldによる予測構造モデルの有効活用が鍵である.そして,実験的に決定された構造と予測構造モデルの違いをよく認識し,予測構造モデルの特徴や注意点を十分把握したうえでそれらを活用することが何よりも重要である.本特集では,国内外の実験および計算機の研究者の先生方の実践を通じた,AlphaFoldによる予測構造モデルのさまざまな利用法を紹介している.それらでも一部紹介されているように,例えば前処理などの洗練によって,さらに高精度なモデルを得ることも可能である.いずれにせよ,今後さまざまな研究の進展により,一層高精度な予測構造モデルがより増加することが予期される.本特集が,そうした立体構造情報を自らの研究に役立てようとする契機や実践の際のヒントやガイドの1つとなれば幸いである.
文献
- Jumper J, et al:Nature, 596:583-589, doi:10.1038/s41586-021-03819-2(2021)
- 森脇由隆:JSBi Bioinformatics Review, 3:47-60, doi:10.11234/jsbibr.2022.3(2022)
- Varadi M, et al:Nucleic Acids Res, 50:D439-D444, doi:10.1093/nar/gkab1061(2022)
- David A, et al:J Mol Biol, 434:167336, doi:10.1016/j.jmb.2021.167336(2022)
- Tunyasuvunakool K, et al:Nature, 596:590-596, doi:10.1038/s41586-021-03828-1(2021)
- Oates ME, et al:Nucleic Acids Res, 41:D508-D516, doi:10.1093/nar/gks1226(2013)
- Porta-Pardo E, et al:PLoS Comput Biol, 18:e1009818, doi:10.1371/journal.pcbi.1009818(2022)
- McCoy AJ, et al:Acta Crystallogr D Struct Biol, 78:1-13, doi:10.1107/S2059798321012122(2022)
- Yamamori Y & Tomii K:Int J Mol Sci, 23:1977, doi:10.3390/ijms23041977(2022)
- Mirdita M, et al:Nat Methods, 19:679-682, doi:10.1038/s41592-022-01488-1(2022)
参考図書
- 「実験医学Vol.40 No.3いま知りたい!!『使ってわかったAlphaFoldのリアル』」(大上雅史/企画),羊土社(2022)
本記事のDOI:10.18958/7335-00001-0000597-00
著者プロフィール
富井健太郎:1998年京都大学大学院理学研究科博士後期課程修了.博士(理学),生物分子工学研究所(BERI)ポスドク,UC Berkeleyポスドクを経て産業技術総合研究所入所,2016年より同所人工知能研究センター研究チーム長.専門:計算生物学(computational biology).