概論
AI・シミュレーションによる科学的発見へ向けて
Toward scientific discovery by AI and simulation
山本陽一朗
Yoichiro Yamamoto 1)2):Pathology Informatics Team, AIP(Center for Advanced Intelligence Project), RIKEN1)/Mathematical Intelligence for Medicine, Graduate School of Medicine, Tohoku University 2)(理化学研究所革新知能統合研究センター病理情報学チーム1)/東北大学大学院医学系研究科数理知能医学講座2))
AI・シミュレーションの医療分野での応用や基礎研究における活用が増えている.ディープラーニングを基盤とした帰納的な手法と,高精度シミュレーションによる演繹的な手法は,科学的発見に向けての両輪として科学の進化を加速させ,新たな扉を開こうとしている.また,生成AIの一つである大規模言語モデルの恩恵を誰もが手軽に享受できる時代に突入している.本特集では,科学的発見へとつながるAI・シミュレーション技術に焦点をあて,各分野の先駆的な研究者から最先端の研究をご紹介いただく.
はじめに―AI研究の潮流
AIの技術発展に伴い,診断支援などの医療分野での応用が進展している一方で,基礎研究への活用にも注目が集まっている.特に,ディープラーニングを基盤とした機械学習の普及,高精度なシミュレーションと計算科学の進歩,大規模言語モデルを含む生成AI技術の発展,そしてAI解析の説明可能性の向上により,生命科学分野をはじめとする多くの基礎分野でのメカニズム解明への応用が期待されている.そこで,本特集ではAIおよびシミュレーションの基礎研究への活用の現状をまとめて共有したい.
AIという概念は1940年代に提唱され,すでに1950年代には人工知能という言葉が使われるようになっている.AIブームはこれまでに3度あったことが知られている.1950~1960年代の第一次AIブームでは,推論や探索に関する研究がさかんに行われた.しかし,当時は迷路などの単純な問題しか解くことができず実世界への応用には至らなかった.1980~1990年代には第二次AIブームが起こり,人間がインプットした知識に基づいて推論を行うエキスパートシステムとよばれる研究が進められた.しかし大量の知識データベースを準備する必要もあり大規模化することは困難だった.一方で,ヒトの脳のしくみをもとに,学習技術に関する研究も進められてきた.1950年代にはパーセプトロンとよばれる神経モデルが考案され1),1980年代になるとネットワークを学習させるための誤差逆伝播法が用いられるようになった2).当時は,その多大な計算時間等により実用化には至らなかったが,その後,コンピュータ性能の向上が進むとともに,2006年に多層のネットワークを効率よく学習できる技術が報告されると再び注目され3),ディープラーニング(深層学習)の実用化へとつながった.この2000年代以降の発展が第三次AIブームである.そして,第三次ブームが収束の兆しを見せたとき,大規模な学習データに基づく生成AIという新たな波が現れ,第三次ブームの初期とは別の盛り上がりを見せている.特に2022年に出現した生成AIの一つである大規模言語モデルChatGPT 4)の汎用性の高さは,多くの分野に衝撃を与えた.GPTはGenerative Pretrained Transformerの略であり,トランスフォーマー(Transformer)5)とよばれるニューラルネットワーク構造を応用している.
この革新的な生成AIのキーワードとも言えるのが「べき乗則の発見」と「ゼロショット学習」である.2020年にOpenAIの研究者らは訓練データとモデルサイズを大きくしていく過程で,言語モデルにおける「Scaling Law(べき乗則)」を発見した6)(図).これは言語モデルを学習する際の計算量,訓練データの量,モデルのパラメータの数の3つにおいて,言語モデルの正確性(予測誤差)との間に,べき乗則が成り立ち,対数目盛上のグラフで,直線になるという関係性である.このべき乗則の特筆すべき点は,計算量を前もって概算できるようになったことのほか,モデルを大きくすることで予測能や学習効率が改善する可能性が示されたことである.この発見が現在のChatGPTへとつながっている.もう一つが「ゼロショット学習」である.ChatGPTなどの大規模言語モデルでは,最初にプロンプトとよばれる指示を与えることで,新たに学習を行うことなく,その場でさまざまなタスク(AIが実施する課題)に対応することができる.従来の機械学習ではタスクごとに訓練データを用意し,各々のタスク専用のシステムをつくっていたが,プロンプトを使いこなすことで,新しい訓練データを追加せずに,同じモデルを使用して幅広いタスクに対応可能である.AIの歴史を振り返ると,知識やルールを直接人が手で設計していた時代から,データからパターンを学習することでコンピュータに明示的なプログラミングなしでタスクを実行させる機械学習の時代へと進んだ.そして現在,人が言語を使ったプロンプトによりAIに指示を出すことも可能となりつつある.
1科学的発見に向けてのプロセス
科学的発見に向けてのプロセスには,大きく分けて帰納的なプロセスと演繹的なプロセスの2つがある.帰納的なプロセスは「個別の観察から普遍的な法則や理論を導く過程」であり,一方,演繹的なプロセスは「普遍的な法則や理論から個別の予測や結果を導き出す過程」である.例えば,医学分野においてディープラーニングを用いた初期の成果として,米国のスタンフォード大学の研究者らが約13万件の皮膚病変画像を用いて悪性黒色腫を含む皮膚腫瘍を皮膚科医レベルで分類することに成功しているが7),これは多量のデータから分類法則を導いている点で典型的な帰納的プロセスを経た研究と言える.この帰納的プロセスの過程を人間側で理解できれば,解析において有用なパターンや新しいメカニズムを知ることができる.そこで重要となるのが,説明可能性である.AIにおける説明可能性は,AIが導き出した答えについて「なぜその答えを出したのか」を人間が理解できる形で説明できる能力のことを指す.人間が理解する方法は多様であり8)9),今後さらなる研究が期待される.一方で,演繹的なプロセスの例としては,科学的な法則をもとに数理モデルを作成しシミュレーションを行う手法などがあげられる.例えば,数理生物学分野においてがんの進展過程などをシミュレーションする手法はその一つである10).演繹的な手法により,帰納的に発見されたメカニズムの理解が深まるだけでなく,その制御を通して治療戦略を構築できる可能性がある.そして,これらの帰納的プロセスと演繹的プロセスを行き来して実証しながら研究を進めることで,より正確で信頼性の高い知識や理論が構築されていくと考えられる(概念図).実際,本邦で進められているムーンショット型研究開発事業(目標2・医学分野)11)において,最先端のAI技術とシミュレーション技術を漸進的に融合する意欲的な試みもあり,双方の技術を用いる重要性はさらに高まっていくだろう.
2AI・シミュレーションによる発見とその先にあるもの
今後,AI・シミュレーションによる発見は増加していくと予想される.そのような中,ますます重要となるのが適切なテーマ設定,AIの解析過程における説明可能性の向上,そしてAIの解析結果に対する評価手法の精緻化だと考えられる.またスモールデータへの対応も重要な課題である.このような中,発見そのものに気づくことができる各ドメインの専門知識を有し,かつ,AIの長所と短所を理解し使いこなすことができる専門家の育成が必要だろう.では,AI・シミュレーションの進化が進んだ未来には何があるだろうか.AIの導入が進んでいる囲碁界や将棋界に目を移すと興味深い報告がある.AIを導入した後,ある特定の手が勝率にどれほど影響を与えたかという決定品質指数(Decision Quality Index,DQI)が向上しているというものである12).つまり,囲碁においてAIとの直接対決には敗北した人類であるが13)14),AI出現後,囲碁における人類側のスキルが上昇しているらしい.AIによって,いずれなくなるかもしれないと言われていた囲碁・将棋界であるが,現在空前のブームに沸いている.これまで,専門家しか理解できなかった局面の形勢判断を,AIを通して数値化することで観戦者が理解しやすくなった点や,AIを用いた研究が可能になり分野の裾野が拡がった点,またAI時代に適した新たなヒーローの出現などがその原因としてあげられよう.AIの進化と導入により,日々,多くの新手が発見されている.このような流れは今後,医学・生物学の研究分野においても遅かれ早かれ波及していく可能性がある.
3各分野における発見的なAI・シミュレーション
次に,本特集における科学的な発見をめざしたAI・シミュレーションについて俯瞰したい.ディープラーニングの発展に貢献してきた主要な分野の一つが画像解析である.ディープラーニングの出現により,AIは目をもつようになったと言われて久しい.画像に対する発見的AIと生成AIをどのように生物・医学分野において応用していくかは今後の重要な課題であろう(谷内らの稿).また,今まで十分な解析ができていなかった希少疾患に対して,ゲノムビッグデータを用いることで,診断から治療までサポートする技術の開発も進められている(鈴木らの稿).創薬分野においてもAI・シミュレーションへの期待は大きい.化合物スクリーニングや最適化技術を用いた創薬研究の期間短縮や低コスト化のメリットは大きく,今後AI・シミュレーションの利活用は必須となっていくと考えられる(奥野の稿).また,創薬以外にもAIによる分子設計(生成)は進められており,バイオイメージングにも応用可能な蛍光色素設計はその重要なターゲットである.応用範囲の広い分子設計技術の進歩は,今後の科学的発見を加速させると考えられる(石田らの稿).さらに,測定技術の進歩に伴い,生命現象を理解するためのマルチオミクス解析の試みも進められている.多階層にまたがるネットワークの同定と理解は,生物学的知見だけでなく新たな治療戦略へと発展する可能性がある(久保田の稿).先に述べたように,帰納的プロセスと演繹的プロセスは,科学的発見に向けての両輪である.医学的な基礎となる細胞レベルのダイナミクスについて数理的に理解を深めることで,疾患の新たな側面が明らかになることが期待される(波江野・佐伯の稿).そしてこれら数理学的な生物・医学研究を支えているのが,驚くべきスピードで進化を続けるAIおよび計算機分野の基礎技術である.その中でも,近年特に注目を浴びている2つのテーマを抜粋し,Short Articleとして執筆いただいた.その一つが,物理法則を組み込んだニューラルネットワーク(physics-informed neural networks,PINN)であり,AI for Scienceの領域で注目を集めている.まだ完成した技術ではないが,AI技術の適用範囲を拡大させる大きな可能性を秘めており,今後ますます研究が加速すると考えられる(上田の稿).もう一つは,これらの莫大な計算を支える高性能計算を可能とする最新の計算機科学であり,その中でも次世代技術の要として期待されている量子コンピューティングである.未来のAI・シミュレーションの鍵となることが予想される(藤井の稿).
おわりに
先人たちが築き上げた生物学・医学の知識をさらに高めていくために,本特集で紹介するAI・シミュレーション技術は高い拡張性と適応性をもつツールとして期待されている.これらを使いこなすためには,生物・医学をはじめとする各分野における深い知識と洞察が不可欠である.さらなる進化を遂げたAI・シミュレーション技術が科学的発見のための一助となり,科学界に貢献していくことを期待している.
文献
- Rosenblatt F:Psychol Rev, 65:386-408, doi:10.1037/h0042519(1958)
- Rumelhart D, et al:Nature, 323:533-536, doi:10.1038/323533a0(1986)
- Hinton GE & Salakhutdinov RR:Science, 313:504-507, doi:10.1126/science.1127647(2006)
- OpenAI:ChatGPT.
- Vaswani A, et al:arXiv, doi:10.48550/arXiv.1706.03762(2017)
- Kaplan J, et al:arXiv, doi:10.48550/arXiv.2001.08361(2020)
- Esteva A, et al:Nature, 542:115-118, doi:10.1038/nature21056(2017)
- Selvaraju RR, et al:2017 IEEE Int Conf on Comput Vis:618-626, doi:10.1109/ICCV.2017.74(2017)
- Yamamoto Y, et al:Nat Commun, 10:5642, doi:10.1038/s41467-019-13647-8(2019)
- Yamamoto Y, et al:Br J Cancer, 115:195-202, doi:10.1038/bjc.2016.171(2016)
- 内閣府:ムーンショット目標2
- Shin M, et al:Proc Natl Acad Sci U S A, 120:e2214840120, doi:10.1073/pnas.2214840120(2023)
- Silver D, et al:Nature, 529:484-489, doi:10.1038/nature16961(2016)
- Silver D, et al:Nature, 550:354-359, doi:10.1038/nature24270(2017)
本記事のDOI:10.18958/7405-00001-0001111-00
著者プロフィール
山本陽一朗:2004年東北大学医学部医学科卒業.’09年東北大学大学院医学系研究科医科学専攻博士課程修了.その後,アメリカ・ハーバード大学およびメイヨークリニックに客員研究員として滞在し,がんの免疫応答に対して,コンピュータを用いた数理生物学研究を行う.またドイツ・ハイデルベルク大学にて人工知能を用いた病理画像解析システムを開発.’17年に理化学研究所AIPセンター病理情報学ユニットユニットリーダー.’18年より同病理情報学チームチームリーダー.’22年より東北大学大学院医学系研究科の数理知能医学講座連携大学院教授を兼任.近年の主な受賞として武見奨励賞,文部科学省科学技術・学術政策研究所「科学技術への顕著な貢献(ナイスステップな研究者)」など.