概論
特集1 概論
生命科学データのモダリティと,マルチモーダルデータ活用の意義
The modalities of life science data and the significance of utilizing multimodal data
鎌田真由美
Mayumi Kamada:北里大学未来工学部データサイエンス学科
生命科学研究においても,測定技術の発展によるデータの多様性と規模の増大により,「マルチモーダル」という言葉をよく目にするようになった.ある特定の方法や手段を指す「モダリティ」は,分野や用いられる文脈によって指すものが大きく異なる.本稿では,モダリティの定義や生命科学における異なるモダリティを統合することの意義について確認するとともに,実に多様なモダリティデータから構成される生命科学データを統合するための技術を紹介と統合活用を担うAI技術について触れ,本特集の趣旨について共有したい.
はじめに
モダリティ(modality)について,Oxford Advanced Learner’s Dictionaryでは,「the particular way in which something exists, is experienced or is done(何かが存在し,経験され,または行われる際の特定の方法)」と記されている.日本語辞書では,「様式」「様相」などを意味する用語と説明されているが,実際には分野や文脈によって示すものが異なってくる(図1).言語学においてモダリティは,文を構成する意味的側面の1つを指しており,その文が伝える事柄的な内容を担う「命題」に対して,「モダリティ」はその文の内容に対する話し手の判断・聞き手に対する伝え方といった文の述べ方を意味している.医学においては,MRIやCT,超音波などの機器の種別をあらわす言葉として用いられてきた.医用画像機器を総称してモダリティ機器とよぶケースがある.さらに,現在では,医用画像のみならず,検査値や電子カルテデータなど,それぞれをモダリティとすることが多い.生理学の文脈だと,モダリティは,視覚,聴覚,触覚などの感覚,また,それらを用いて外界を知覚する手段を意味している.医薬品業界においては,低分子,タンパク質医薬,ペプチド医薬など,医薬品の創薬基盤技術の方法や手段のことをモダリティとよんでいる.さらにヒューマンコンピューティングインタラクション(HPI)においてモダリティは,例えばテキストや画像,動画,音声などの入力の違いを示す言葉として使われている.このように分野により示すものは異なるものの,モダリティはその辞書的説明の通り,「ある特定の方法や手段を指す言葉」として使われている.
「マルチモーダル(multimodal)」は異なる複数モダリティの組合わせを意味する.PubMedを対象に「multimodal」を調べてみると,言葉としては古くから用いられている(一番古くは1964年に1件).例えば2000年ごろに多くみられる付随キーワードは「treatment study」や「therapy」であり,生理学的な文脈で使用されている例が多くみられる.2000年後半以降を見てみるとMRIやCTなどの医用画像に関する「imaging」が付随語とし多くみられるようになる.そして現在の深層学習が登場して以降,「multimodal」の単語を含む論文は増加を続けており,深層学習の発展,さらには最近の生成AIの流れもあり,情報科学分野を中心にマルチモーダルという言葉が広く使われるようになった.
生命科学研究においても,測定技術の発展によるデータの多様性と規模の増大により,シングルセル解析を中心にマルチモーダルを冠した研究が多くみられるようになった.一方,前述のように分野や文脈で示すものが異なることから,筆者自身を含めて何をもって「マルチモーダル」なのか混乱する場面も増えたように思う.
そこで今回の特集では,モダリティの指す対象を絞らず,各領域の文脈にそって眺めつつも,大きくは図2に示すように「異なる手法で得られるデータ」「異なる形式で表現されるデータ」を異なるモダリティとして扱いたい.
1モダリティデータ統合の意義
ChatGPT-4oをはじめとしたPDFや画像,動画,音声,Webページなどマルチモーダルな入出力を可能とする生成AIですでに体感されている方も多いと思うが,例えばテキストなどのユニモーダル(unimodal;単にsingle modalという場合も多い)に比べてテキストと画像を組合わせるようなマルチモーダルでは認識精度や頑健性が向上し,取り組むタスクの範囲を広げることができる.
例えば,シングルセル解析では,scATAC-Seqによるアクセス可能なクロマチン領域やscRNA-Seqによる遺伝子発現など,多様なモダリティデータがとられるようになっている.一方,個々のモダリティは,遺伝的特徴のスナップショットであり,細胞の特異性を部分的にしか描写できていないことが指摘されてきた1).そこで,複数のモダリティを統合解析することにより,遺伝子制御に関する生物学的ネットワークの解析能力を格段に向上させることができるようになっている2)〜4).また,複数モダリティを活用するにあたり,その組合わせの方法にもさまざまある.特に生命科学データでは,各モダリティの特徴空間※が異なることから深層学習を用いた統合が多い(鎌田の稿).特に医療分野では,医用画像と臨床データを組合わせた研究成果が多く出ている(Mohammed先生・森川先生の稿).それぞれにおける研究事例を紹介することで,各種モダリティの具体的なイメージと統合活用の利点について共有したい.
2生命科学データの統合
さまざまなモダリティデータを組合わせることにより,これまで見えていなかった現象やメカニズムへの理解を深めることができる.生命科学においては,これまでに各モダリティデータがデータベースという形で蓄積され,公共資財として共有されている.これら膨大なライフサイエンスデータベースを統合することが,生命というシステムを理解するための究極的なマルチモーダルデータ統合であるといえる.マルチモーダル統合とデータベース統合の位置付けについては特別コラム(高木先生の稿)を参照されたい.ただ,これまでのデータベースは対象別に構築されているとともに,扱う対象によって形式も大きく異なる.このようなデータの統合には,グラフデータモデルが適しているといえる.グラフ構造は対象データ間の関連性を含めて柔軟にデータを表現することができる.実際,知識グラフによるデータ統合により,新たな現象を明らかにしたとの報告5)もある.筆者自身も,創薬における新たなリソース創出に向けた様々なモダリティデータの統合活用のため,知識グラフによるデータ統合に取り組んでいる6).ただ,やはり複雑な生命科学データを統合するにはさまざまな工夫が必要となり,そのための手法やツールがこれまでに開発されてきている(片山先生の稿).本特集ではさらに,その技術をどう使うのかについて実例を共有することでより身近に感じていただきたいと考えている(牧垣先生の稿).
3AI技術と基盤モデル
多様なマルチモーダルデータの活用において,AIが重要な役割を担う.AI研究において,近年基盤モデル(foundation model)を用いるアプローチが勢いを増している.基盤モデルとは,事前に大量のデータを用いて学習(事前学習)したAIモデルのことである.基盤モデルを1つ用意しておくことで,幅広いアプリケーションにおいてより迅速かつ効率的に開発を行うことができる.例えば大量のDNA配列を学習しているDNABERT 7)やgeneformer 8)のように,生命科学における各モダリティデータに対する基盤モデルが開発されている.医薬品開発における各種モダリティの設計にも,基盤モデル活用が期待されている(大上先生の稿).実際,創薬の各ステップに適用されるさまざまなAIや基盤モデルを連携させたプラットフォーム開発も進められている(特別コラム:奥野先生の稿参照).テキスト・画像・音声などから事前学習したマルチモーダル基盤モデルも開発されているが,生命科学における膨大なモダリティからなる大規模データを用いたマルチモーダルな基盤モデルが可能になれば,生命科学研究を大きく変革すると期待されている(小島先生の稿).実例が出てきている医療分野における(マルチモーダルな)基盤モデルの実例とその活用の実績(戸﨑先生らの稿)を通して,その可能性を共有したい.
おわりに
分子に対してさまざまな計測が可能になり,生命科学において実に多様なデータが生成されるようになった.この多様なモダリティデータを統合し,活用することで,これまで明らかにされていなかった生命のメカニズム(原理)に迫れると期待される.統合活用のためには,AIなどデータ解析技術の発展とともに,入力となる生命科学の多様なデータを統一的に扱うための技術と基盤が重要になると考える.各分野の専門の先生による最新レビューをご覧いただき,データ統合の重要性とその先に拡がる未来について共有できたらと思う.
文献
- Argelaguet R, et al:Nat Biotechnol, 39:1202-1215, doi:10.1038/s41587-021-00895-7(2021)
- Stuart T & Satija R:Nat Rev Genet, 20:257-272, doi:10.1038/s41576-019-0093-7(2019)
- Lake BB, et al:Nat Biotechnol, 36:70-80, doi:10.1038/nbt.4038(2018)
- Bravo González-Blas C, et al:Mol Syst Biol, 16:e9438, doi:10.15252/msb.20209438(2020)
- Santos A, et al:Nat Biotechnol, 40:692-702, doi:10.1038/s41587-021-01145-6(2022)
- 学術変革領域研究(A):天然物が織り成す化合物潜在空間が拓く生物活性分子デザイン.
- Ji Y, et al:Bioinformatics, 37:2112-2120, doi:10.1093/bioinformatics/btab083(2021)
- Theodoris CV, et al:Nature, 618:616-624, doi:10.1038/s41586-023-06139-9(2023)
本記事のDOI:10.18958/7641-00001-0001763-00
著者プロフィール
鎌田真由美:2013年京都大学大学院情報学研究科を修了し,博士(情報学)を取得.その後,慶應義塾大学理工学部生命情報学科特任助教を経て,’15年より京都大学医学部附属病院特定研究員,’17年より京都大学医学研究科准教授.’24年より北里大学未来工学部データサイエンス学科教授に着任.ゲノム医療・個別化医療を中心としたバイオインフォマティクス研究に従事.