第1章 Introduction
1 序論:誰もがゲノムシークエンシングできる時代に
荒川和晴
(慶應義塾大学先端生命科学研究所)
DNAシークエンシングの民主化
はじめに1つ占いをしよう.
本書を手にとってまずこの序論を読んでいるあなたは,慎重なしっかりさん.自分の興味ある稿に目を通した後に序論に戻ってきているあなたは,せっかちだけど好奇心旺盛.
読み方には人それぞれ個性があって,どれもその人にとっては合理的だ.では経験豊富な分子生物学者ならどう読むだろうか.
まず,ウン千万円の画像スキャナーを購入して,年間ウン百万の保守契約を結ぶ.次に,「本」をシュレッダーにかけ,細切れになった紙片をハイスループットに読み取る.これを計算機で頑張ってつなぎ直す.余白が多いページはきれいにつながらないし,断片ごとの順番もよくわからないが,それはそういうもの.
もちろんここで言う「本」とはゲノムのことで,これまでの標準的なDNAシークエンシングは,サンガー法の時代から,ずっとこんなやり方だった.個性的(?)ではあるけれど,合理的かと問われれば,それしか手段がなかったとはいえ,どうしても首を傾げてしまう.
オックスフォード・ナノポアテクノロジーズ株式会社のGordon Sanghera CEOは,彼らの使命はシークエンシングを民主化する(democratize)ことだと常に明確に語ってきた.試薬代込み10万円程度で購入でき,USB給電で動作し手のひらにも載るコンパクトなシークエンサーMinIONは,長いDNAをちゃんと入れさえすれば,長さに制限なく最初から最後まで通して読めるしっかりさん.気軽に持ち運びリアルタイムにシークエンスできるから,せっかちな好奇心旺盛さんも安心だ.南極1)や国際宇宙ステーション2),学会会場3)や通勤中の自転車4)で,など,シークエンシングのエクストリームスポーツ化(?)すら起きつつある.
2018年1月号に,ナノポアシークエンサーの可能性を展望する特集を実験医学5)にて企画させていただくご縁に恵まれたが,その後確実にこの技術は普及を見せてきた.一方で,新しい技術ゆえに,また,技術発展のサイクルが早いゆえに,せっかく手に入れたシークエンサーを使いこなせないとお悩みの声をしばしばいただく.そこで,より実践的なプロトコール集をまとめることで,さらなるシークエンシング民主化の一助になるのではないかと思い,本書を企画させていただいた.
そう,だから本書を手にとったあなたのラッキーカラーはもう,ティールブルー*1だ.
慶應大学におけるゲノムシークエンシング「民主化」事例
DNAシークエンシングが民主化された時代の教育はどうあるべきか.これを先駆けて実践すべく,筆者は慶應義塾大学大学院政策・メディア研究科の実習授業「ゲノム工学実習」で新たな教育の試みを2018年度から続けている(図1).
本授業では,
- ❶ 学生が自分で解析をしたい微生物を持ち込み,
- ❷ 長鎖DNAを抽出し,ナノポアシークエンサーでゲノムをシークエンス(実験実習)
- ❸ 得られたデータをアセンブル・アノテーション(コンピューター解析実習)
- ❹ 最後に,本ゲノムの解析について genome reportの形式にまとめ,アメリカ微生物学会(American Society for Microbiology)のMicrobial Resource Announcement(MRA)誌に査読付論文を投稿,データはNCBI/DDBJへ登録
までを,全15回の授業で一気通貫に行う.これまで,ともすれば複数のチームで分業しながら多くの日数をかけて行ってきたコンプリートゲノム解析を,わずかな時間で最初から最後まで一人で成し遂げる体験をするのだから,大きな民主化と言ってよいだろうと思う.実際,2018年度には5報,2019年度には6報がMRA誌に掲載され,2020年度は2報が執筆時点(2021年3月)で査読中だ.解析した微生物には,例えば,南海トラフの熱水噴出孔付近から単離された好冷菌6)や,整形外科手術を行った部位から単離された皮膚常在菌7)など,これらのゲノムを活用した今後の研究の発展が楽しみなものが多数ある.
もちろん,この授業が実現できたのは,ナノポアシークエンサーの存在と,その周辺ソフトウェアツールの充実によるところが大きい.いかに微生物ゲノムと言えど,rRNA遺伝子のクラスターやリピート配列の存在によって,ショートリードだけでコンプリートゲノムを決定することは容易ではなかった.だが,平均長数十kbpの長いリードを用いれば,今ではCanuアセンブラー8)をデフォルトパラメーターで使って,一発で環状ゲノムがつながる(微生物ゲノムのde novoアセンブリについては第3章-1,動物は第3章-2,植物は第3章-3が詳しい).また,微生物ゲノム程度であればRapid Barcoding Kitを用いて1時間以内にライブラリ調製をし,複数のサンプルを混ぜ1枚のフローセルでマルチプレックスにシークエンスを実行できる.そのため,授業の構成も,いかにして長いDNAを抽出するか,という点に力を入れている.ナノポアシークエンサーの本領を発揮するためには,従来のスピンカラムを用いたDNA抽出では断片が短すぎるし,ピペッティングのしかたから初心に返った慎重なハンドリングが不可欠である.本授業ではGenomic-tip 20/G Kit(キアゲン社)を用いてDNA抽出し,それをパルスフィールド電気泳動(Pippin Pulse,Sage Science社)で確認することで,数百kbp以上のゲノムDNA断片を抽出し扱うためのさまざまなTipsを教えている.ゲノムのアノテーションやクオリティチェックも,従来であればさまざまなツールを組み合わせて初めて実現できたわけだが,DDBJ DFAST9)を使えば,アセンブルされたFASTAファイルをブラウザでアップロードするだけで,CheckM10)によるアセンブリの完全度のチェックや,遺伝子予測およびその機能アノテーションまでを全自動で行ってくれる.まさに,必ずしも高度な実験・バイオインフォマティクス技術や設備をもっていなくても,誰でも気軽に全ゲノム解析が行える時代になったのである.これに関しては実際に無料のクラウド環境NanoGalaxyを用いた解析手法について,第1章-3で詳述する.ゲノムをシークエンスしてそのデータを解析することは,もはやPCRと同じくらい身近で当たり前な技術になりつつあるのだ.なお,ここに登場したツールたちは,もちろん本書を読めば使いこなせるようになるだろう.
ちなみに,本授業にかかわるコストについてしばしば質問を受けるので少しだけ言及しておきたい.受講生の人数にもよるが,5〜6サンプルのマルチプレックスシークエンスはMinIONの性能的に全く問題ないため,フローセル1枚+Rapid Barcoding Kit+Genomic-tipでおおよそ20万円程度.例年平均の受講生15人程度で考えると,1人あたり1万円強となり,十分に民主化されたお値段だと思う.じつはMRAへの投稿料(1報あたり$1,050)の方が圧倒的にお金がかかっているのだが,そこはまぁ(業績にもなるし)ご愛嬌.ほかにも本授業で用いるツールのコマンドラインパラメーターを含めた詳細はウェブサイトで公開11)しているので,よろしければそちらもご覧いただきたい.
ナノポアシークエンシングのマジカル・ミステリー・ツアー
ナノポアシークエンシングを取り巻く状況は,まさに千変万化である.数カ月に一度新しいベースコーラーが登場し,そのたびにアウトプットされる配列の精度が上がる.次々に開発されるソフトウェアはbioRxivに報告された途端にTwitter上でさまざまな検証や応用が続き,その論文が査読されて出版される頃にはすでに次のソフトウェアがbioRxivに出て主流になりつつあったりする.3年前に実験医学で特集を企画した際には,その内容が光陰流転のなかで簡単に陳腐化してしまうことをあえて恐れずに,タイムリーに出すことをめざしたが,幸いなことに主要なケミストリーは細かい改良がありながらも現状継続して利用されており,ソフトウェアについても主要なもののなかにはバージョンを重ねながらもいまだに主流の地位を維持しているものもある.そんななか,核となる強みはますます強化され,弱点は改善されつつある(より詳細にはわれわれの総説12)もご覧あれ.第1章-2であらためて原理や歴史についても復習できる).
- ポータビリティコンピューター一体型のMinION MkICの登場と,常温保存可能な試薬キットの登場によってフィールドでのシークエンシングがより容易になった.
- コストより小規模のシークエンスが可能なFlongleの登場によって,ちょっとした解析をより安価に行えるようになった.
- ロングリード長いDNAを入れることさえできれば長さの制限なく読めること自体は変わらないものの,各種プロトコールやシークエンシングソフトウェアの改良によって記録は日々更新されている.筆者の知る限りの現時点の最長記録は1リード4.15 Mbp 13).微生物ゲノムのサイズに匹敵する(その長さを活かしたリピートや構造変異の解析の実際については第2章-1,2,3を参照.1 Mbp以上のウルトラロングリード取得のプロトコールについては第2章-5を参照).
- スループット試薬やソフトウェアの改良によって大幅に向上し,MinIONの1ランでも10〜20 Gbpは普通に得られるようになってきた*2.これはIllumina社のMiSeqを凌駕する.さらに,PromethIONの登場によって,Illumina社のNovaSeqと同等以上の出力も可能になった.
*2オックスフォード・ナノポアテクノロジーズ社はカタログスペックにチャンピオンデータを載せる傾向があり,執筆時点で“Best in field yield”が“42 Gbp”とあるが,現実的な使用感としては平均10〜20 Gbpである.それでも十分素晴らしいだけに,強気すぎる主張はもったいない部分である.
- 精度実感として平均精度95〜98%程度という印象で,まだまだIllumina社シークエンサーに匹敵するものではないが,かなり良くなってきた(図2).実感できる違いとして,これまでゲノムアセンブリ後にIlluminaリードを使ったエラーコレクションが必ず複数回必要だったが,最近ではPilon 14)で1回エラーコレクションするだけで,高度に保存された遺伝子の捕捉率からゲノムアセンブリの網羅性を評価するBUSCO completenessが最大になることが増えた.R10フローセルを使用すれば,十分なカバレッジ(x50〜x100)がある場合にナノポアリードのみでQ40以上のコンセンサス精度を得ることも十分に現実的である.
もちろん,RNAを逆転写なしにそのままシークエンスできる真のRNA-Seqであるdirect RNAシークエンシングや,1分子をPCR増幅なしにそのままシークエンスできることからDNA/RNAの各種塩基修飾を検出できるメリットも強化されている(これらの技術については第4章-1を参照).direct RNAシークエンシングは精度が大きく向上し,Guppyベースコーラーが5mC,6mA,CpGなどの修飾塩基をベースコールできるようになった.長いDNAをハンドリングするプロトコールも充実し,長鎖DNAを抽出するためのキットも各社からさまざまなものが市販されている.逆にキットが多くて悩んでしまう!という贅沢なあなたにも,第1章-4でキットや機種の選び方をフォローしているのでご安心を.さすがにそれでも千古不易とはいかないが,ロングリードを扱うための本書の各種プロトコールの大枠での考え方は,個々のソフトウェアのパラメータや試薬の種類が今後多少変わったとしても,今後数年にわたって重要であり続けるものと思われる.
ナノポアシークエンサーはもはや実験的新技術ではなく,面目一新,多くのプロジェクトでシークエンス技術の第一選択肢になりつつある.例えば,今世界を大きな混乱に陥れている新型コロナウイルスパンデミックにおいて,ウイルスの検出は現状定量PCRが主であるが,変異の検出や伝播の追跡にはゲノム解析が不可欠であり,ここでナノポアシークエンサーは主要シークエンサーとして活用されている.そもそもSARS-CoV-2は30 kbp程度のゲノムからなるRNAウイルスであり,迅速かつ網羅的な解析には直接RNAを解析できるリアルタイム・ロングリードシークエンサーが適している.さらに,安価でポータブルでハイスループットであるのだから,世界各所で解析環境を構築するうえでもメリットが大きい.実際,現在標準的に利用されているPCRプライマーはARTIC Network(英国を中心とする研究者による感染症サーベイランスプロジェクト)が公開しているもので,ここのSARS-CoV-2ゲノム解析プロトコールは主にナノポアシークエンサーを利用することを前提としている15).また,SARS-CoV-2のゲノム情報は現在GISAIDデータベース16)に集積されており,ここに集まっている数万のゲノム情報をもとにNextstrain17)などの変異・系統の可視化プラットフォームが構築されているが(図3),GISAIDのSARS-CoV-2ゲノムは執筆時点でその25%程度がナノポアシークエンサーによって決定されたものだという18).今まさに,世界を救うためにナノポアシークエンサーが量才録用されているのだ.ナノポアシークエンサーを用いたリアルタイム細菌診断については第4章-2,ウイルス解析については第4章-3もご参照いただきたい.
BON VOYAGE!
近年の生命科学がそうであるように,大量のデータを生み出すシークエンシングには,いわゆるWETとDRYの両方の知識が不可欠だ.どちらかに苦手意識がおありの方もいらっしゃると思うし,複数の領域のエキスパートになるのは困難も多いと思う.一方で,後のコンピューター解析にどういったデータが必要かを理解したうえで実験計画を組んだり,逆に実験条件や分子の操作をイメージしながらその結果得られたデータを掘り下げたりすることができれば,その研究は実に味わい深さを増すものである.そのため,本書は各テーマのエキスパートの先生方に依頼し,彼らが試行錯誤のうえに練り上げたプロトコールを,WETとDRYの両方についてできうる限り詳細に記載していただいた.苦手なパートでは,まずは忠実に記述通りになぞりながら,そして慣れてきたら一つひとつのステップの奥にある意図を想像しながら読み進めていただけるとまた新たな発見があるのではないかと期待する.本書が,誰もが当たり前にシークエンシングを活用した研究をできる時代の一助になれば幸甚である.
文献・ウェブサイト
- Johnson SS, et al:J Biomol Tech, 28:2-7, 2017
- Castro-Wallace SL, et al:Sci Rep, 7:18022, 2017
- Ii KM, et al:J Genomics, 7:18-25, 2019
- https://twitter.com/ReindertN/status/1365000414765015040
- 「実験医学 Vol.36 No.1 どこでも 誰でも より長く ナノポアシークエンサーが研究の常識を変える!」(荒川和晴/企画),羊土社,2017
- Evans-Yamamoto D, et al:Microbiol Resour Announc, 8:doi:10.1128/MRA.00326-19, 2019
- Seo K, et al:Microbiol Resour Announc, 9:doi:10.1128/MRA.00290-20, 2020
- Koren S, et al:Genome Res, 27:722-736, 2017
- Tanizawa Y, et al:Bioinformatics, 34:1037-1039, 2018
- Parks DH, et al:Genome Res, 25:1043-1055, 2015
- https://tinyurl.com/keio-gew
- Kono N & Arakawa K:Dev Growth Differ, 61:316-326, 2019
- https://twitter.com/boas_pucker/status/1334164934322753541
- GitHub, Pilon
- Artic Network
- GISAID
- Nextstrain
- WhatisBiotechnology, Nanopore sequencing