がんゲノム医療の保険収載に代表されるように,個別化予防・ゲノム医療が身近なものとなりつつある.これらの背景には,次世代シークエンサーによる解析の高速化と低価格化が大きな要因ではあるが,ヒトゲノム変異解析においての本質的な要因は,解析手法が,参照配列をベースとした「リシークエンス」になった点が重要である.ここで「リシークエンス」とは,短鎖リードシークエンサーによるシークエンス解析の結果を参照配列にマップし,違う部分を明らかとすることで,変異解析を実施することを意味している.変異解析のみならず,RNA-seq解析など,さまざまな-seq解析も参照配列を前提として実施されているが,個別化医療の実現のための変異解析では,特に参照配列に求められる精度が重要となっている.
現在利用可能な参照配列は,国際基準配列である.国際基準配列は2001年にドラフト版が発表されて以降,Genome Reference Consortiumによる不断の努力により,徐々に改定され,現在はGRCh38となっている.国際基準配列は,リシークエンスにおいて欠かせないものではあるが,主にアフリカ系アメリカ人と西洋系民族の混交由来のゲノム配列であることにより,日本人集団のリシークエンスではさまざまな問題を引き起こしてきた.例えば,日本人集団ではほとんど観察されないアリルが参照配列に含まれていたり,日本人集団には存在しない部分配列が含まれていたり,日本人集団でのみ高い頻度でみられる部分配列が参照配列には存在しないことなどが報告されている.その結果,日本人のサンプルの変異解析において,常に偽陽性や偽陰性が発生し,精度の高いゲノム医療の推進の妨げとなってきた.
これに対して,東北大学東北メディカル・メガバンク機構では,出身地域が異なると推定される3人の日本人ボランティア男性に対して,PacBioRSⅡによる長鎖シークエンス解析,Bionanoオプティカルマッピング,短鎖リードシークエンス解析(ペアエンド,メイトペア)を組合わせたデノボアセンブルを実施することで,日本人のゲノム解析のための参照配列JG1を構築し,2019年2月25日にjMorpにてデータの公開を行った.jMorp(Japanese Multi Omics Reference Panel)は当機構において開発を行っている日本人多層オミックスリファレンスパネルに関連するデータで,他にもメタボロームや3,500人の短鎖リードシークエンス解析による変異頻度データなども公開している.JG1に関して公開しているデータとしては,ゲノムブラウザを利用した対話的な利用での公開に加えて,研究者が参照配列として解析パイプラインに組込むために必要なファイル群〔FASTA形式でのJG1配列,GRCh38やhg19への座標変換(liftover)を行うためのチェインファイル,GENCODEのアノテーションファイル〕を含む.アノテーションに関しては,順次,GATKの解析パイプラインで必要なリソースバンドルなどの標準的に用いられるものに関してはlisftover後のデータの公開も予定している.
現在はベータ版ということで,一部既知のアノテーション問題や配列構築がうまくいっていない部分はあるが,現在も更新が精力的に続けられている国際基準配列のように,3カ月に一度程度のマイナーバージョンアップと年に1度程度のメジャーバージョンアップを可能な限り続けていくことで,日本人のためのゲノム医療の実現に貢献できればと考えている.