実験医学別冊:バリアントデータ検索&活用 変異・多型情報を使いこなす達人レシピ
実験医学別冊

バリアントデータ検索&活用 変異・多型情報を使いこなす達人レシピ

  • 坊農秀雅/編
  • 2020年09月25日発行
  • AB判
  • 238ページ
  • ISBN 978-4-7581-2245-0
  • 5,500(本体5,000円+税)
  • 在庫:あり
本書を一部お読みいただけます

Chapter2 バリアントデータを検索する(日本人)

(1)日本人集団におけるバリアントの頻度情報を調べる  −− TogoVar①

豊岡理人
(科学技術振興機構(JST)バイオサイエンスデータベースセンター(NBDC))

Chapter 2-(1)のレシピでできることChapter 2-(1)のレシピでできること

ヒトゲノムに存在するバリアントのアレル頻度やジェノタイプ頻度を収集したデータベースは,疾患感受性遺伝子変異探索研究において重要な基礎的データである.また,希少疾患を対象とするヒトゲノム解析においては,疾患原因となるバリアントを絞り込む際に,データベースに存在するコモンなバリアントを解析対象から外すことで解析時間を短縮できる.このレシピではさまざまな研究グループが公開しているデータベースを紹介するとともに,それらの頻度情報を簡便に取得できるサービスとして開発されたTogoVarの使い方を説明したい.

こんな読者におすすめ
  • 日本人集団のバリアントの頻度をウェブで検索したい人
  • さまざまなデータベースに登録されたバリアントを一括で検索したい人

予備知識:TogoVarとは予備知識:TogoVarとは

TogoVarは,主に日本人のヒトゲノムに存在するバリアントの多様性統合データベースとして開発された.以下では,TogoVarに収載したバリアントのデータベースを紹介する.

NBDCヒトデータベースに寄託されたデータより再解析した頻度情報

● JGA-NGS,JGA-SNP1, 2)

NBDCヒトデータベース(後述)にデポジットされたデータを再解析し,作成されたデータセットである.NBDCヒトデータベースには,研究によって産出されたゲノムなどの個人情報に類するデータが寄託されており,他の研究者からの利用が可能となっている.JGA-NGSは125サンプルの全エクソームシークエンス(Whole Exome Sequence:WES)データから得られたアレル頻度情報である.JGA-SNPは183,884サンプルのSNP-Chipデータから得られたアレル頻度およびジェノタイプ頻度情報を収載している.JGA-NGSについてはサンプル数が少数であることから,JGA-NGSおよびJGA-SNPでアレルカウントが5以下のバリアントについては,TogoVarの検索結果としては表示していないことに注意をしてほしい.

NBDCヒトデータベースとは

科学技術振興機構(JST)が国立遺伝学研究所生命情報・DDBJセンターと共同で運営する,公的資金によるヒト関連研究の成果公開のための受け皿となるデータベースである.近年,生命科学における研究成果は,論文発表のみならず元データや解析プロトコルの公開を求められる場面が増加している.しかし,元データはサンプル提供者のプライバシー保護の観点から制限なく公開することはできない.そこで,データ提供および利用の際の審査を行う審査委員会の機能が付いたデータベースとして,2013年にNBDCヒトデータベースが発足した.

このデータベースにデータ提供する際は,サンプル提供者(研究参加者)に対してどのようなインフォームドコンセントを行ってデータが取得されたか,学内の倫理審査を経ているかなどについて確認が行われ,NBDCヒトデータ審査委員会での審査を通過したものだけが制限的に公開されている.「制限的に」というのは,各研究者が公開データを利用する際,研究計画書にデータの利用について記載したうえで,所属する研究機関の倫理審査を通す必要があることを指している.利用の申し込みは,これらの手順をふまえたうえで行っていただきたい.

2020年6月末日現在で148件のデータセットが登録され,利用可能となっている.URLは次のとおりである.

● NBDCヒトデータベース

https://humandbs.biosciencedbc.jp/

登録・利用を検討している場合は,ぜひガイドラインを参照いただきたい.

● NBDCヒトデータベースに関するガイドライン

https://humandbs.biosciencedbc.jp/guidelines

その他の公共のヒトゲノムのアレル頻度データベース(日本国内)

● Human Genetic Variation Database(京都大学)3)

Human Genetic Variation Database(HGVD)は京都大学が公開しているバリアントの頻度情報データベースである.TogoVarではHGVDの1,208サンプルのWESから得られたバリアント頻度情報を掲載している.

● jMorp(東北メディカル・メガバンク機構)4)

jMorpには,東北メディカル・メガバンク機構が収集した約4,700サンプルの全ゲノムシークエンス(Whole Genome Sequencing:WGS)データを解析し,その結果得られたバリアントのアレル頻度情報(ToMMo 4.7KJPNデータセット)が収載されている.これらは住民コホートから得られたサンプルであるため,大部分のサンプルが健常人であると考えられる.健常人のWGSから得られたバリアントの頻度情報としては,日本で公開されているなかで最大のサンプルサイズをもつ.詳細については,Chapter 2-(5)を参照されたい.

● GEM-J Whole Genome Aggregation(GEM-J WGA)データセット5)

GEM-J WGAデータセットは,前述の東北メディカル・メガバンク機構が収集した約4,700サンプルのWGSデータに加えて,NBDCヒトデータベースやAMEDゲノム制限共有データベース(AGD)に登録された約3,000サンプルのWGSデータをあわせ,計7,609のWGSデータからバリアント検知を実施して得られたデータセットである.JGA,AGDのコモンな疾患サンプルを含んでいるが,希少疾患やがん細胞からのサンプルは除外されている.このデータセットのもとになるFASTQファイル,解析結果のBAMファイルおよびサンプルごとのVCFファイルはNBDCヒトデータベースおよびAGDに収載されており,研究者はNBDCデータ審査委員会に利用申請をすることで生データ(FASTQファイル)にアクセス可能である.ただし生データは非常にデータサイズが大きいため,それに対応できる快適な作業環境を準備するのは困難である.自身で生データにアクセスし解析する場合は,NBDCヒトデータベースの機関外サーバ6)環境を利用されることも検討願いたい.

その他の公共のヒトゲノムのアレル頻度データベース(海外)

● ExAC / gnomAD7)

ExACはBroad研究所が中心となって収集したWES,WGSサンプルを解析したデータベースであり,そのExACの後継のプロジェクトがgnomADである.gnomADでは,125,748のWESサンプルと15,708のWGSサンプルを解析したデータセットであるv2と,71,702のWGSサンプルを解析したデータセットであるv3が提供されている.v2とv3の参照ゲノム配列のバージョンはそれぞれGRCh37とGRCh38であり,両者で異なっているので注意してほしい.また,ExAC,gnomADは世界のさまざまな集団におけるバリアントの頻度情報を取得するには非常によいサイトであるが,これらに含まれる日本人のサンプル数は76と非常に小さい.詳細については,Chapter 1-(2)を参照されたい.

検索例:TogoVarで興味のあるバリアントの日本人における頻度を検索例:TogoVarで興味のあるバリアントの日本人における頻度を検索する

STEP 1TogoVarにアクセスする

❶ 次のURLをブラウザに直接入力するか,Googleなどの検索エンジンで「TogoVar」と検索してアクセスすると,TogoVarの一覧検索画面が表示される(図1).

画面上部に検索文字列を入力する欄があり,画面下部には検索結果を表示する欄がある.

また,画面右側の「Filters」で条件を指定すると,画面下部に表示された検索結果のバリアントをさらに絞り込むことができる.

なお,TogoVarに収載されたバリアントの参照ゲノム配列はhg19(GRCh37)であることに注意してほしい.今後,GRCh38に対応する予定であるが,興味のあるバリアントのrs番号が不明であったり,GRCh38の位置情報のみしかわからない場合は,dbSNPのAdvanced Searchの機能,または,UCSCの提供するサービスLiftOver8)を利用してhg19(GRCh37)の位置情報を取得してほしい.

STEP 2検索したいバリアントの情報を入力する

検索には,tgv番号,バリアントの位置,範囲,rs番号,遺伝子名,疾患名が利用できる.

❶ rs番号,tgv番号で検索する.

ヒトのバリアントを指すIDとしては,米国NIHのdbSNPに登録されたrs番号が広く流通している.TogoVarでも,このrs番号でバリアントを検索することが可能である.なお,rs番号は位置に対して一意に振られるもので,ある遺伝子座位に複数のアレルが存在する場合でも同じ番号となっている.

日本人ゲノムで検知されたバリアントに対しては,染色体,位置,日本人ゲノムで検知されたバリアントに対しては,染色体,位置,リファレンスアレル注1,オルタナティブアレル注1ごとに,「tgv」からはじまるTogoVar独自のtgv番号が振られており,このtgv番号も,rs番号と同じように検索に利用可能である.

❷ バリアントの位置,範囲で検索する.

位置情報で検索する場合は,「染色体番号:位置」の形式で入力する.染色体番号の先頭の「chr」は必要ないので,たとえば,1:1000000のようになる.範囲で検索する場合は,「染色体番号:開始位置-終了位置」を入力する.1:1000000-2000000のように「開始位置-終了位置」の間にはスペースを入れないように注意願いたい.

❸ 遺伝子名で検索する.

遺伝子名での検索には,HGNC(HUGO Gene Nomenclature Committee)9)の名称が利用できる注2.検索文字列を3文字以上入力するとサジェスト機能が起動し,入力候補が表示される.遺伝子名は一般的に知られた名称がHGNCの正式名称ではない場合もある.たとえば,PD-1遺伝子のHGNCでの正式名称(Approved symbol)はPDCD1であり,PD-1は別名(Alias symbols)として登録されている.TogoVarでは正式名称だけでなく別名も検索およびサジェストの対象にしており,図2のように正式名称と別名が両方表示されるようになっている.検索文字列の入力中は遺伝子名,疾患名の両方に対してサジェスト機能が起動するため,遺伝子名で検索しているつもりであっても,文字列が一致していれば疾患名も表示される.選択時に「Gene Symbol」か「Disease name」かを見誤らないようにしてほしい.

❹ 疾患名で検索する.

TogoVarは,ヒトゲノムのバリアントと疾患の関連についての情報を収集したデータベースであるClinVar10)の情報を取り込んでおり,疾患の名称で検索すると関連するバリアントが表示される.疾患名での検索においても,3文字以上入力するとサジェスト機能が起動する.ただし,サジェスト機能では遺伝子名,疾患名ともに最大10項目までしか表示されないので,検索したい名称が候補に表示されない場合は,検索文字列の続きを入力して候補の表示を絞り込んでほしい.

STEP 3検索結果に条件を付加し,結果をさらに絞り込む

画面右側に配置されたフィルター項目(Filters)を用いることで,STEP 2までに得られたバリアントの一覧からさらに情報を絞り込むことが可能である.フィルターの条件としては,以下の項目が使用できる.

❶ 検索対象とするデータセット(Dataset)で絞り込む.

前述したJGA-NGS,JGA-SNP,GEM-J WGA,4.7KJPN,HGVD,ExAC,ClinVarから取捨選択が可能である.各データセットの横にはデータセットごとにバリアントの数が表示されている.

❷ バリアントの種類(Variant type)で絞り込む.

SNV,Insertion,Deletion,Indel,Substitutionの5種類から選択が可能である.これらについてはVariant Effect Predictorによって定義されている注3

SNVは一塩基置換,Insertionは挿入,Deletionは欠失,Indelは2つ以上の塩基におよぶ挿入と欠失があるもの,SubstitutionはIndelのうち挿入と欠失が同じ長さのバリアントである.

❸ バリアントのTranscriptへの影響(Consequence)で絞り込む.

EMBL-EBIが提供しているバリアントのアノテーションソフトウェアVariant Effect Predictor11)は,前述のバリアントの構造による分類の他に,Transcriptに対する影響による分類をConsequence12)として提供している.たとえば,変異によって転写配列の途中にストップコドンが生じるバリアント「Stop gained」や,フレームシフトを引き起こすバリアント「Frameshift variant」などが分類として含まれている.Transcriptに対する分類であるため,1つのバリアントに複数の分類が付けられていることがあるので注意してほしい.

❹ ClinVarが付与したClinical Significanceで絞り込む.

Clinical Significanceについては1-(3)参照.

❺ SIFT,Polyphen-2のスコアの閾値で絞り込む(図3).

SIFT13)とPolyphen-214)は,バリアントによって起こるアミノ酸置換がタンパク質の機能に与える影響についてスコア化するソフトウェアである.SIFTではスコア値が0.05未満だと「Deleterious」,0.05以上だと「Tolerated」とされているので,この閾値でバリアントの選択を可能としている.また,Polyphen-2のスコア値は1に近づくほどインパクトが高く,スコア値の範囲ごとに「Probably Damaging」,「Possibly Damaging」,「Benign」が割り当てられているので,これらの閾値が選択可能である.スコア値はTranscriptごとに評価されるので,1つのバリアントに複数のスコア値が付与されることがある.

「Dataset」「Variant type」などのフィルター項目内での1つひとつのチェックは「または」(OR条件),フィルター項目間の条件は「かつ」(AND条件)として扱われる.たとえば,図4のようにフィルター項目を選択した場合,「DatasetのJGA-NGSまたはJGA-SNPまたは4.7KJPNまたはHGVDに存在する」かつ「Variant typeがDeletionまたはIndelである」かつ「Clinical SignificanceがPathogenicである」という条件でバリアントを選択することを意味している.

STEP 4検索の結果として得られたバリアントの一覧を確認する

バリアントの一覧には,以下の項目が表示される.

❶ TogoVar ID

TogoVar独自のID(tgv番号).染色体,位置,リファレンスアレル,オルタナティブアレルごとにユニークな番号が割り振られる.

❷ RefSNP ID

dbSNPがバリアントに割り当てているID(rs番号).文献などにおいて最も利用されており,染色体ごと,位置ごとにユニークな番号が割り振られている.この項目をクリックすると,dbSNPの該当するバリアントのページに遷移する.

❸ Position

GRCh37における位置.

❹ Ref / Alt

リファレンスアレルとオルタナティブアレル.

❺ Type

バリアントのタイプ.SNV,Insertion,Deletion,Indel,Substitutionのいずれかに分類される.

❻ Gene

HUGOの遺伝子名.クリックするとHGNC(HUGO Gene Nomenclature Committee)の該当する遺伝子名のページに遷移する.

❼ Alt frequency

各データセットにおけるオルタナティブアレルの頻度をバーで表示している.バーの高さと頻度,および,色とデータセットの対応は図5のようになっている.

❽ Consequence

Variant Effect Predictor(VEP)によって付与されたvariant consequenceの値.

❾ SIFT,Polyphen

バリアントが翻訳領域に乗っており,その変異が非同義置換であった場合のタンパク質に与える影響を計算するソフトウェアSIFTおよびPolyphen-2によって計算されたスコア値.スコア値の意味については前述のように,SIFTは0に近いほど,Polyphen-2は1に近いほど,生物学的にインパクトを与えると評価される.

❿ Clinical significance

バリアントと疾患との関連を収載するデータベースであるClinVarには,バリアントごとの臨床的意義およびそのエビデンスレベルが登録されている.この欄では,ClinVarの情報にもとづいてバリアントに付与された臨床的意義15)についての情報を表示する.

STEP 5検索の結果として得られたバリアントの概要を確認する

一覧検索で複数のバリアントが結果として表示されているときに,各バリアントの行をクリックすると画面右側のフィルター項目「Filters」が隠れ,バリアントの簡易情報を表示する「Preview」ペインが出現する(図6).ここでは各データセットにおけるバリアントの頻度や,バリアントが遺伝子上に存在するときはその遺伝子の名称を確認することができる.

STEP 6バリアントの詳細情報を確認する

一覧検索の結果にて,興味あるバリアントのtgv番号(TogoVar ID)をクリックすると,1変異画面に遷移してバリアントの詳細情報を確認できる.この画面については,Chapter 2-(2)で詳細に説明する.

研究発表時のポイント研究発表時のポイント

TogoVarではTogoVarそのもの,および特定のバリアントを引用する際の記述方法として,以下のように定めている.

● TogoVarを引用する場合:

TogoVar [Internet]. Tokyo: National Bioscience Database Center, Japan Science and Technology Agency (Japan); 2018 - [cited YYYY Mmm DD]. Available from:https://togovar.biosciencedbc.jp

● TogoVarの特定のバリアント(tgv47264307)を引用する場合:

Variant [Internet]. Tokyo: National Bioscience Database Center, Japan Science and Technology Agency (Japan); [2018] - . TogoVarID tgv47264307; [cited YYYY Mmm DD]. Available from:https://togovar.biosciencedbc.jp/variant/tgv47264307

そのほかのデータセットでの引用方法については,https://togovar.biosciencedbc.jp/doc/termsを参照いただきたい.

アレンジレシピアレンジレシピ

一覧検索画面の表示項目を変えたいときは?

検索結果などに自身の研究では使用しない項目が表示されることもあるだろう.その場合,TogoVarでは一覧項目やフィルター条件で表示される内容を変更することが可能である.一覧検索画面の右上に「Configuration」という項目があり,ここをクリックすると図7のように表示項目やフィルター項目を選択できる画面が現れる.ここで,自分にとって必要のない項目を削除することで表示項目が減るので,ぜひカスタマイズして利用してほしい.

著者からひとこと著者からひとこと

データベース(箱)とデータセット(箱の中身)は引用の規定が別々になっていることがあるので,データベースを利用して論文を発表する際は,利用規定を読むことを忘れないようにしてほしい.特に,本稿で紹介したTogoVarは他のプロジェクトの研究グループが作成したデータを利用したデータベースであるため,引用する場合はオリジナルデータを産出したグループへのAcknowledgementや,Referenceへの記載を忘れないようにお願いしたい.

参考文献・資料

書籍概略はこちら
実験医学別冊:バリアントデータ検索&活用 変異・多型情報を使いこなす達人レシピ
実験医学別冊

バリアントデータ検索&活用 変異・多型情報を使いこなす達人レシピ

  • 坊農秀雅/編
  • 5,500(本体5,000円+税)
  • 在庫:あり