データベース講習会@つくば 2014/2/13(木) ヒトゲノムバリエーションデータベース 独立行政法人 科学技術振興機構(JST) バイオサイエンスデータベースセンター (NBDC) 川嶋実苗 http://biosciencedbc.jp/ ©2014 NBDC Licensed Under CC 表示2.1日本 内容 I. バイオサイエンスデータベースセンター(NBDC) の取組み II. 統合化推進プロジェクトから誕生したDB III. ヒトゲノムバリエーションデータベースの紹介 http://biosciencedbc.jp/ 2 内容 I. バイオサイエンスデータベースセンター(NBDC) の取組み II. 統合化推進プロジェクトから誕生したDB III. ヒトゲノムバリエーションデータベースの紹介 http://biosciencedbc.jp/ 3 NBDCの取り組み 4 ①データベースの整備・統合化の戦略連携構 築など ②NBDCポータルサイトの構築と、その運用 ③データベース統合化の実現に向けて基盤と なる技術の開発 ④分野ごとのデータベース統合化等を通じて、 ライフサイエンス分野データベースの統合 http://biosciencedbc.jp/ 4 NBDC3大サービス! nbdc http://biosciencedbc.jp/ 5 内容 I. バイオサイエンスデータベースセンター(NBDC) の取組み II. 統合化推進プロジェクトから誕生したDB III. ヒトゲノムバリエーションデータベースの紹介 http://biosciencedbc.jp/ 6 http://biosciencedbc.jp/ 7 統合TV (TOGO TV) 統合化推進の課題について、 詳細を知りたい かたは・・・ ☜コレ! 各課題のHands-on講 演を動画で配信中 http://biosciencedbc.jp/ 8 内容 I. バイオサイエンスデータベースセンター(NBDC) の取組み II. NBDCの3大サービス III. 統合化推進プロジェクトから生まれたDB IV. ヒトゲノムバリエーションデータベースの紹介 http://biosciencedbc.jp/ 9 国内外での取り組み 1)アメリカ合衆国 NCBI(米国生物工学情報センター) ・GenBank 新規塩基配列情報データベース ・dbSNP SNPやin/delといった変異情報を蓄積 ・dbVAR 構造多型のデータを蓄積 ・dbGAP/SRA GWAS, 次世代シークエンサー結果 を含むgenotype-phenotype に関するデータを蓄積 2 )ヨーロッパ EBI(欧州バイオインフォマティクス研究所) ・EMBL-bank 新規塩基配列情報データベース ・EGA/ERA GWAS, 次世代シークエンサー結果 を含むgenotype-phenotype に関するデータを蓄積 3 )日本 DDBJ(日本DNAデータバンク) ・新規塩基配列情報データベース ・JSNP SNPやin/delといった変異情報を蓄積 ・JGA/DRA 次世代シークエンサー結果(genotype)と phenotype に関するデータを蓄積 統合DB PJ GWASやコントロール集団の変異情報等 http://biosciencedbc.jp/ 10 Human Genome Variation Database GWAS DB http://biosciencedbc.jp/ 11 ヒトゲノムバリエーションデータベース 目的 疾患・変異・臨床情報の関係を整理・体系化し、得られた成 果・情報を公開・共有することにより、疾患機序の解明や個別化医 療の実現に貢献 構想 1)NGSおよび、その他の解析法(GWAS含)によって発見される 変異-疾患情報の受け入れ、半永続的な集約的データ保管 2)文献情報など過去に報告された疾患感受性、薬剤応答性、ウィルス耐性 などに関わる多型・変異データの収集とDB化 3)上記データを整理体系化したDBの構築、データの公開と共有 (疾患→多型・変異、多型・変異→疾患を横断的に探索可能) 4)健常者データについては、phasingやハプロタイプ推定、必要に応じて 1000 genome PJデータ, GWAS 健常者データも用いて遺伝子型推定 (imputation)を行い、日本人に特化したSNP, in/del, CNVなど各種多型・ 変異のアリル頻度、ハプロタイプ頻度を計算・公開 効率的な疾患遺伝子の探索に役立てる 12 http://biosciencedbc.jp/ Human Genome Variation Database DB名 CNV control DB 概要 健常者の数十万から数百万のSNPチップデータか ら検出したCNVを登録 URL http://gwas.biosciencedbc.jp/ cgi-bin/cnvdb/cnv_top.cgi 健常者の数十万から数百万のSNPチップデータか http://gwas.biosciencedbc.jp/ CNV association DB ら検出したCNVのケースコントロール解析の結果 cgi-bin/cccdb/ccc_top.cgi を登録 GWAS-DB 数十万から数百万のSNPチップによる疾患関連解 析の頻度情報と遺伝統計解析の結果を登録 http://gwas.biosciencedbc.jp/ cgi-bin/gwasdb/gwas_top.cgi HLA DB 次世代シークエンサーによって検出されたHLA領 域における健常者変異、疾患関連変異、及び、文 献に発表されている疾患関連変異を抽出・登録 http://gwas.biosciencedbc.jp/ cgi-bin/hladb/hla_top.cgi Human Variation DB 次世代シークエンサーによって検出された健常者 変異、疾患関連変異、及び、文献に発表されてい る疾患関連変異を抽出・登録 日本人健常者の参照配列情報も閲覧可能に http://gwas.biosciencedbc.jp/ cgi-bin/hvdb/hv_top.cgi SNP-DB 数十万から数百万のSNPチップを用いて解析した 健常者のアリル・遺伝子型頻度の情報とハー ディーワインバーグ平衡検定値を登録 http://gwas.biosciencedbc.jp/ snpdb/snp_top.php http://biosciencedbc.jp/ 13 開発データベースのトップ画面 https://gwas.lifesciencedb.jp/ Mutation database http://biosciencedbc.jp/ Koike et al. J Hum Genet (2009); BMC Genet (2011) 14 Human Variation DB ✔ NGS, その他の実験による変異データの登録 ✔ NGSは計算手法、閾値条件、変異検出精度実験をしている場 合は、その情報も登録 ✔ 文献データも、実験の種類、case-control P-value, オッズ比、 臨床情報など登録 ✔日本人のコントロールデータに関しては、study ごと、及び、 融合した形でreference genomeとして表示 遺伝子検索 疾患検索 領域検索等が可能 http://biosciencedbc.jp/ ある疾患の既知感受性遺伝子の 全ゲノム上での位置 15 Human Variation DB 遺伝子名検索結果例 1000 genome をはじめ、referenceは随時追加 変異のゲノム上の位置、 SNPの種類、アミノ酸置換情報、 case-control P値、オッズ比、 実験手法、臨床情報等 http://biosciencedbc.jp/ 16 Human Variation DB annotation 複数の参照ゲノム を同時に表示 Domain 情報 マイクロサテライト Conservation scoreなど http://biosciencedbc.jp/ 17 NGSの詳細の表示 NGSマッピング データもリンク 可能 文献データも NGSデータも 同時表示 Referenceデータの詳細も表示 http://biosciencedbc.jp/ 18 HLA DB http://biosciencedbc.jp/ 19 HLA DB コンテンツ ✔ HLAのハプロタイプごとの変異の登録 ✔ HLAの多型と疾患感受性、免疫応答性、 薬剤過敏症の関係を俯瞰可能に HLA型間の塩基配列の違い http://biosciencedbc.jp/ 異なるHLA型間での相同性 20 NGSと文献登録データ ✔ NGS公開データ 健常者:1000ゲノムデータexome 98検体 ✔ NGS内部登録データ 健常者: exome 21検体, 健常者: HLA 1検体 ✔ NGS内部登録準備データ 健常者: exome 68検体 疾患遺伝子:4遺伝子変異(新規)+2遺伝子変異(既知) ✔文献公開データ Common disease, 神経変性変異のデータを中心に、2500変異と付随 情報の登録 http://biosciencedbc.jp/ 21 SNP control DB http://biosciencedbc.jp/ 22 SNP Control DB ✔標準 SNP-DB: 健常者のSNPデータ (GWAS チップ用)のデータ Affy500K 約500検体、Affy6.0 約600検体, Axiom ASI, Illumina OMNI-2.5 約420検体 コンテンツ •30-250万SNPの遺伝子型頻度、アレル頻度、 ハーディーワインバーグ平衡検定値、Call rate等 SNPのゲノム上の位置、SNPの種 類(同義/非同義など) Genotype 頻度、アレル頻度、ハ プロタイプ頻度、HWE検定値、 Call rateなど •SNPのアノテーション (機能、染色体上位置、 同義/非同義など) SNPの検索 (アクセッション番号、染色体上の 位置、機能、疾患との関連性などで検索可能) http://biosciencedbc.jp/ 対応する遺伝子の アノテーション情報 検索結果例 23 GWAS DB http://biosciencedbc.jp/ 24 GWAS DB 疾患名称、study ID (略称)、SNP IDでの検索 疾患リストからの閲覧 http://biosciencedbc.jp/ 25 SNP based GWAS DB コンテンツ ✔ GWAS-DB: GWASデータ 19疾患/28スタディー(内部用DB登録) 17形質 (内部用DB登録) 11疾患/13スタディー (公開データ) • 30-100万SNPの遺伝子型頻度、アレル頻度、 ハーディー・ワインベルク平衡検定値、Call rate 等 • P値(2df, 1df), Additive risk model, recessive model, dominant model のP-value, OR, 95% CI, AICなどの遺伝統計値 • ハプロタイプもしくはSNPの組み合わせに関す る疾患関連性の統計値 • SNPのアノテーション ゲノム全体のP-valueの分布 http://biosciencedbc.jp/ Koike et al. J Hum Genet (2009) 26 GWAS-DB 俯瞰図と領域図 フィルタの設定 統計モデルを変えて表示可能 ボックスをクリックすると その領域の拡大表示や 表で表示 P-value Odds ratio エクソン イントロン 遺伝子 CNV 連鎖不平衡 その他、permutationのP値、OMIM情報、マイクロ サテライト情報などの情報も表示可能 http://biosciencedbc.jp/ SNP間相互作用も表示 27 CNV Control DB http://biosciencedbc.jp/ 28 CNV control DB の表示例 複数の計算データを 一度に閲覧 クリックすると領域の図 高さが頻度 色の濃さがCNV数 http://biosciencedbc.jp/ 29 29 CNV検出の方法 ・DNAcopy (Venkatraman and Olshen, Bioinfomatics, 2007) -Segments DNA copy number data using circular binary segmentation to detect regions with abnormal copy number - the prediction performance is highly evaluated ・CGHseg (Picard, et al., BMC Bioinformatics, 2005) -CGH profile is modeled by a random Gaussian process whose distribution parameters are affected by abrupt changes at unknown coordinates -adaptive criterion that detects previously mapped chromosomal aberrations are used ・PennCNV (Wang et al, nature -Hidden markov model based method genetics, 2007) ・Birdsuite (Korn et al, nature genetics, 2009) -Four stage analytical frame work 1) extracts CNP (common copy number polymorphysm) , 2) genotype calls, 3) identifies rare CNVs via a Hidden Markov Model, 4) summarizes these results. http://biosciencedbc.jp/ 30 CNV control DB の表示例 クラスタリングして 類似のCNVをマージ 表示オプションの変更 クラスタリングなし http://biosciencedbc.jp/ SNP位置まで表示した詳細画面 31 CNV Case-Control DB http://biosciencedbc.jp/ 32 CNV-case control DB の表示例 CNV region P-values Database Genomic Variants http://biosciencedbc.jp/ 33 http://biosciencedbc.jp/ 34 実際にGWAS DBを 使ってみよう! http://biosciencedbc.jp/ 35 実習 ナルコレプシーのGWASデータを見てみよう! 最終目標: SNP間の相互作用(epistasis)の図を表示する 1:まずはGWAS DBへ! 2:Case Control GWASタブを選択。 3:Search & BrowseのBrowse GWAS results from disease name listを選択。 4:Narcolepsyをぽちっっとな。 →一つ登録されていますね。では、そこへ入ってみましょう! 5:“narco”をクリック! 6:研究の規模はどのぐらいですか?研究内容をざっと見たら、 Go ! 7:Mapが出てきました。ゲノム全体のP-valueを見てみましょう。 Question1:色が色々ありますね。何を意味していますか? http://biosciencedbc.jp/ 36 実習 最終目標:SNP間の相互作用(epistasis)の図を表示する 8:このP-valueは何のモデルを使っていますか?他のモデルも見てみましょう。 →右上のSelect P-valueのPull downをいじって Show Map を押すべし。 9:そろそろマンハッタンプロットを見てみましょう →なんだか赤い点々が。そこの領域に行ってみよう! Show Plot 11:リスト→その領域に登録されているSNP一覧。SNP情報や関連解析におけ るMAFやP-valueなど閲覧できる。 グラフ→P-valueやORを表示できる。遺伝子の位置もありますね。 12:ここで、左側のチェックをいじって、色々表示させたり消したりちゃおう。 Question2:発現量に影響しそうなSNPはあるかな? cSNP: coding SNP, sSNP: silent SNP, rSNP: regulatory SNP, iSNP: intronic SNP, gSNP: genome SNP Question3:カイ二乗検定以外にもPermutation testによるP-valueが!表示さ せて違いを見てみよう。 Question4:ORも様々なモデルに対応しているぞ♪ http://biosciencedbc.jp/ 37 実習 最終目標:SNP間の相互作用(epistasis)の図を表示する Question5:この領域のLDブロック構造は?R-squareを表示させてみよう。 Question6: HapMap検体の遺伝子型によるLDブロックもあるよ。違いはある かな? Question7:他のマーカーは存在するかな? 13:そろそろ別のこともしてみよう。 押してみよう。 Question8:これはなんだろう? Show Table というボタンがあるよ。 14:左側のチェックをいじってみよう。 MAF・CR・HWEの閾値で表示するSNPを変えられるね。 15:Choose Itemsの一番下に“Epistasis”を発見したよ!最終目標が見えて来 たね。チェックを入れてupdateしちゃおう。 16:SNPの組み合わせリストが出て来たね。 17:Weightが一番低い組み合わせの http://biosciencedbc.jp/ G ゴールが近いぜよ~~ を押すと・・・? 38
© Copyright 2024