ライフサイエンスデータベース統合推進事業「統合化推進プログラム」 平成26年度キックオフミーティング RDF化のガイドラインについて 片山 俊明 <[email protected]> http://jp.linkedin.com/in/toshiakikatayama 情報・システム研究機構 ライフサイエンス統合データベースセンター 2014/6/2 @ NBDC (JST東京本部別館) RDF 化に利用できるツール • TogoDB - ユーザのデータを受け入れて DB 化、RDF 化 • RDF による統合, 高度検索技術, 情報統合化, コンテンツ整備 • TogoWS - ネット上の公共 DB を検索、データ取得、RDF 化 • インターネットを活用した高度検索技術の開発 • OntoFinder, OntoFactory - 適切なオントロジーの検索・構築 • キーワードから適切な BioPortal のオントロジーを検索、作成 • BioInterchange - GFF, GTF, GVF, VCF などの RDF 変換 • FALDO/SIO/GFVO オントロジーによるゲノム情報・変異情報の RDF 化 • その他 - 一般のツール、内製ツールなど • Raptor/Rapper, ConvRDF, insdc2ttl, ensembl2ttl, taxdump2owl etc. BioInterchange http://togodb.org TogoDB - 表形式のデータから高機能DBを構築 TogoDB Create your DB in 5min configure 外部URL upload CSVファイル DBごとに汎用の オントロジー管理 RDF生成 SPARQL検索 deploy http://togodb.org/sparql/yourdb endpoint HTML, CSS, JS カスタマイズ 分散REST検索 → Atom http://togodb.org/search/yourdb/query http://togodb.org/entry/yourdb/123 http://togodb.org/db/yourdb?column1=/regexp/&colmun2>50 TogoWS - RDF 変換を on-the-fly で実行 • エントリをウェブサービスで取得、TogoWS サーバ内でパースして動的に変換 • http://togows.org/entry/pubmed/20472643.ttl @prefix @prefix @prefix @prefix @prefix TogoWS 様々な DB の最新情報を その場で RDF 化 dc: <http://purl.org/dc/elements/1.1/> . dcterms: <http://purl.org/dc/terms/> . rdfs: <http://www.w3.org/2000/01/rdf-sch prism: <http://prismstandard.org/namespa medline: <http://togows.org/ontology/ncb <http://pubmed.org/20472643> medline:pmid rdfs:label "pmid:20472643" ; dc:title "pmid:20472643" ; dc:identifier <http://pubmed.org/20472 medline:own "NLM" ; medline:stat "MEDLINE" ; medline:da "2010-06-25" ; medline:dcom "2010-09-27" ; medline:lr "2013-05-29" ; medline:is "1362-4962 (Electronic)" medline:is "0305-1048 (Linking)" ; medline:vi "38" ; prism:volume "38" ; medline:dp "2010 Jul" ; prism:publicationDate "2010-07" ; medline:ti "TogoWS: integrated SOAP dc:title "TogoWS: integrated SOAP medline:pg "W706-11" ; prism:startingPage "W706" ; medline:ab "Web services have becom medline:ad "Human Genome Center, In medline:fau "Katayama, Toshiaki" ; dcterms:creator "Katayama, Toshiaki" ; medline:fau "Nakao, Mitsuteru" ; dcterms:creator "Nakao, Mitsuteru" ; medline:fau "Takagi, Toshihisa" ; dcterms:creator "Takagi, Toshihisa" ; medline:au "Katayama T" ; On-the-fly SPARQL エンドポイント • データのセマンティクスを明確にした RDF による運用が理想 • RDB については D2RQ などのミドルウェア • NoSQL については ruby-rdf などを利用したミドルウェア SPARQL検索 : SPARQL 1.1 の SERVICE クエリで分散統合検索 D2RQ On the fly converter GTF RDF DB triple store RDB relational DB NoSQL DB HyperEstraier File BAM, FASTQ 既存の運用中 DB があり移行が困難な場合 RDF データの可視化ツール • TogoGenome - 基盤となるゲノム情報を RDF で集積、DB 化 • データベースの RDF による統合化, 大規模データの利用技術開発 • TogoStanza - TogoGenome, MicrobeDB.jp などで利用のフレームワーク • RDF に対する SPARQL クエリの結果を HTML テンプレートで可視化 • その他 - SPARQL の結果は XML or JSON なので JavaScript で処理 • SIMILE Widgets の Exhibit など • Google Visualization API による sgvizler • : • jQuery, D3.js などの利用などなど TogoGenome - RDF利用のメリット • ゲノム情報の白地図を提供 (cf. Google マップ) • RDF により多種多様なデータをゲノム座標に一元的に集約可能 • 異種データが統合されて初めて可能となる横断的な統計解析 • 世界中の研究者で分散アノテーションを協力して行う集合知 • ファセット検索 (cf. ショッピングサイト) • オントロジーを利用して多様な切り口からデータを絞り込み可能 • 曖昧なキーワード検索では不可能だった意味に基づく正確な検索 • 今後の課題:統合すべきデータの拡充と標準化 • ヒトを含む真核生物ゲノムのサポートとドラフトゲノムへの対応 • INSDC/Ensembl/UniProt 等の国際連携による RDF データの標準化 • データ更新とバージョン管理、個人ゲノムのセキュリティなど TogoGenome - RDFを活用したファセット検索 TogoGenomeでは全ゲノム情報に対し複数のオントロジーをファセットとして用いた 絞り込み検索が可能で、検索結果から環境・生物種・遺伝子などのレポートを表示 環境 生物系統 遺伝子機能 該当ゲノム・遺伝子のリスト TogoStanza - RDFデータの可視化パーツ ゲノムデータベースで多用される部品をスタンザと名付け、組み合わせて再利用可能 なカタチで提供 (MicrobeDB.jp, MBGD, CyanoBase 等と共同開発・相互利用) 遺伝子属性スタンザ 遺伝子分布スタンザ 遺伝子配列スタンザ ゲノムブラウザ TogoStanza - スタンザサーバの開発と相互利用 スタンザのユーザ 各地のサーバから自由に スタンザを組み合わせて 自分のDBで利用 スタンザの開発者 Stanza Stanza Stanza スタンザサーバを提供 SPARQL検索の結果を SPARQL検索 結果 HTMLのIFRAMEで可視化 RDF DB RDF DB RDF DB RDF DB → DBCLSではスタンザを容易に作成しサーバを公開するためのフレームワークも開発・提供 RDF サミット 2014/5/17-20 ヒトゲノム情報のRDF標準化のための国際戦略 INSDC 国際塩基配列DBのRDF標準化を働きかけ ゲノムアノテーションのRDF標準化 配列座標の共通オントロジー開発 トランスクリプトームと転写制御 バイオ系DBのRDFで利用するURIを標準化 日本人・個人ゲノムとセキュリティ 制御領域 ゲノム ↑ rRNA遺伝子 コーディング遺伝子 ↑ ↑ ↑ ↑ ↑ ↑ <exon> rdf:type <gene> rdf:type obo:SO_0000704 ; faldo:location [ ... ] ; rdfs:label "geneA" ; rdfs:seeAlso <UniProt> . INSDC/RefSeq/Ensembl RDF: ↑ obo:SO_0000147 . ← ← ← ← Sequence オントロジーの型 FALDO オントロジーの座標 遺伝子名などのラベル 関連情報へのリンク <chromosome> sio:is-part-of <http://identifiers.org/refseq> . <gene> rdf:type so:gene ; sio:is-transcribed-into <mRNA> ; so:so_part_of <chromosome> . <mRNA> rdf:type so:mRNA ; # or so:transcript sio:has-ordered-part <p1>, <p2>, ... . <p1> sio:has-value "1"^^xsd:integer; sio:referes-to <exon1> . <p2> sio:has-value "2"^^xsd:integer; sio:referes-to <exon2> . <exon1> rdf:type so:exon ; faldo:location <region1> . <region1> rdf:type faldo:Region ; faldo:begin <position1> ; faldo:end <position2> . <position1> rdf:type faldo:ExactPosition, faldo:ForwardStrandPosition ; faldo:position 12345 ; faldo:reference <chromosome> . 制御領域 ゲノム ↑ rRNA遺伝子 コーディング遺伝子 ↑ ↑ ↑ ↑ ↑ ↑ ↑ <exon> rdf:type <gene> rdf:type obo:SO_0000704 ; faldo:location [ ... ] ; rdfs:label "geneA" ; rdfs:seeAlso <UniProt> . Reference annotations (e.g., from Ensembl) obo:SO_0000147 . RDF GFF GFF GFF BioInterchange GTF GTF GTF GTF GTF GTF GVF GVF GVF GVF GVF GVF ← ← ← ← Sequence オントロジーの型 FALDO オントロジーの座標 遺伝子名などのラベル 関連情報へのリンク SPARQL to • select a region of interest (FALDO) • query reference annotations • compare datasets for statistics SIO/GFVO ontology for • standardize annotation data VCF VCF VCF VCF VCF VCF ... those files require normalization as they often violate standards ... http://genomicsandhealth.org/ Global Alliance for Genomics and Health Over 180 organizations world wide (2013-14) + Google (since 2014/2/28) To enable secure sharing of genomic and clinical data The greatest need was a common framework of international standards designed to enable and oversee how genomic and clinical data are shared in an effective, responsible, and interpretable manner. to develop this common framework, enabling learning from data while protecting participant autonomy and privacy. RDF 化のためのガイドライン • URI が共通でないと RDF のグラフが繋がらない • データベースプロバイダが提供するカノニカルな URI は cool URI でない事が多い • RDF では Identifiers.org や Bio2RDF.org の URI を使用 • http://identifiers.org/taxonomy/9606 • • • • → → → → http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode=Info&id=9606 http://purl.bioontology.org/ontology/NCBITAXON/obo:NCBITaxon_9606 http://www.uniprot.org/taxonomy/9606 http://www.ebi.ac.uk/ena/data/view/Taxon:9606 • RDF のモデルやオントロジーが共通でないと SPARQL が再利用できない • 類似のデータはできるだけ共通のオントロジーを利用 • SPARQL を書くには RDF を参照したり、 literal literal literal URI URI literal literal • サンプルの SPARQL を参考にしたり、 • データ関係図を参照することが多い URI literal • → ドキュメントの整備も重要 literal URI literal literal URI URI literal URI URI URI URI URI literal literal RDF 化のためのガイドライン • EBI RDF の場合 • EBI 内の各 DB を RDF 化チームが変換 http://www.ebi.ac.uk/rdf/ RDF 化のためのガイドライン:今後の予定 • NBDC/DBCLS で RDF 化のノウハウを集積したポータルを提供予定 • 今後の SPARQLthon で合意できた点をガイドライン化 • NBDC/DBCLS で提供する RDF やツール • 統合化推進プログラムで作成した RDF やドキュメント • RDF のモデル図などは共通のフォーマットで整備していきたい • 当面は SPARQLthon の Wiki を参照 • http://wiki.lifesciencedb.jp/mw/index.php/SPARQLthon • RDF やオントロジーのノウハウ • SPARQL の検索のノウハウ • トリプルストアの調査 • TogoStanza などでの可視化支援 国内版 BioHackathon と SPARQLthon • 国内版 BioHackathon - 国際版で得られた知見を国内の開発者にも還元 • BH10.10, BH11.11, BH12.12 と3年間継続、第4回の BH13.13 は1月27日∼31日に開催 • 日本語で国内のリソースについて議論し情報共有できるメリット • SPARQLthon - ライフサイエンスデータベース統合推進事業の推進 • 2012年10月から2013年のトーゴーの日に向けて月1回で計12回の開催、その後も継続中 • RDFデータベースの構築とSPARQL検索に関わる諸技術はまだまだ発展途上 • 統合に必要なRDFデータの生成 • RDFで利用するオントロジーの開発 • RDFを格納するトリプルストアの運用 • より効率的なSPARQLの書き方 • RDFとSPARQLを活用したアプリケーションの開発 • ベストプラクティスの蓄積 平成26年度 今後の主な 統合化推進プログラム関連のミーティング予定 • RDF summit • 5/17-20 (開催済み):INSDC, Ensembl でのゲノム情報 RDF 標準化 • SPARQLthon • 6/18-19:第21回@DBCLS柏の葉、7/15-16:第22回、以後も毎月開催 • 統合の日 • 10/5:例年通りトーゴーの日にシンポジウムの開催 • BioHackathon 2014 • 11/9-14:東北大学メディカル・メガバンクと共催(仙台・松島) • 国内版バイオハッカソン 14.14 • 日程未定 → [email protected] のメーリングリストで告知しています → http://groups.google.com/group/biohackathon-jp からご登録下さい
© Copyright 2024