1 Handbooks DDBJ Sequence Read Archive Handbook 公開日: 2014年3月25日; 最終更新日: 2015年1月30日 DRA について メタデータ メタデータオブジェクト オブジェクトの構成例 Submission Study (BioProject) Sample (BioSample) Experiment Run Analysis データファイル 登録するデータファイルの形式について BAM ファイル fastq 454 Illumina Genome Analyzer SOLiD Ion Torrent Helicos Heliscope Complete Genomics Pacific Biosciences DRA へのデータ登録 DRA 登録の流れ DRA へのデータ登録方法 新規 DRA 登録の作成 シークエンスデータのアップロード メタデータ作成ツールでのメタデータ作成 補足: technical reads を登録する場合 データファイルの Validation アクセッション番号の受領 データ公開 登録の更新 公開予定日の変更 メタデータの更新 データファイルの追加 データの削除 補足: MD5 値 MD5 値の取得 (Linux) MD5 値の取得 (Mac OS X) MD5 値の取得 (Windows) 免責事項 DRA について DDBJ Sequence Read Archive (DRA) は Roche 454 GS System®,Illumina Genome Analyzer®,Applied Biosystems SOLiD® System などの次世代シークエンサからの出力データのためのデータベースです。 DRA は International Nucleotide Sequence Database Collaboration (INSDC) のメンバーであり, NCBI Sequence Read Archive (SRA) と EBI Sequence Read Archive (ERA) との国際協力のもと,運営されています。 Analysis 以外のオブジェクトは3極でミラーリングされます。 DDBJ Sequence Read Archive Handbook Handbook 2 従来のキャピラリ式シークエンサからの出力データは DDBJ Trace Archive にご登録ください。 メタデータ メタデータオブジェクト メタデータにはシークエンスデータがどのようにして得られたのかが記載されています。 メタデータは Submission,BioProject,BioSample,Experiment,Run,Analysis の各オブジェクトで構成されます。 各オブジェク トは XML スキーマで定義され,相互に関連付けられています。アクセッション番号はオブジェクトに対して発行されま す。 オブジェクトの構造とアクセッション番号は DDBJ/EBI/NCBI で共通です。 Experiment,Run,Analysis は SRA のオブジェクトで,BioProject と BioSample は SRA 以外のデータベースになります。アクセッション番号はオブジェク トに対して発行されます。 メタデータの詳細は対応する XML スキーマをご覧ください。XML Schemas (NCBI) S ubmis s ion 登録するオブジェクトをとりまとめるためだけのオブジェクト。 BioProje ct 研究プロジェクト全体の概要。プロジェクトは複数のサンプルやデータセットを含むことが一般的です。 BioS ample 生物学的なサンプルに関する記述。物理的に異なるサンプルはユニークな属性セットをもった BioSample として登録 します。 Expe rime nt BioSample に由来するシークエンス用ライブラリーとシークエンスの方法について記載します。 Experiment は1つの BioProject と1つの BioSample を参照します。 複数の Experiment は1つの BioSample を参照することができます が,逆に1つの Experiment が複数の BioSample を参照することはできません。 Run シークエンス用ライブラリー (Experiment) に属するファイル群をまとめます。 Experiment を介してシークエンスデータ ファイルは特定のサンプルにリンクされます。 Run に含まれる全てのファイルは1つの SRA/fastq ファイルに統合され ます。ですので,異なるサンプルや replicates に由来するファイルは同じ Run に含めるべきではありません。 一方,ペ アードのデータファイルは同じ Run に含め,ペアードリードが正しくペアとして処理されるようにします。 Analys is Run に格納されたシークエンスデータに関連するデータで,しかるべき登録先がないようなデータを登録します。 DDBJ Sequence Read Archive Handbook Handbook 3 メタデータオブジェクト オブジェクトの構成例 登録者は実際のデータにあわせて柔軟にオブジェクトを構成することができます。 最もシンプルなケース 三つの菌株の比較ゲノム解析 (Technical, Biological) replicate がある場合 関連するデータが別々の論文に発表される場合 最も シンプルなケース 最もシンプルなケース 三つの 菌株の 比較ゲノム 解析 三つの菌株の比較ゲノム解析. (Te chnical, Biolog ical) re plicate が ある 場合 関連する FAQ: DRA 登録にはいくつのサンプルが必要ですか? DDBJ Sequence Read Archive Handbook Handbook 4 (Technical, Biolog ical) replicate がある場合 関連す る データ が 別々の 論文に発表さ れ る 場合 関連するデータが別々の論文に発表される場合 メ タデータ各項目の 説明 必須* 条件によって必須* Submission Ce nte r Name 登録者が所属する組織に関する情報を記載します。 Center Name * 登録者が所属する組織の Center Name。Center Name リスト。DDBJ/EBI/NCBI SRA にデータを登録する際にはこの Center Name が必要です。登録においてエイリアスはメタデータオブジェクト間の相互参照に用いられます。 DDBJ Sequence Read Archive Handbook Handbook 5 メタデータ作成ツールはアカウント情報から Center Name を自動的に取得し,メタデータに埋め込みます。 Center Name は登録の所有権を示すものではなく,SRA が運用上使用している略称です。所有権は Submitter に記載される 登録者にあります。 Lab Name * 登録者が所属する研究室やグループ名。 Hold Until 公開方法を指定します。 Hold Until* 公開予定日を設定します。最長で2年後まで設定でき,延長することができます。 Immediate Release * 即日公開。登録作業が終わり次第,データが公開されます。 S ubmitte r 登録者の名前とメールアドレスのリストです。責任者 (principal investigator) を含めてください。登録に関する連絡 は記入された全てのアドレスに対して行われます。責任者以外の人が登録作業をした場合,その作業者を Contact に 含めてください。Contact 情報は公開されません。Contact 情報を明示したい場合は BioProject に記載してくださ い。 Name * 登録者の名前。 E-mail* 登録者の電子メールアドレス。 Study (BioProject) BioProject ID* BioProject に登録済みのプロジェクトから該当するものを1つ選択します。従来の SRA Study オブジェクトは BioProject で代 用されます。BioProject の登録方法は BioProject Handbook を参照してください。 Sample (BioSample) BioSample ID* BioSample に登録済みのサンプルから該当するものを選択します。従来の SRA Sample オブジェクトは BioSample で代用 されます。BioSample の登録方法は BioSample Handbook を参照してください。 Experiment Alias 自動的に Experiment に付けられる名前。アクセッション番号のないメタデータオブジェクトは Alias で参照されます。 Title * 検索結果で表示される Experiment の短いタイトルです。ユニークなタイトルを付けます。 Library Name ライブラリーの名前。 Library Source * ライブラリー構築に用いた試料。 L ib ra ry S o u rce D e s crip t io n DDBJ Sequence Read Archive Handbook Handbook 6 L ib ra ry S o u rce D e s crip t io n GENOMIC Geno mic DNA (includes PCR pro ducts fro m geno mic DNA). TRANSCRIPTOMIC Transcriptio n pro ducts o r no n geno mic DNA (EST, cDNA, RT-PCR, screened libraries). METATRANSCRIPTOMIC Transcriptio n pro ducts fro m co mmunity targets. METAGENOMIC Mixed material fro m metageno me. SYNTHETIC Synthetic DNA. VIRAL RNA Viral RNA. OTHER Other, unspecified, o r unkno wn library so urce material. Library Selection* シークエンスに用いたサンプルの選別や濃縮方法。 L ib ra ry S e le ct io n D e s crip t io n RANDOM Rando m shearing o nly. PCR So urce material was selected by designed primers. RANDOM PCR So urce material was selected by rando mly generated primers. RT-PCR So urce material was selected by reverse transcriptio n PCR. cDNA co mplementary DNA. CAGE Cap-analysis gene expressio n. RACE Rapid Amplificatio n o f cDNA Ends. ChIP Chro matin immuno precipitatio n. MNase Micro co ccal Nuclease (MNase) digestio n. DNAse Deo xyribo nuclease (DNase) digestio n. HMPR Hypo -methylated partial restrictio n digest. MF Methyl Filtrated. MSLL Methylatio n Spanning Linking Library. 5-methylcytidine antibo dy Selectio n o f methylated DNA fragments using an antibo dy raised against 5-methylcyto sine o r 5-methylcytidine (m5C)MBD2 pro tein methyl-CpG binding do main : Enrichment by methyl-CpG binding do main. MBD2 pro tein methyl-CpG binding do main MBD2 pro tein methyl-CpG binding do main. Hybrid Selectio n Selectio n by hybridizatio n in array o r so lutio n. Reduced Representatio n Repro ducible geno mic subsets, o ften generated by restrictio n fragment size selectio n, co ntaining a manageable number o f lo ci to facilitate re-sampling. Restrictio n Digest DNA fractio natio n using restrictio n enzymes. size fractio natio n Physical selectio n o f size appro priate targets. CF-S Co t-filtered single/lo w-co py geno mic DNA. CF-M Co t-filtered mo derately repetitive geno mic DNA. CF-H Co t-filtered highly repetitive geno mic DNA. CF-T Co t-filtered theo retical single-co py geno mic DNA. MDA multiple displacement amplificatio n. padlo ck pro bes capture metho d Padlo ck Pro bes capture strategy to be used in co njuctio n with Bisulfite-Seq. o ther Other library enrichment, screening, o r selectio n pro cess. unspecified Library enrichment, screening, o r selectio n is no t specified. DDBJ Sequence Read Archive Handbook Handbook 7 Library Strategy* ライブラリーの構築手法。 L ib ra ry S t ra t e g y D e s crip t io n WGS Who le geno me sho tgun. WGA Who le geno me amplificatio n. WCS Who le chro mo so me (o r o ther replico n) sho tgun. WXS Rando m sequencing o f exo nic regio ns selected fro m the geno me. CLONE Geno mic clo ne based (hierarchical) sequencing. CLONEEND Clo ne end (5', 3', o r bo th) sequencing. POOLCLONE Sho tgun o f po o led clo nes (usually BACs and Fo smids). FINISHING Sequencing intended to finish (clo se) gaps in existing co verage. AMPLICON Sequencing o f o verlapping o r distinct PCR o r RT-PCR pro ducts. RNA-Seq Rando m sequencing o f who le transcripto me. EST Single pass sequencing o f cDNA templates. FL-cDNA Full-length sequencing o f cDNA templates. CTS Co ncatenated Tag Sequencing. miRNA-Seq Micro RNA and o ther small no n-co ding RNA sequencing. ChIP-Seq Direct sequencing o f chro matin immuno precipitates. MNase-Seq Direct sequencing fo llo wing MNase digestio n. DNase-Hypersensitivity Sequencing o f hypersensitive sites, o r segments o f o pen chro matin that are mo re readily cleaved by DNaseI. Bisulfite-Seq Sequencing fo llo wing treatment o f DNA with bisulfite to co nvert cyto sine residues to uracil depending o n methylatio n status. MRE-Seq Methylatio n-Sensitive Restrictio n Enzyme Sequencing strategy. MeDIP-Seq Methylated DNA Immuno precipitatio n Sequencing strategy. MBD-Seq Direct sequencing o f methylated fractio ns sequencing strategy. Tn-Seq Gene fitness determinatio n thro ugh transpo so n seeding. Other Library strategy no t listed. Library Construction Protocol ライブラリー構築方法のプロトコール。 Instrument* シークエンサの機種を選択します。 In s t ru me n t M o d e l 4 54 GS 4 54 GS 20 4 54 GS FLX 4 54 GS FLX+ 4 54 GS FLX Titanium 4 54 GS Junio r unspecified Illumina Geno me Analyzer Illumina Geno me Analyzer II DDBJ Sequence Read Archive Handbook Handbook 8 In s t ru me n t M o d e l Illumina Geno me Analyzer IIx Illumina HiSeq 10 0 0 Illumina HiSeq 20 0 0 Illumina HiSeq 250 0 Illumina MiSeq Illumina HiScanSQ unspecified AB SOLiD System AB SOLiD System 2.0 AB SOLiD System 3.0 AB SOLiD 3 Plus System AB SOLiD 4 System AB SOLiD 4 hq System AB SOLiD PI System AB 550 0 Genetic Analyzer AB 550 0 xl Genetic Analyzer unspecified Helico s HeliSco pe unspecified PacBio RS PacBio RS Co mplete Geno mics Io n To rrent PGM Io n To rrent Pro to n Spot Type * データファイル中のリード構成を選択します。 S p o t T yp e D e s crip t io n single Single read paired (FF) Paired reads with same directio n. paired (FR) Paired reads with o ppo site directio n. Nominal Length* ペアリードのためのインサートのサイズ。 Nominal Sdev インサートサイズの標準偏差 (典型的には Nominal Leng th の 10% 程度) Spot Length* データファイル中のリードの長さを記載します。ペアードの場合は両リード長を合計した数値 (ギャップ長は除きます) を記入しま す。 Spot leng th が一定の場合,一定の値を記入 リード長が一定ではない 454 プラットフォームの場合,フロー数を記入 不定長の fastq の場合,平均長を記入 BioSample Used* DDBJ Sequence Read Archive Handbook Handbook 9 Experiment が参照している BioSample を選択します。 Run Alias 自動的に Run に付けられる名前。アクセッション番号のないメタデータオブジェクトは Alias で参照されます。 Title * Run の短いタイトル。ユニークなタイトルを付けます。 Experiment Referenced* Run が属する Experiment を選択します。 Data file s for Run Run に含めるデータファイルを選択します。 File Name * シークエンスデータファイル名。 Run/Analysis contains files * データファイルが属する Run/Analysis を選択します。 File Type * シークエンスデータのファイル形式。 File T yp e D e s crip t io n fastq fastq files with co nstant read length generic_fastq fastq files with variable read length sff 4 54 Standard Flo wgram Fo rmat file Illumina_native Illumina native files o ther than qseq Illumina_native_qseq Illumina qseq file SOLiD_native SOLiD csfasta and qual files Helico s_native A kind o f fastq fo rmat specific to the Helico s platfo rm bam Binary SAM fo rmat fo r use by lo aders that co mbine alignment and sequencing data tab A tab-delimited table maps "SN in SQ line o f BAM header" and "reference fasta file" reference_fasta Reference sequence file in single fasta fo rmat used to co nstruct SRA archive file fo rmat. Filename must end with ".fa" MD5 Checksum* シークエンスデータファイルの MD5 チェックサム値。MD5 チェックサム値の取得方法については補足: MD5 値をご覧ください。 Analysis Alias 自動的に Analysis に付けられる名前。 Alias はデータベース内部で使用されます。アクセッション番号のないメタデータオブジェ クトは Alias で参照されます。 Title * Analysis オブジェクトのタイトル。 Description* Analysis の内容を記述します。 Analysis Type * DDBJ Sequence Read Archive Handbook Handbook 10 Analysis の種類を選択します。 An a lys is T yp e D e s crip t io n De No vo Assembly A placement o f sequences including trace, SRA, GI reco rds into a multiple alignment fro m which a co nsensus is co mputed.. Reference Alignment A multiple alignment o f sho rt reads against a reference substrate. Sequence Anno tatio n Per sequence anno tatio n o f named attributes and values. Example: Pro cessed sequencing data fo r submissio n to dbEST witho ut assembly. Reads have already been submitted to o ne o f the sequence read archives in raw fo rm. The fasta data submitted under this analysis o bject result fro m the fo llo wing treatments, which may serve to filter reads fro m the raw dataset: - sequencing adapter remo val - lo w quality trimming - po ly-A tail remo val - strand o rientatio n - co ntaminant remo val. Abundance Measurement Identify the to o ls and pro cessing steps used to pro duce the abundance measurements (co verage tracks). Data file s for Analys is Analysis に含めるデータファイルを選択します。 File Name * Analysis file のファイル名。 Run/Analysis contains files * データファイルが属する Run/Analysis を選択します。 File Type * シークエンスデータのファイル形式。 File T yp e D e s crip t io n bam Binary fo rm o f the Sequence alignment/map fo rmat fo r read placements, fro m the SAM to o ls pro ject. See http://so urcefo rge.net/pro jects/samto o ls/. tab A tab delimited text file that can be viewed as a spreadsheet. The first line sho uld co ntain co lumn headers.. ace Multiple alignment file o utput fro m the phred assembler and similar pro grams. See http://www.phrap.o rg/co nsed/distributio ns/README.16 .0 .txt fo r a descriptio n o f the ACE file fo rmat.. fasta Sequence data fo rmat indicating sequence base calls.The fo rmat is simple: a header line initiated with the > character, data lines fo llo wing with base calls.. wig The wiggle (WIG) fo rmat allo ws display o f co ntinuo us-valued data in track fo rmat.This display type is useful fo r GC percent, pro bability sco res, and transcripto me data. See http://geno me.ucsc.edu/go ldenPath/help/wiggle.html fo r a descriptio n o f the Wiggle Track fo rmat.. bed BED fo rmat pro vides a flexible way to define the data lines that are displayed in an anno tatio n track. See http://geno me.ucsc.edu/FAQ/FAQfo rmat#fo rmat1 fo r a descriptio n o f the BED fo rmat.. VCF Variant Call Fo rmat. See http://www.10 0 0 geno mes.o rg/wiki/analysis/variant%20 call%20 fo rmat/vcf-variant-call-fo rmatversio n-4 1 fo r a descriptio n o f the VCF fo rmat. MAF Mutatio n Anno tatio n Fo rmat GFF General Feature Fo rmat DDBJ Sequence Read Archive Handbook Handbook 11 MD5 Checksum* Analysis データファイルの MD5 チェックサム値。MD5 チェックサム値の取得方法については補足: MD5 値をご覧ください。 データファイル アライメントデータやシークエンスデータを登録します。 fasta は受け付けていません。最低限 quality score 付きのベース/カラーコールデータが必要です。 プールされたデータはサンプルごとに分割し,シークエンスデータが単一の BioSample に由来するようにして ください。 データファイルは登録用ディレクトリの直下に置いてください。基本的に tar などのアーカイブファイルのなかに ディレクトリを作成しないでください。 qseq ファイルそのものを圧縮しないでください。 tar アーカイブした qseq ファイル全体を gzip/bzip2 圧縮し てください。 BAM や SFF などのバイナリーファイルは圧縮しないでください。 登録するデータファイルの形式について DRA のメタデータ作成ツールは technical read (アダプター,プライマーやバーコード配列) を記載することに対応し ていません。 「technical read を含む生データを登録する場合」や「SRA XML schema (NCBI) 中にはあるがツール 中には無い項目をメタデータに記載する場合」はメタデータを XML ファイルで登録する必要があります。 ファイル形式とメタ データ の 作成方法 1. BAM 形式でのアライメントデータ: 登録ツールでメタデータを作成 2. Technical read (アダプター,プライマーやバーコード配列) を除去した シークエンスデータ: 登録ツールでメタ データを作成 3. Technical read (アダプター,プライマーやバーコード配列) を含む生データファイル: 登録ツールが未対応なため XML でメタデータを作成 BAM ファイル Run にアライメントデータを登録する場合は,「BAM」,「リファレンス配列 fasta」,「SN と リファレンス配列 の対応表」 の3点セットが必要です。 Run ではなく,Analysis に登録する場合は,「SN と リファレンス配列の対応表」は不要です。 1. BAM アライメントデータを ArchiveBAM フォーマットで登録することができます。 ArchiveBAM フォーマットは Sequence Alignment/Map (SAM) Format (http://samtools.sourceforge.net/SAM1.pdf) を基にして定義 されています。ArchiveBAM フォーマットは SRA へデータを登録するため,オリジナルの SAM フォーマットに INSDC がルールと制限を追加したものです。 ArchiveBAM フォーマットの仕様については ArchiveCRAM 1.0 specification をご覧ください。圧縮していない BAM ファイルをアップロードしてください。 Run の File Type には "bam" を選択します。 2. リ ファレ ンス 配列 fas ta リファレンス配列を fasta ファイルで登録します。マルチ fasta ではなくシングル fasta 形式にし,拡張子を ".fa" に します。 Run の File Type には "reference_fasta" を選択します。 3. S N- リ ファレ ンス 配列の 対応表 ご自分で独自に作成するファイルです。「BAM ファイルヘッダーの SQ 行中の SN」と「リファレンス fasta ファイル DDBJ Sequence Read Archive Handbook Handbook 12 (拡張子 .fa を除いたもの)」との対応関係をタブ区切りで記載します。 Run の File Type には "tab" を選択しま す。 BAM ファイルヘッダー @HD VN:1.0 GO:none SO:coordinate @SQ SN:chr1 LN:249250621 @SQ SN:chr2 LN:243199373 @SQ SN:chr3 LN:198022430 ... SN-リファレンス配列の対応表。例では SN:chr1 にリファレンス fasta ファイル ref1.fa が対応。 chr1 ref1 chr2 ref2 chr3 ref3 ... fastq リード長が揃っている fastq ファイルの場合,Run の file type で fastq を選択します。ペアの場合,ペアリードが対 になっているファイル中で同じ順番で記載されている必要があります。 リード長が一定ではない fastq ファイル: Run の file type で generic_fastq を選択 Quality value は phred 形式にしてください。ファイルは tar でまとめないでください。データ転送に時間がかかる場 合には,必要に応じて fastq ファイルを gzip (.gz) もしくは bzip2 (.bz2) で圧縮してください。 454 454 からのシークエンスデータは sff ファイル か fastq ファイルで登録します。 sff ファイル中のリード名は,プレート内の位置情報とユニークな run id を反映した情報を含んでいるので,sff ファイ ルを書き変えないでください。 sffファイル形式はすでに最適化されており,ファイルをさらに圧縮する必要はありません。圧縮していない sff ファイルを 送付してください。 sff ファイルに2つ以上のサンプルに由来するデータが含まれている場合は,sff から生成した fastq ファイルをサンプ ルごとに分割して登録してください。 Data Series Number of Channels Description .sff 1 Flowg ram (base call, phattention_text quality score, flow value) Illumina Genome Analyzer Illumina Native Data Illumina pipeline v1.4 以降 ファイル名を変更せずに qseq ファイルを Run の Data Block ごとに tar でまとめたものを登録します。 ペアードの データファイルが Data Block ごとの tar ファイルに含まれている場合,ペアはリード名から自動判定されます。 データ転送に時間がかかる場合には,必要に応じて tar アーカイブファイル全体を gzip (.gz) もしくは bzip2 (.bz2) で圧縮してください。qseq ファイルそのものは圧縮しないでください。 Data Series Number of Channels Description _qseq.txt 1 Base calls and quality scores per read SOLiD S O LiD Native Format それぞれのランからの csfasta と QV.qual ファイルを登録します。fastq ファイルは受け付けていません。ペアードデー タの場合には,ペアのファイル (F3 と R3) を登録します。 ファイルは tar でまとめないでください。データ転送に時間が かかる場合には,必要に応じてデータファイルを gzip (.gz) もしくは bzip2 (.bz2) で圧縮してください。 Data Series Number of Channels Description .csfasta 1 Base calls per read in color space _QV.qual 1 Color space quality scores DDBJ Sequence Read Archive Handbook Handbook 13 Ion Torrent sff ファイルもしくは fastq ファイルを登録します。 Helicos Heliscope sms ファイル(helicos_native 形式)もしくは quality value をすべて "14" として作成した fastq ファイルを登録しま す。 Complete Genomics fastq ファイルを登録します。 Pacific Biosciences fastq ファイルを登録します。 DRA へのデータ登録 ヒ トを対象とした研究データ の 登録について ヒトを対象とした全ての研究において DDBJ に送付するデータの由来である個人 (被験者) の情報・プライバシー は,適用されるべき法律,規定,登録者が所属している機関の方針に従い,登録者の責任において保護されている 必要があります。 原則として,被験者を直接特定し得る参照情報は,登録データから取り除いてください。 ヒトを対象とした研究データを登録する場合は「ヒトを対象とした研究データの登録について」をご覧ください。 次世代シークエンサからのデータを DRA に登録するためにはメタデータとシークエンスデータが必要です。 解析後の配列データは DDBJ へ登録します。DDBJ Mass Submission System (MSS) が,次世代シークエンサから 生み出されるゲノムや大量データの登録受付先になります。 特許に関連す る データ の 登録 登録するデータが特許に関連する場合は,「特許に関連する塩基配列の登録に関する注意,データの優先権」の 内容を必ずご確認ください。 DRA 登録の流れ 1. 登録アカウントを作成 D-way 登録アカウントを作成 公開鍵と center name をアカウントに登録し,DRA 登録を可能に 2. プロジェクトとサンプル情報を登録 BioProject 研究プロジェクトの内容 「なぜ」そのサンプルをシークエンスしたのか BioSample 生物学的,物理的にユニークなサンプル DDBJ Sequence Read Archive Handbook Handbook 14 「何を」シークエンスしたのか メタデータをタブ区切りテキストファイルで登録できます 3. DRA 登録を作成しデータファイルをアップロード 新規 DRA 登録を作成 Experiment と Run を投稿する前にデータファイルを scp でアップロード 4. シークエンシングの技術的な情報を提供 DRA Experiment 特定のサンプルから構築したライブラリーについての説明 「どのように」シークエンスをしたのか 複数の Experiment は一つの Sample を参照できるが,逆はできない DRA Run Experiment と Run を投稿した後,データファイルの validation を開始 Run にリンクしている全てのデータファイルは1つのデータセットにまとめられる ファイルは SRA ファイル形式に変換される DRA へのデータ登録方法 新規 DRA 登録の作成 D-way (https://trace.ddbj.nig.ac.jp/D-way) にログインします。 上部の DRA メニューから DRA のデータ登録一 覧ページへ進みます。 メタデータオブジェクトの構成例はこちらをご覧ください。 [Create new Submission(s)] をクリックし,新規登録を作成します。 同時に,データ受付サーバ (dradata.ddbj.nig.ac.jp) に対応するディレクトリがホーム直下に作成されます。データファ イルはこのディレクトリにアップロードします。 なお,登録のステータスには以下のものがあります。 "submission_validated" と "data_error" になった登録 は,DRA スタッフが査定します。 DRA 登録のステータス一覧 ステータス 状態 New メタデータの投稿前 DDBJ Sequence Read Archive Handbook Handbook 15 ステータス 状態 metadata_submitted メタデータが投稿された data_validating データファイルの Validation 中 data_error データファイルの Validation エラー submission_validated メタデータとデータファイルの Validation が完了 completed アクセッション番号が発行された confidential 非公開 Public 公開 シークエンスデータのアップロード メタデータを作成する前に登録するシークエンスデータファイルをアップロードします。 タ ーミナ ルによ る シークエンス データ の 転送 (Linux/ Mac O S X) ファイルを SCP 転送します。 $ scp <Your Files> <D-way Login ID>@dradata.ddbj.nig.ac.jp:~/<Submission ID> <Your Files> 転送するファイル。例: file1 file2 (file1とfile2),file* (fileではじまる全てのファイル) <D-way Login ID> D-way の Login ID (例: drauser) <Submission ID> 登録の Submission ID (例: drauser-0003) 鍵を作成したときに指定したパスフレーズを入力します。 Enter passphrase for key '/home/you/.ssh/id_rsa': サーバにログインし,直接ファイルを操作することができます。サーバに SSH でログインします。 $ ssh <D-way Login ID>@dradata.ddbj.nig.ac.jp 鍵を作成したときに指定したパスフレーズを入力します。 Enter passphrase for key '/home/you/.ssh/id_rsa': ログインに成功すると,次のコマンドプロンプトが表示されます。 [drauser@dradata ~]$ サーバのログイン環境は,登録者専用のプライベート環境になっていて,登録者以外はアクセスすることができません。 実行できるコマンドは下記のものに制限されています。 ls cd cp mv rm more mkdir tar gzip gunzip bzip2 bunzip2 zip unzip WinS CP によ る シークエンス データ の 転送 (Window s ) WinSCP (http://winscp.net/eng/download.php) をインストールし,起動します。 以下のように設定した後, 右中央にある [Advanced...] をクリックします。 DDBJ Sequence Read Archive Handbook Handbook 16 File protocol: SFTP Hos t name : dradata.ddbj.nig.ac.jp Port numbe r: 22 Us e r name : (D-way の Login ID を入力) Pas s w ord: (空欄のまま) "Authentication" にある "Private key file" で,事前に作成した秘密鍵を選択します。 最後に,下中央にある [Login] をクリックします。 初回接続時には警告メッセージが表示されますが,“はい” を選択してください (次回から表示されません)。次の画面 では,鍵を作成した際に指定したパスフレーズを入力します。 ログインに成功すると,左側のウィンドウにユーザの PC のフォルダ,右側のウィンドウにデータ受付サーバの登録者専 用ディレクトリが表示されます。 左側ウィンドウでファイルを選択し右側ウィンドウへ “ドラッグ&ドロップ” し,サーバへ ファイルを転送します。 DDBJ Sequence Read Archive Handbook Handbook 17 転送したファイルは,ファイルを選択し [削除] ボタンをクリックすることで削除できます。 Cybe rduck によ る シークエンス データ の 転送 (Mac O S X) Cyberduck (http://cyberduck.ch) をインストールし,起動します。 トップ画面で “Open Connection” を選択します。 使用する転送方式で “SFTP (SSH File Transfer Protocol)” を選択します。 Cyberduck の起動画面で,以下のように設定し More Options の “Use Public Key Authentication” をチェック します。 S e rve r: dradata.ddbj.nig.ac.jp Port: 22 Us e rname : (D-wayのLogin IDを入力) Pas s w ord: (空欄のまま) Add to Ke ychain: (チェックを入れる) DDBJ Sequence Read Archive Handbook Handbook 18 秘密鍵 (private key) はデフォルトで “ユーザのホームフォルダ .ssh フォルダ (Finder からは見えない隠しフォルダ) > id_rsa” に保存されています。 初回接続時には警告メッセージが表示されますが “常に” を選択してください (次回から表示されません)。 ログインに成功すると,データ受付サーバの登録者専用ディレクトリが表示されます。登録者の PC にあるファイルを選 択しウィンドウに “ドラッグ&ドロップ” することで,ファイルをサーバに転送します。 dradata.ddbj.nig.ac.jp サーバに秘密鍵を使って ssh でログインすることができます。 実行できるコマンドは下記 のものに制限されています。 ls cd cp mv rm more mkdir tar gzip gunzip bzip2 bunzip2 zip unzip DDBJ 大量登録システム (Mass Submission System, MSS) 用の登録ファイルでサイズがメール添付の上限を 超えるような場合は DRA サーバを利用することができます。 MSS チームに連絡した後,ファイルを /submission/[submitter ID]/mass にアップロードします。 メタデータ作成ツールでのメタデータ作成 DDBJ Sequence Read Archive Handbook Handbook 19 作成した新規登録をクリックし,登録詳細ページへ移動します。 登録詳細ページ中の [Submit/Update Metadata] をクリックし,メタデータ作成ツールを起動します。 メタデータは Submission,Study (=BioProject),Sample (=BioSample),Experiment,Run,Analysis (任意) オブ ジェクトで構成されています。 メタデータ作成ツールの画面上で,Submission > Study > Sample >Experiment > Run > (Analysis) の順に,各項目に内容を英語で入力します。 必須項目は赤色のアスタリスク記号 (*) で示されて います。 画面の下部にある [Save] や次のオブジェクトへの移動ボタンをクリックすると入力内容がチェックされます。エラーが 表示された場合は内容を修正してください。 データを失わないためにも,こまめに [Save] で入力内容を保存してください。 S ubmis s ion 公開予定日を2年以内に設定します。 Submitter には実作業者と責任者を含む複数人を指定してください。 Submitter 情報は一般に公開されません。 S tudy (=BioProje ct) 自身のアカウントで作成した BioProject 一覧から,該当する BioProject ID を1つ選択します。 複数の BioProject を登録することは出来ません。 自身のアカウント以外で取得された BioProject を使用したい場合は DRA チームに連 絡してください。 複数の BioProject を使用するときは,必要な数分の DRA 新規登録を作成します。 DDBJ Sequence Read Archive Handbook Handbook 20 S ample (=BioS ample ) 自身のアカウントで作成した BioSample 一覧から,該当する BioSample ID を全て選択します。Ctrl キーを押しなが らクリックすると,複数の BioSample ID を選択することができます。 自身のアカウント以外で取得された BioSample を使用したい場合は DRA チームに連絡してください。 Expe rime nt Metadata に必要数の Experiment を入力します。Paired データの場合は,それぞれのリードを結合した座標におけ る開始塩基位置を指定します。 [Add new Experiment(s)] をクリックすると Experiment が1つ追加されます。 [Copy Experiment #1] をクリックすると,一行目の Experiment をコピーすることができます。 [Add new Experiment(s)] 右横のボックスに必要数を記入してから [Add new Experiment(s)] ボタンをクリックする と,指定された数分の Experiment が追加されます。 不要な Experiment は [Delete] ボタンで削除することができます。 [Download TSV file] ボタンをクリックすると, Experiment を,タブ区切りテキストファイルとしてダウンロード し,Excel© などの表計算ソフトでメタデータを作成することができます。 Excel などで作成した内容をタブ区切りテキ ストファイルとして保存し,[Upload TSV file] からアップロードします。 TSVファイルをダウンロードする前に,ウェブ上で必要数の Experiment を作成し,Save しておきます。 DDBJ Sequence Read Archive Handbook Handbook 21 Run 必要な数の Run を作成後,それぞれの Run について,対応する Experiment を選択します。不要な Run は [Delete] ボタンで削除します。 [Select data files for Run] ボタンをクリックし,データファイル選択画面に移動します。 アップロードされているシーク エンスデータファイルが表示されるので,それぞれの Run に含まれるデータファイルを選択し,属性を記入します。 ペアリードが含まれるファイルは同じ Run に含めます。リード名からペアは自動で判定されます。 "MD5 Checksum" の項目に必要なMD5値は,[補足: MD5 値] を参考にして取得することが出来ます。 [Download TSV file] ボタンをクリックすると Run をタブ区切りテキストファイルとしてダウンロードし,Excel© などの 表計算ソフトでメタデータを作成することができます。 Excel などで作成した内容をタブ区切りテキストファイルとして保 存し,[Upload TSV file] からアップロードします。 テキストファイルをダウンロードする前に,ウェブ上で必要数の Run を作成し, Save しておきます。 Analysis (任意) が不要な場合は [Submit] をクリックし,入力を完了します。 Analys is (任意) 必要な数の Analysis を作成後,それぞれの Analysis について詳細を入力します。不要な Analysis は [Delete] ボ タンで削除することができます。 DDBJ Sequence Read Archive Handbook Handbook 22 [Select data files for Analysis] ボタンをクリックし,それぞれの Analysis に含まれるデータファイルについて詳細を 入力します。 "MD5 Checksum" の項目に必要なMD5値は,[補足: MD5 値] を参考にして取得することが出来ます。 [Submit] をクリックして,入力を完了します。 補足: technical reads を登録する場合 XML での メタ データ 作成方法 メタデータ作成ツールは technical read (アダプター,プライマーやバーコード配列) を記載することに対応していませ ん。 「technical read を含む生データを登録する場合」や「SRA XML schema (NCBI) 中にはあるがツール中には無 い項目をメタデータに記載する場合」は メタデータを XML ファイルで登録します。 1. メタデータ作成ツールでメタデータを作成し,投稿します。 2. metadata_submitted になった登録の Submission,Experiment,Run,Analysis (任意) を XML ファイルとして ダウンロードします。 3. XML を編集します。ファイル中のリードの構成を記載する SPOT_DESCRIPTOR については記入例を参考にして ください。 その他の項目については,SRA XML schema (NCBI) 中の説明や DRASearch での実際の XML ファ イルをご参照ください。 4. 編集した XML をアップロードします。Submission,Experiment,Run,Analysis (任意) の XML ファイルを選択 し,同時にアップロードします。 アップロードされた XML について「SRA xsd に対する妥当性」と「オブジェクト間の関係性」がチェックされます。エ ラーは発生した場合はファイルを修正してください。 データファイルの Validation 転送したシークエンスデータファイルをアーカイブ用 SRA ファイルに変換する過程で MD5 値とシークエンスデータの 整合性が検証されます。 DDBJ Sequence Read Archive Handbook Handbook 23 “Data Files” に「Run と Analysis (任意) のメタデータに記載されているファイル名」と「データ受付サーバにアップ ロードされたファイル名と MD5 値」が一覧表示されます。 登録詳細画面中の [Validate data files] をクリックし,シークエンスデータファイルの validation を開始します。 Validation は以下の順番で実行されます。 MD5 Che ck メタデータに記載されている MD5 値と,実際のファイルの MD5 値とが一致するかチェックされ,一致しない場合はエ ラーが表示されます。 エラーの場合は [Submit/Update Metadata] からメタデータを修正するか,ファイルを再アップ ロードしてください。 Data Che ck シークエンスデータからアーカイブ用の SRA ファイルを作成します。この過程でシークエンスデータファイルのフォーマッ トとメタデータとの整合性が検証されます。 作成に失敗するとエラーが表示されます。エラーが発生した場合は [Stop validation] をクリックして Validation 処理を停止した後,メタデータを修正,もしくは,データファイルを再アップロードし ます。 ファイルサイズが大きい場合は Validation に時間がかかります。 問題が無ければ登録のステータスが "submission_validated" になり,validate されたファイルが別ディレクトリに移 されます。 登録のステータスが "submission_validated" になると DRA スタッフが査定を始めます。 DRA スタッフ から指示が あるまで D-way を操作せずにお待ちください。 data_ e rror になった場合 Validation のいずれかのステップでエラーになると,ステータスが "data_error" になります。 [Stop validation] をク リックして Validation 処理を停止してから,メタデータの編集やファイルの再アップロードを行い,再度 [Validate data files] をクリックしてください。 FAQ: データファイルの validation エラーへの対処方法は? アクセッション番号の受領 メタデータとシークエンスデータに問題がなければ,プレフィックス DR (Submission (DRA),Experiment (DRX),Run (DRR),Analysis (DRZ)) のアクセッション番号が発行され,ステータスが “completed” になります。アクセッション番 号は “Component” に表示されます。 また,Submitter には,定型メールにて,アクセッション番号が通知されます。 データ公開 DDBJ Sequence Read Archive Handbook Handbook 24 登録データのデータベースへの取り込みが完了するとステータスが "confidential" になり,即日公開が指定されてい る場合以外は,以下の理由でデータが公開されるまで非公開で保持されます。 DRA では以下の場合にデータを公開しています。 A. 登録者から公開依頼の連絡を受けた場合 B. 登録者がアクセッション番号を公表した事を確認した場合。 登録者以外の第三者が過失により他人のアクセッション番号を論文や学会等で公表した場合などは該当しま せん。 公表とは,アクセッション番号を不特定多数の対象に知らせる行為 (学術論文,学会,インターネット,報道機関 などを媒体とした発表) を指します。 C. 公開予定日が到来した場合 D. DRA Run (DRR) アクセッション番号が引用されている DDBJ/EMBL-Bank/GenBank レコード (TSA,WGS, CON など) が公開された場合 B, C または D の場合は登録者の了解がなくても例外なく公開します。 FAQ: BioProject/BioSample/塩基配列データの連動公開の仕組みは? データが公開されると,数日間のうちに DRASearch で検索可能になり NCBI SRA にミラーリングされます。 DRA ファイルサーバに存在する fastq ファイル一覧: fastqlist オブジェクトは Submission 単位で公開されます。オブジェクトを異なる時期に公開したい場合は Submission を 分けて登録してください。 登録の更新 公開予定日の変更 公開予定日は最長で2年後まで指定でき,繰り返し更新することができます。Hold Date の [Change] をクリックし,公 開予定日変更ページに移動し,予定日を変更します。 データを即日公開する場合は "Release Now" をクリックします。作業した日の深夜に公開処理が実施され,ftp に データファイルが公開され,数日以内に DRA 検索システムにインデックスされます。 メタデータの更新 [Submit/Update Metadata] からメタデータを編集します。編集不可項目はブロックされています。 必要な編集が完 了後,メタデータ作成ツールの [Submit] ボタンをクリックし,更新内容を DRA データベースに反映させます。 関連する文献が公表された場合は pubmed ID を BioProject に追加します。 データファイルの追加 DRA では登録が完了した Run オブジェクトに直接データを追加することはできません。別の Submission で新しく Experiment-Run オブジェクトを追加し,既存の BioProject や BioSample を参照することでデータを追加します。 D-way にログインし,[Create new Submission(s)] をクリックし,新規 DRA 登録を作成します。 作成した新規登録 でデータを追加する対象の BioProject と BioSample を選択します。 新たにサンプルを追加する場合は BioProject を共有し,新規登録で BioSample - Experiment - Run を追加し ます。 既存のサンプルにデータを追加する場合は BioProject と BioSample を共有し,新規登録で Experiment - Run を追加します。 DDBJ Sequence Read Archive Handbook Handbook 25 続いて DRA Experiment と Run タブで,Experiment,Run オブジェクトとデータファイルを追加します。 メタデータを submit し,validation を実行します。追加された Experiment/Run オブジェクトに対してアクセッション 番号が発行されます。 追加したデータに対応する BioProject 番号は同一ですが,Submission に対する DRA 番号は異なります。 DDBJ Sequence Read Archive Handbook Handbook 26 既存の登録が完了した DRA 登録にデータファイルを追加する場合は DRA チームに連絡してください。 データの削除 DRA チームに連絡してください。 補足: MD5 値 MD5 (Message Digest Algorithm 5) はハッシュ関数であり,与えられたファイルに対してハッシュ値 (MD5値,32桁 の英数字) を出力します。ファイルが破損していると MD5 値が変化します。 DRA では,到着したファイルの MD5 値の 一致をチェックすることで,ファイルの破損がないかどうか確認しています。 MD5 値の取得 (Linux) ファイルの MD5 値を取得します。 $ md5sum file1 file2 9F6E6800CFAE7749EB6C486619254B9C file1 B636E0063E29709B6082F324C76D0911 file2 MD5 値の取得 (Mac OS X) ファイルの MD5 値を取得します。 $ md5 file1 file2 9F6E6800CFAE7749EB6C486619254B9C file1 B636E0063E29709B6082F324C76D0911 file2 MD5 値の取得 (Windows) Fsum Frontend (http://fsumfe.sourceforge.net/) をインストールし,起動します。 まず, "md5" にチェックを入れてください。 DDBJ Sequence Read Archive Handbook Handbook 27 [+] ボタンをクリックし,必要なシークエンスデータファイルを開いてください。同時に複数のファイルを選択することが可 能です。 最後に,[Calculate hashes] ボタンをクリックしてください。各ファイルの MD5 値が表示されます。[Export] ボタンか ら,MD5 値の一覧表 (.html, .csv, .xml) を作成することができます。 免責事項 ソフトウェアの入手と利用は利用者の責任において行って下さい。 ソフトウェアの利用や誤った使用によって発生した損 失や損害に対して DDBJ は一切の責任を負いません。 DDBJ Sequence Read Archive Handbook Handbook
© Copyright 2024