NCBI数据上传指南,tgz文件怎么解压

文件 4
NCBI数据上传指南 近年来,伴随着高通量测序的广泛应用,海量的测序数据也随之产生。
高通量测序数据分析完成发表文章时,科研工作者需要将数据提交到一个公共平台(例如NCBI数据库)。
下文中我们汇总了如何向NCBI平台提交数据,以及不同测序项目需要提交哪些数据,希望为您发表高分论文提供一些帮助。

一、NCBI数据库及数据类型 向NCBI数据库提交数据可参考SubmissionPortal网页中所列数据库与工具,按照网站提示及说明进行操作,可以在如下输入框中输入关键词查看相关信息。

1.NCBI常用数据库介绍 1)GenBank网址:http://www.ncbi.nlm.nih.gov/genbank/ GenBank是美国国立卫生研究院(NIH)基因序列数据库,包含所有公开的DNA序列和注释信息。
GenBank数据库也是世界上最大的、最重要的、最有影响力的生物全领域数据库,其数据正被全球数以百万计的研究人员获取与引用。
2)SRA网址:http://www.ncbi.nlm.nih.gov/sra/ 存储测序平台产生的测序数据。
包括Roche454GSSystem®,IlluminaGenomeAnalyzer®,AppliedBiosystemsSOLiD®System,HelicosHeliscope®,CompleteGenomics®,andPacificBiosciencesSMRT®。
3)TSA(TranscriptomeShotgunAssembly) 网址:http://www.ncbi.nlm.nih.gov/genbank/tsa/存储由第二代测序数据组装拼接得到的转录本序列。

2.数据类型 上传到NCBI的数据,依据数据类型,大体可以分为测序原始数据和分析数据。
原始数据(Rawdata)指未经任何处理的测序下机文件,包含二代及三代测序数据等。
其中二代测序中最常见的是illumina测序仪产生的fastq文件,例如锐博在项目结题时为您提供的*fastq.gz文件。
这一类型的文件需要提交到NCBI的SRA数据库,具体上传方法我们将在下文中做详细介绍。
分析数据指原始数据在不同分析目标处理后得到的结果文件。
不同的项目类型会产生不同的数据分析结果,相应的分析结果需要提交到不同的数据库。
目前的高通量测序就项目类型而言可大体分为:基因组测序、转录组测序、16S/ITS测序,宏基因组测序等。
NCBI中不同的数据对应的数据库及提交方法可参照如下链接:http://www.ncbi.nlm.nih.gov/guide/howto/submit-sequence-data/。
常见的高通量测序数据需要上传的数据库可参照下表: 数据类型高通量测序数据功能基因组学研究全基因组序列组装大基因组完成图数据不完整的基因组转录组组装序列宏基因组 备注包括二代和三代测序数据包括基因表达、调控及表观基因组包括叶绿体、线粒体、质粒、噬菌体和病毒包括细菌和真核生物wholegenomeshotgun(WGS)sequences.Transcriptsurveysequenceassemblies包含非人类及环境宏基因组 数据库SRAGEO GeneBankWGS TSAMetagenome 下文中我们就详细介绍一下如何将测序数据提交到SRA及GEO数据库。

二、数据提交SRA数据库 向SRA提交数据一般分为以下几个步骤:1)注册NCBI账号; 2)创建BioProject及BioSampleID;3)BioProject和BioSample创建完成后,再转到SRA的网页,创建NewSubmission, 并完成信息填写;4)完成上述步骤后,网页上NCBI会给出一个登陆FTP的账号和网址链接;5)登陆后用账号可直接上传(复制粘贴),或用软件FileZilla或Aspera上传;6)生成相应的数据编号,供发表文章使用。

1.注册NCBI帐号 打开链接ount/,如下图所示,点击标注的“RegisterforaNCBIount”,进入到注册页面,如实填写信息。
帮助文档可参考:https://www.ncbi.nlm.nih.gov/books/NBK3842/#MyNCBI.Registering_with_My_NCBI
2.创建BioProject及BioSampleID 将数据传递到NCBI,都需要对这份数据进行一个描述,包括前期项目情况、样本属性及制备情况等;BioProject和BioSample即描述研究项目的、研究背景、材料属性等基本信息。
一个BioProject代表一项测序研究项目,可包含多个BioSample,也可以包含多次实验experiments,所以在提交数据前,先申请BioProject号和BioSample号。
通常BioSample号以SAMN开头,如SAMN*****;BioProject号以PRJNA开头,如PRJNA*****。
这两个号需要在后续SRA提交过程中使用。
2.1创建BioProjectID 进入下方链接网页,点击Newsubmission:https://submit.ncbi.nlm.nih.gov/subs/bioproject/或登录NCBI之后点击页面左下角SubmitData,在右下角选择BioProject&BioSample,点击Learnmore,然后点击submit。
2.1.1SUBMITTER 根据研究项目实际情况,填写一系列的信息,填完所有步骤后,要点击页面下方的continue,保存已填写的信息。
提示:email选项中,两个邮箱中要留一个该测序项目负责人的常用邮箱,因为后期如果想要修改数据信息或者释放时间,都需要该邮箱发送邮件到NCBI才会被受理。
2.1.2PROJECTTYPE ProjectType:可根据自己的项目类型选择,一般高通量测序数据可选择“Rawsequencereads”。
Samplescope:是对实验样品的简洁描述,根据不同选择会影响后面TARGET的填写,可选择Monoisolate、Multiisolate、Monoisolate、Environment、Synthetic或others。
对各种类型的说明如下截图: 2.1.3TARGET 2.1.4GENERALINFO:基本信息 Releasedate:这个是您的数据公开日期,可以点击立即释放,也可以选择具体时间;Projecttitle:根据TARGET提供一个简短的标题,如: 1)ChromosomeYsequencing;2)Opportunisticpathogenthatcausesimportantfood-borndisease;3)Globalstudiesofmicrobialdiversityonhumanskin.注意:红框中要选择是否关联其他数据,若选择“No”则红框中的内容不进行填写;选择“Yes”,红框中的内容为必填项。
Publicdescription:对研究目标及相关的内容进行一段描述。
2.1.5BIOSAMPLE 样品名称(编号SAMNXXXXXXXX),需要与创建Biosample时的样品名称一致。
如果未创建BiosampleID,可以点击registeratBioSample进行创建,样品注册完成后会自动调回BioProject注册界面。
多个样品可点击“AddanotherBioSample”增加样品信息。
如果您有多个样品,可以直接点击“Continue”,完成BioProject注册后再进行BioSample注册。
2.1.6PUBLICATIONS 填写PubMedID或DOI号。
说明:BioSample和Publications这两步可以省略,后期发邮件给NCBI进行修改。
注:确认无误后,点击“Submit”按钮,创建该Project。
完成以上步骤,经过批准会发送到邮箱里面,获得以PRJNA开头的BioProjectID。
2.2创建BioSampleID
1.打开链接https://submit.ncbi.nlm.nih.gov/subs/biosample/,点击Newsubmission。
同样是根据项目研究的实际情况,填写信息;填写完成后,点击页面下方的continue,保存已填写的信息。
2.2.1SUBMITTER 填写个人基本信息,如果已经成功提交BioProject会自动填补,无需修改。
2.2.2GENERALINFO Releasedate,该信息与BioProject类似,数据释放时间;选择样本类型,是选择多样本还是单样本上传。
2.2.3SAMPLETYPE 根据样品实际情况选择。
2.2.4ATTRIBUTES 有两种上传数据方式,点击“Usebuilt-intableeditor”,可在此直接进行编辑。
也可根据提示下载excel后填写。
表格中的绿色是必填项,一定要保证至少一个因子可以区分各个样本(名字除外)。
可参考下方链接:anism:优势物种名;e.collection_date:采样时间,如:2012-08-16;f.geo_loc_name:采样地,如:China:Beijing;g.lat_lon:经纬度,如:39N116E;h.isolation_source:分离环境,如:Rhizospheresoil; 注意:表格提交后,一定要保证没有任何warnings,否则可能需要等待2个工作日才能重新进行该步骤。
确认无误后,点击最后的“Submit”按钮。
经过以上步骤,邮箱会收到以SAMN开头的BioSampleID。

3.创建NewSubmission 直接登录SRA网址(https://submit.ncbi.nlm.nih.gov/subs/sra/),创建Newsubmission。
3.1SUBMITTER 与BioProject相同,需要填写个人基本信息,如果已经成功提交BioProject会自动填补,无需修改。
3.2GENERAL 直接引用上述创建的BioProject和BioSampleID就可以。
此外还需要设置Releasedate,数据的释放时间一般尽可能选择文章发表之后,后续也可以根据实际需要进行更改。
3.3PROJECTINFO 与BioProject相同,填写ProjectTitle与Publicdescription。
3.4SRAMETADATA 可选择在线填写或者下载Excel表格填写后上传。
其中BioProject、BioSample的登陆号PRJNA#和SAMN#是必填的。
表格中需填写的内容说明如下:1)library_strategy:测序策略,如WGS、RNA-seq、miRNA-seq等;2)library_source:材料来源,如GENOMIC、TRANSCRIPTOMIC、METAGENOMIC;3)library_selection:富集方法,如PCR、RANDOM等;4)library_layout:展示形式,如Paired、Fragment;5)platform:测序平台,如ILLUMINA、PACBIO_SMRT等;6)instrument_model:测序仪器型号,根据测序平台选择,IlluminaHiSeq3000、IlluminaHiSeq XTen、IlluminaMiSeq等;7)Filetype:上传数据形式,如bam、fastq等。
3.5FILES 上传数据文件。
如果数据量比较小,可以使用在线方式上传。
对于数据量较大的项目, 可以使用NCBI的Aspera软件,详细参见链接: https://www.ncbi.nlm.nih.gov/sra/docs/submitfiles/ 注意:上传文件支持tar、tar.gz、tgz、tar.bz2、tbz2、gz等格式。
3.6REVIEW&SUBMIT 核查提交信息,确认无误后,点击“Submit”。
后续邮箱中会收到相应的essionnumber的登录号(SRR*****或者SRA*******),用于查询和检索。
如果您在上传的过程中遇到技术问题,可以联系sra@ncbi.nlm.nih.gov寻求帮助。

三、数据提交GEO数据库
1.注册GEO账号 如果要上传GEO数据库,与提交SRA数据相同,首先要建立一个NCBI的账号。
然后需要注册一个GEO的账号,可以从GEO首页(https://www.ncbi.nlm.nih.gov/geo/)左下角的LogintoSubmit进入创建。
创建完成后,点击Save保存信息,再点击Newsubmission进入GEO主页。

2.上传数据 接下来,选择你要上传的数据类型,这里只介绍上传转录组测序数据。
点击High-throughputsequencesubmissions。
2.1上传文件类型 上传总共需要3类文件:
1.Metadataspreadsheet上传所需要填写的表格,将在下文中详细介绍;
2.Processeddatafiles基因表达量文件,如原始count文件、校正后的表达值文件(包含校正count值、RPKM、FPKM、TPM等);如下图所示。
如果有新预测基因或转录本,除geneID及样品表达值外,还需提供:1)Chromosome(染色体号);2)Strand(链的正负);3)start(起始位置);4)end(终止位置);5)长度length(长度)等信息。
如果没有新基因,只需要提供
A、B列即可。
表达值文件可以以表达矩阵表格的形式或单独的文件形式提供。
CHIP测序支持WIG、bigWig、bedGraph格式。

3.Rawdatafiles(原始的测序数据,如fastq文件)更多说明文件格式说明请参考: 2.2Metadataspreadsheet介绍 进入High-throughputsequencesubmissions页面后,下载Metadataspreadsheet (Downloadmetadataspreadsheet(templateandexamples))。
打开该表格后,共包含7个部分:1)SERIES:跟文章相关的内容:标题,摘要,实验设计,参与者(根据自己情况填写); 2)SAMPLES:跟样本信息相关的内容:样本名称,物种,特征信息及对应的处理文件(表达值数据文件等)和原始数据(fastq等);原始数据文件及处理文件同上文描述。
3)PROTOCOLS:样本的处理提取和文库构建的描述,如样本提取及建库是锐博生物操作,该部分信息可提供给您参考; 4)DATAPROCESSINGPIPELINE:数据处理方面的描述,如数据预处理,数据比对,采用的基因组版本等;锐博生物会提供不同测序类型提供的描述文件供您参考。
5)ROCESSEDDATAFILES:处理后数据名称、格式及MD5码。
RNA测序中即可填写表达值文件,其中filetype一列可以统一写成abundancemeasurements。
filechecksum列为MD5码。
锐博提供了所有结果文件的MD5码文件(md5.txt),存放于custom文件夹下。
6)RAWFILES:原始数据名称、数据格式、MD5码、平台类型、测序读长及单双端信息,平台类型、测序读长及单双端信息可由锐博生物提供; 7)PAIRED-ENDEXPERIMENTS:如果是双端测序,还需要填写对应双端原始数据的名称、插入片段长度及插入长度的标准偏差,这部分内容是非必填项。
到这里METADATATEMPLATE算是填写完成了,接下来就可以进行数据上传步骤。
2.3数据上传 数据上传主要包含两个步骤: 点击TransferFiles进入数据传输页面(),网页中针对windows、MAC、Linux系统上传数据都有详细说明,下面以windows系统为例进行说明。
首先,需要下载Filezilla软件,然后在Filezilla中输入GEO地址:ftp-private.ncbi.hlm.nih.gov并登陆(用户名和密码参考上链接中ConnectingwithFileZilla部分),即可连接GEO数据库进行上传了。
等待数据都上传完成后就可以点击“NotifyGEO”通知GEO数据上传完成。
接下来两天内应该会收到GEO的回复邮件,告知您数据对应的GEO号。

四、结语 感谢您选择锐博生物,如果您在上传数据方面遇到问题,也可以联系我们的技术支持或销售寻求帮助。
祝您科研顺利!

标签: #驱动程序 #镜像文件 #镜像文件 #应用程序 #文件夹 #压缩文件 #压缩文件 #文件