1组学原始数据归档库(GSA)使用说明系统简介2用户注册2GSA数据集创建.
3GSA数据集修改、删除和追加13GSA数据集发布.
15GSA数据集分享链接生成.
16数据文件上传.
17Aspera命令行上传(推荐)17FTP上传.
18AsperaConnect浏览器插件上传.
18协助上传.
19数据触发机制说明.
20提交状态与操作说明212系统简介组学原始数据归档库(GenomeSequenceArchive,GSA)是组学原始数据汇交、存储、管理与共享系统.
GSA遵循INSDC数据库系统的数据标准和数据结构,主要汇交实验信息(ExperimentMetadata)、测序反应信息(RunMetadata)信息以及归档测序文件数据(SequenceDatafile).
GSA用户可通过大数据中心生物数据统一汇交入口——生物数据递交系统(BIGSubmission,BIGSub)完成一站式数据递交.
用户注册请您进入生物数据递交系统(BIGSubmission,BIGSub,https://bigd.
big.
ac.
cn/gsub/)完成账号注册,建议使用实验室公共邮箱进行注册.
如果您在账号注册和使用过程中遇到任何问题,请联系bigd-admin@big.
ac.
cn.
3GSA数据集创建为保证元数据信息与测序数据文件的一致性与完整性,便于后续数据使用者检索与使用,通过BIGSub统一入口递交GSA数据信息时,用户需要为GSA数据集的研究任务创建BioProject,并为数据集的实验样本创建相应的BioSample(s).
GSA各类数据信息间是线性的、一对多的关联关系,数据结构如下图.
具体提交操作步骤如下:本系统支持中英文双语言模式,可随时自由切换4提交者信息(Submitter)—用于收集数据提交者信息,系统会帮您自动填入用户注册时的姓名和电子邮件信息,如部分信息需要调整,可直接修改并通过"保存并进入下一项(Saveandforward)"键完成修改.
请注意,数据信息审核与文件归档过程中出现任何问题,信息将反馈到您的注册邮箱,而非此处填入的提交者信息邮箱.
基本信息(General)—用于收集GSA数据集的描述信息,包括发布日期(Releasedate)、标题和描述信息(Description)、项目信息(BioProjectaccession)、样本信息(SampleInformation).
请注意:如果您已创建好GSA相关的BioSample,请选择"已经创建GSA相关的BioSample信息",根据系统提示依次完成下文中"元数据信息"和"文件上传"步骤,最终检查无误后完成提交.
5如果您还未创建GSA相关的BioSample,请选择"未创建GSA相关的BioSample信息",依照以下流程完成提交:样本类型(SampleType)—用于收集有关样本类型信息.
ReleaseDate的设置时间,用户可根据项目需求进行设定,但最长不要超过2年.
发布策略和免责声明如果您已经创建了BioProject,请选出对应Accession号;如果您还未创建BioProject,请点击并前往创建BioProject;此处以未创建GSA相关的BioSample信息为例6注:遵从《中华人民共和国人类遗传资源管理条例》总则规定,如果您确定需要将数据提交到GSA-Human数据库,请先删除当前所有已提交信息再通过gsa@big.
ac.
cn联系我们.
样本属性(Attributes)—用于批量提交样本的属性信息.
1)下载模板文件,如上图中的Human.
cn.
xlsx(中文版),e.
g.
Human.
cn.
xlsx为例子文档.
更多帮助,请查看Help;以Human为例72)编辑模板文件并检查无误后,通过文件选择框进行文件上传;3)上传完成后,通过点击"校验"键,进行批量表格在线审核:4)若文件审核不通过,请点击"删除"键,删除已上传的文件并按系统提示信息修改后,再重新上传批量表格文件,直至审核通过;当文件审核通过,请点击"保存并进入下一项(Saveandforward)"键,完成BioSample批量提交;08元数据信息(Metadata)—用于批量提交GSA元数据信息,具体批量提交步骤如下;1)下载模板文件,如上图中的GSA_Template.
cn.
xlsx(中文版),e.
g.
GSA_Template.
cn.
xlsx为例子文档.
更多帮助,请查看Help;2)编辑模板文件并检查无误后,通过文件选择框进行文件上传;93)上传完成后,通过点击"校验"键,进行批量表格在线审核;4)若文件审核不通过,请点击"删除"键,删除已上传的文件并系统按提示信息修改后,再重新上传批量表格文件,直至审核通过;当文件审核通过,请点击键,完成批量样本提交;10文件上传(FileUpload)—数据文件上传方式选择,分别为FTP客户端,Aspera命令行(推荐)和AsperaConnect浏览器插件上传,详见"数据文件上传".
注:概况信息(Overview)—提供对GSA数据及其相关信息的整体预览.
在正式提交之前,用户可通过点击进度条上的按钮,进入相应页面修改信息.
请务必检查无误后再点击"提交(Submit)"完成递交.
11通常状况下,数据信息与文件审核归档约需要1-2天(数据量越大相应所需时间越长),归档成功后您会收到一封通知邮件,并可在GSA列表中查找的为您分配的GSA编号(GSAAccessionnumber);如果归档中数据信息与文件审核归档过程中出现问题,信息将反馈到您的注册邮箱,因此请您关注邮箱反馈信息.
12注:1)GSA提交编号(SubmissionID):sub#,如上图中的subCRA000595.
请仅在联系GSA工作人员时使用,不要在BIGSearch检索信息时或在文章中使用提交编号.
2)请务必在BIGSearch检索信息时或在文章中使用GSA编号(GSAAccessionNumber):CRA#,如上图中的CRA000532.
发表的文章引用GSA编号参考语句如下:TherawsequencedatareportedinthispaperhavebeendepositedintheGenomeSequenceArchive(Genomics,Proteomics&Bioinformatics2017)inBIGDataCenter(NucleicAcidsRes2019),BeijingInstituteofGenomics(BIG),ChineseAcademyofSciences,underaccessionnumber(s)CRAxxxxxx(,CRAyyyyyy)thatarepubliclyaccessibleathttps://bigd.
big.
ac.
cn/gsa.
文章引用格式:GSA:GenomeSequenceArchive.
Genomics,Proteomics&Bioinforma-tics2017.
[PMID=28387199]DatabaseResourcesoftheBIGDataCenterin2019.
NucleicAcidsRes2019.
[PMID=30365034]13GSA数据集修改、删除和追加在GSA数据集文件归档完成之前,无论数据信息是否通过审核,用户可通过点击"SubmissionID"进入样本总览界面,①更新GSA基本信息(BasicInformation)中的标题(Title)和发布日期(Releasedate);②修改提交者信息(Submitterinformation);③使用"追加数据(AddData)"键,详见"GSA数据集创建";④修改或删除已提交实验(Experiment)和测序反应(Run)基本信息;⑤使用"更新文件(UpdateFile)"键,补充和更新数据文件(推荐AsperaConnect浏览器插件上传文件用户使用).
注:数据详细提交状态和用户可用操作详见"提交状态与操作说明".
更新GSA基本信息中的标题和发布日期修改提交者信息查看BioSample信息批量添加元数据信息进入文件上传页面,补充或重新上传文件修改或删除已提交实验和测序反应基本信息查看BioProject信息14在GSA数据集文件归档完成之后(Status为checkOK;confidential).
用户可通过点击"SubmissionID"进入样本总览界面,①更新GSA基本信息(BasicInformation)中的标题(Title)和发布日期(Releasedate);②修改提交者信息(Submitterinformation);③使用"追加数据(AddData)"键,详见"GSA数据集创建";④使用"更新文件(UpdateFile)"键,补充和更新数据文件(推荐AsperaConnect浏览器插件上传文件用户使用).
如果您还希望修改或删除已提交实验(Experiment)和测序反应(Run)基本信息,请通过gsa@big.
ac.
cn邮箱联系数据库工作组.
注:数据详细提交状态和用户可用操作详见"提交状态与操作说明".
更新GSA基本信息中的标题和发布日期批量添加元数据信息进入文件上传页面,补充或重新上传文件修改提交者信息15GSA数据集发布如用户需要提前发布GSA数据集,可点击下图列表中"立即发布(ReleaseNow)"控件,完成提前释放.
在"释放数据确认框"中点击"Yes",即可释放GSA数据集.
请注意当GSA数据集发布后,所有与其关联的BioProject和BioSample(s)将同时发布(具体机制详见数据触发机制说明).
注:GSA数据释放后,需要几个小时归档数据,等数据归档成功后,即可在BIGSearch中通过GSA序列号(Accessionnumber)搜索到数据集以及相关BioProject和BioSample(s)信息.
16GSA数据集分享链接生成1.
用户通过账号登陆BIGSub系统,在GSA提交系统列表中,找到Operation有个"分享"控件(如图所示);2.
点击"分享",会生成如下图所示的分享链接,复制该链接并提供给编审,其即可以查看数据;注:此链接为临时链接,用户可以将该链接分享给编辑和审稿人,方便其查看数据,但为了您的数据安全请不要将此链接对外公布.
数据共享结束后,请点击"Cancelshare"按钮,取消数据共享.
17数据文件上传Aspera命令行上传(推荐)您可以通过Aspera命令行,使用以下的命令来上传文件:[path/to/ascp/]-P33001-i[path/to/key/file]-QT-l100m-k1-d[path/to/folder/containing/files]aspsub@submit.
big.
ac.
cn:uploads/zhangss@big.
ac.
cn_a657feb7其中:[path/to/ascp/]:指ascp的执行程序,一般安装了asperaconnectplugin的操作系统,都有这个执行程序.
不同的操作系统,ascp存在于不同的位置.
MicrosoftWindows:C:\ProgramFiles\Aspera\AsperaConnect\bin\ascp.
exe或:C:\users\[username]\AppData\Local\Programs\Aspera\AsperaConnect\bin\ascp.
exeMacOSX:/Applications/Aspera/Connect.
app/Contents/Resources/ascp(admin用户安装)或:/Users/[username]/Applications/Aspera/Connect.
app/Contents/Resources/ascp(非admin用户安装)Linux:/opt/aspera/bin/ascpor/home/[username]/aspera/connect/bin/ascp命令行中:[path/to/key/file]必须是文件的绝对路径,如:/home/keys/aspera.
openssh[path/to/folder/containing/files]应该是包含您要上传的所有文件的本地路径.
请点击"Getthekeyfile"下载获取此文件.
注:1)请为您每一个提交创建一个新的子目录(可以用GSA的提交编号作为子目录名称).
请注意这个子目录是一个临时文件夹,当本次提交完成时,该目录及目录下的文件将被后台处理程序删除.
2)请不要上传复杂的文件夹结构,也不要上传跟您提交不相关的非序列文件.
舍利云怎么样?舍利云推出了6核16G超大带宽316G高性能SSD和CPU,支持全球范围,原价516,折后价200元一月。原价80美元,现价30美元,支持地区:日本,新加坡,荷兰,法国,英国,澳大利亚,加拿大,韩国,美国纽约,美国硅谷,美国洛杉矶,美国亚特兰大,美国迈阿密州,美国西雅图,美国芝加哥,美国达拉斯。舍利云是vps云服务器的销售商家,其产品主要的特色是适合seo和建站,性价比方面非常不错,...
最近看到群里的不少网友在搭建大数据内容网站,内容量有百万篇幅,包括图片可能有超过50GB,如果一台服务器有需要多个站点的话,那肯定默认的服务器50GB存储空间是不够用的。如果单独在购买数据盘会成本提高不少。这里我们看到腾讯云促销活动中有2款带大数据盘的套餐还是比较实惠的,一台是400GB数据盘,一台是800GB数据盘,适合他们的大数据网站。 直达链接 - 腾讯云 大数据盘套餐服务器这里我们看到当前...
7月4日是美国独立日,大致就是国庆节的意思吧。hostodo今年提前搞了个VPS大促销活动,4款便宜VPS,相当于7折,续费不涨价,本次促销不定时,不知道有多少货,卖完为止。VPS基于KVM虚拟,NVMe阵列,1Gbps带宽,自带一个IPv4+/64 IPv6,solusvm管理,送收费版DirectAdmin授权,VPS在用就有效! 官方网站:https://www.hostodo.com ...