热点新闻
生信数据上传指南之NCBI
2023-07-06 04:55  浏览:1136  搜索引擎搜索“手机易展网”
温馨提示:信息一旦丢失不一定找得到,请务必收藏信息以备急用!本站所有信息均是注册会员发布如遇到侵权请联系文章中的联系方式或客服删除!
联系我时,请说明是在手机易展网看到的信息,谢谢。
展会发布 展会网站大全 报名观展合作 软文发布

一般来说,在一个生信有关的项目快接近尾声的时候,我们需要及时地将项目中所涉及到的分析数据进行上传,以得到一个可公开的、可查询的、用于发表的项目编号,这一般对于大多数期刊来说都是需要的。

目前,可供研究人员上传数据的网站也有不少,如大家常见的NCBI就是其中之一,而国内出名的如国家基因组科学数据中心在近些年也得到了广泛的关注和使用。值得注意的是,针对不同类型的分析数据类型(原始测序数据、基因组组装数据、变异数据、代码等等),大家可以选择的网站是不同的,本系列将和大家主要介绍一下当前几个可以进行数据上传/分享的网站或数据库以及如何上传数据的具体方法。

首先要介绍的是来自美国的NCBI,全名为National Center for Biotechnology Information,是生物医学领域最常见的数据库之一

网站框架

整个网站可分为6个模块:

  • 数据提交(Submit),选择提交自己的数据到该网站下的两个主要数据库:GenBank 和 SRA。其中的GenBank是国际核苷酸序列数据库合作组织的一部分,该组织由日本的DNA DataBank of Japan (DDBJ)、欧洲的European Nucleotide Archive(ENA)和NCBI的GenBank组成。这三大数据库之间每天都会相互交换数据。

  • 数据下载(Download),提供了FTP、Aspera以及SRA Toolkit等工具帮助下载数据到本地

  • 帮助文档(Learn),提供了各种文档说明和使用教程

  • 应用开发(Develop),帮助开发人员接入网站提供的API进行二次开发

  • 功能分析(Analyze),常见的诸如序列比对工具BLAST、引物设计工具Primer-Blast等

  • 研究探索(Research),对NCBI计算生物学分支(NCBI Computational Biology Branch, CBB)相关的研究介绍

网站资源

所提供的数据资源如下:

  • 化学和生物试验

  • 数据下载和软件

  • DNA/RNA

  • 保守结构域和3D结构

  • 基因表达

  • 遗传学和医学

  • 基因组

  • 同源蛋白

  • 文献

  • 蛋白质

  • 序列分析

  • 物种分类

  • 教程

  • 遗传变异

数据上传

数据上传方法:

  • 第一步,打开NCBI (https://www.ncbi.nlm.nih.gov/)。点击Submit,然后会被导航到新的页面 (https://submit.ncbi.nlm.nih.gov/)





  • 第二步,选择提交的数据库。往下滑动的过程中,选择一个合适的数据库进行数据提交,这里以SRA为例,点击Submit即可










  • 第三步,登录。在点击Submit之后,会继续导航到新的页面,并可能看到如下提示,这是在提示你需要先登录NCBI然后再进行数据提交,目前NCBI支持微软账号直接登入。





在完成登录后,我们可以看到如下页面,里面有几条关于数据提交要求的描述,如压缩文件需要使用gzipbzip2格式,而不能使用zip格式;文件名要是唯一的,且不能包含敏感词汇;每个需要提交的文件都必须填写在表里;大于10GB或300个文件的时候,选择使用preload选项;所有需要提交的文件都需要在单个文件夹里,并只能和单次提交关联






  • 第四步,创建新的提交。点击右上角的New submission,按照提示,完成以下几个步骤

    1. 提交者信息填写,完成之后点击continue

    2. 通用信息填写,包括3个部分:是否已创建BioProject、是否已创建BioSample以及数据释放日期,如果BioProjectBioSample事先都没有创建的话,NCBI会在之后自动创建,所以不必返回重新创建,完成之后点击continue

    3. 项目信息填写,包括项目标题、描述、资助来源,完成之后点击continue

    4. 样品信息简单描述,包括物种名、物种分类等等,完成之后点击continue

    5. 样品列表上传,此时我们只需要按照NCBI提供的文件模板填写完上传即可,其中绿色标注的字段是必填项,蓝色标注的字段是至少填一项,黄色标注的字段是可选项,完成之后点击continue,NCBI会自动对文件进行校验,没有错误则通过,否则需要修改后重新提交

      需要注意的是,除了样品名(sample name)、样品标题(sample title)、项目号(bioproject accession)以及项目描述(description)之外,其他字段信息的组合必须能够用于区分每个样品,解决方法就是多添加几个字段属性,并描述一些每个样品独有的特征,如分组、编号、来源、生物重复信息等等







    6. SRA元数据填写,即样品上传文件详细信息描述,完成之后点击continue

    7. 选择文件上传方法,一般会提供以下3种方法:






      选择第2种方法,并点击下方的Request preload folder按钮,会出现以下选择






      选择Aspera command line instruction,会出现Aspera的使用教程,主要包括三步:

      1. 下载安装Aspera软件

      2. 点击key file下载密钥文件aspera.openssh

      3. 使用Aspera软件中的ascp命令上传单个文件夹内的所有文件






      值得注意的是,在文件上传完后(至少10分钟后才能看到自己上传的文件),需要返回该页面,然后点击Select preload folder选择一个文件夹,最后点击continue。此外,在该步骤的末尾处,NCBI也提供了自动提交的选项,大家可以按需选择






    8. 检查之后提交

  • 第五步,等待邮箱,获取编号

未完待续

作者 :LXD
转载:生信数据上传指南之NCBI
来源:微信公众号
著作权归作者所有,任何形式的转载都请联系作者。

发布人:7b05****    IP:117.173.23.***     举报/删稿
展会推荐
  • 修仙
  • 2023-07-05浏览:1116
让朕来说2句
评论
收藏
点赞
转发