2024年9月,上海元莘生物合作客户在期刊《Briefings in Bioinformatics》上发表了题为“HMPA: a pioneering framework for the noncanonical peptidome from discovery to functional insights”的文章。该文章建立了一个微肽医学数据库,利用来自大型队列的公开数据集,收集和分析与癌症相关的微肽的蛋白质组数据、转录组数据和临床结果,为高通量预测和微肽的功能探索提供了一个基准,为了解微肽在癌症中的生物学机制提供了新的视角。元莘生物有幸为本篇文章提供了数据库构建服务,接下来,小编给大家好好解读一下这篇文章!
期刊:Briefings in Bioinformatics影响因子:6.8(Q1)发表日期:2024.09.23文献链接:DOI: 10.1093/bib/bbae510
研究背景:肽组学的进步揭示了许多具有编码潜力的小型开放阅读框。同时,其中一些与人类癌症密切相关的微肽也被发现。然而,从序列到结构以及功能的系统分析和整合在很大程度上仍未得到发展。在这里,作为一种解决方案,该文章建立了一个工作流程,利用来自大型队列的公开数据集,收集和分析与癌症相关的微肽的蛋白质组数据、转录组数据和临床结果。通过重新分析8种癌症类型的3753份样本的蛋白质组数据,初步确定了19,586种新型微肽。对这些微肽以及相关临床数据的进一步定量分析确定了3065种在癌症中失调的微肽,其中370种与预后密切相关。此外,还利用深度学习框架构建了微肽-蛋白质相互作用网络,用于进一步的生物信息学分析,揭示了微肽作为生物活性分子参与了多种生物过程。总之,该数据库为高通量预测和微肽功能的探索提供了一个基准,为了解微肽在癌症中的生物学机制提供了新的视角。HMPA可在http://hmpa.zju.edu.cn免费获取。
研究结果
一、微肽的发现和整合工作
为了进行系统性数据集挖掘和分析,我们构建了一个工作流程(图1),涵盖了微肽的发现以及跨不同癌症的功能注释扩展。我们的工作流程分为三大步骤:多组学数据集的收集、微肽发现和功能可视化。在初始阶段,我们收集了大量的基因组、转录组和蛋白质组数据,并补充了微肽表达谱和与癌症相关的临床表型。这些数据集经过精细的预处理,以确保兼容性并有助于整合分析。在接下来的阶段,我们开发了内部脚本,以协调微肽和蛋白质的关联,并通过注释与癌症发病机制相关的微肽,进一步丰富了我们的网络。在最后阶段,我们设计了一个用户友好的数据库,能够探索和可视化与癌症相关的微肽及其潜在功能,从而促进对微肽在肿瘤学中作用的深入理解。
图1. HMPA的整体设计与构建。
二、严格的微肽发现流程
我们精心整理并重新注释了来自八项以癌症为重点的定量蛋白质组学研究的3753份蛋白质组文件(表S1可在线获取:http://bib.oxfordjournals.org/)。这一过程涉及对包括转录组数据、全球蛋白质组数据、匿名临床数据、组织学结果及不同癌症类型的治疗结果在内的数据进行一致的评估(图2a)。此外,我们还分析了6对胃癌组织及其对应的癌旁组织、5对正常胃组织和若干胃癌细胞系。我们使用机械研磨和超声破碎方法从这些组织或细胞系中提取了总蛋白,随后通过30/10 kDa超滤去除了高分子量蛋白质。我们的选择标准专门针对使用基于MS1的蛋白质定量研究,这些研究基于肽前体的离子特性,并使用了Thermo Orbitrap MS平台。在使用PD重新分析了所有的MS数据后,我们汇编了一个包含19,586个sORFs的数据集,每个sORF至少由一个明确的肽段支持。
通过协同分析,我们合成了一个全面的数据集,详细介绍了各种sORFs的衍生(图2b)。为了高效访问并区分与微肽相关的基因组信息及其来源和特征,我们设计了一个系统的命名体系——‘pepNo.-Type-Gene’:‘No.’表示父开放阅读框(ORF)基因组坐标中的顺序编号;‘Type’表示ORF的分类(u:上游,alt:替代,d:下游,nc:非编码 RNA);‘Gene’指定基因或来源位点。
我们评估了这些sORF的长度、起始密码子的使用情况以及产生这些新发现微肽的 RNA 的注释状态。sORF 的长度从 10 到 250 个氨基酸不等,其中27.3%使用了 ATG 起始密码子,而被注释为非编码 RNA 的占总数的94.7%(图 2c)。此外,由于存在大量缺失的蛋白质组学值,我们通过标准方法定量了肿瘤样本和细胞系中的蛋白质表达,并对不同样本中的微肽表达进行了分类(图 2d 和 2e)。这些结果突显了微肽在组织中的广泛分布。
三、癌症相关肽表达在疾病进展中的作用及可视化
HMPA具有交互式表达热图功能,可生动显示单个样本中的肽表达水平。用户可以按疾病类型和显著差异表达筛选结果,从而便于进行有针对性的分析。此外,该工具还整合了临床数据和微肽表达模式,以预测癌症患者的生存结果(图1b)。用户可以按癌症类型筛选结果,以获得详细的生存分析和相关微肽数据。该界面还允许用户按不同的临床指标(分期、年龄和性别)对微肽进行分类,从而帮助探索微肽的表达如何随患者特征而变化。我们探讨了RNA-肽相关性与各种癌症类型的总生存期或无进展生存期变化之间的潜在关联(图2f)。在癌症样本中,共有 264 对 RNA-肽表达存在显著差异(P 值<0.05)。作为 CPTAC 数据集的一个子集,我们最初将重点放在有明确生存数据记录的 TCGA 样本上,然后汇集了所有可用的蛋白质组 TCGA 数据集(图 2g)。我们的分析表明,在所有与疾病相关的微肽数据集中,303 个微肽生物标志物的表达模式与患者生存率之间存在很强的相关性(图 2h)。
图2. HMPA数据分析流程和数据概览
四、系统探索微肽功能
为了全面探索微肽的来源和功能,HMPA系统地收集了六个主要类别的广泛信息(图1b)。这些类别包括转录本的基本信息、亚细胞定位、物理属性、光谱数据、高级结构预测和功能注释。用户可以在结果中无缝浏览微肽ID,通过简单点击访问相关的详细页面。‘Summary’部分提供了基因详细信息的综合表格,展示了基因ID、sORF、描述、基因组坐标、链条和一致性参考,以及编码转录本的概览。在‘Transcripts’部分,HMPA呈现了转录本的基本见解。此外,色彩丰富的‘Subcellular Localization’模块允许用户直观地探索微肽特征。鉴于癌症相关微肽作为抗肿瘤干预新靶标的潜力日益增加,我们预测了微肽的‘properties’,并以表格形式展示了结果。值得注意的是,‘Mass Spectrometry’模块提供了基础的光谱证据,用户可以查看每个注释质谱的离子峰和肽段序列碎片。考虑到RNA二级结构对翻译的影响,我们还对微肽的跨膜特性、表面可及性、二级结构、无序性和 phi/psi 二面角进行了预测,从而对其潜在机制有了更深入的了解。此外,在‘Structure’部分,我们使用 AlphaFold2 对微肽进行了高级结构预测;这些预测结构也可作为可下载资源获得。
此外,我们使用先进的人工智能工具对功能分子进行了结构和组织的建模(图3a)。随后,我们进行了全蛋白质组范围的微肽–蛋白质分子对接,识别潜在的相互作用蛋白。这使我们能够分析这些相互作用的特征,并初步绘制微肽–蛋白质相互作用(mPPI)网络。利用这些相互作用蛋白的功能注释,我们通过GO功能分析和KEGG富集分析,对相互作用蛋白进行了全面的一致性聚类分析(图3b和3c)。在整个过程中,我们评估了网络中每个交互的贡献分数,并对其权重进行了可视化,展示了相互关系。这项分析为理解与微肽功能相关的生物学机制奠定了基础,并为微肽序列、结构、定位和功能的多维生物学特性提供了系统性注释。
图3.微肽结构与生物功能的探索
四、Web界面
HMPA提供了一个用户友好的网页界面,如图1b所示。该界面包含一个高级浏览页面,允许用户通过多种搜索条件组合来导航数据库。它不仅支持查询结果,还能进行无缝浏览,用户可以轻松访问并下载数据库中与癌症相关的所有微肽数据。HMPA主页包含以下界面:Search、HMPA、Tools、Genome、Download和Help。以下是每个界面的简要说明。
HMPA主页提供了基本和高级查询功能,以满足不同用户的需求。用户可以通过“主页”界面搜索微肽,该界面整合了HMPA和其他数据源的内容。通过高级搜索页面,用户可以结合多种条件进行更精确的搜索,例如HMPA编号、转录本ID、符号、基因组位置、亚细胞定位和来源等,从而检索出符合特定研究需求的精确信息。
“HMPA”部分允许用户探索与特定癌症类型相关的微肽。关于微肽的详细信息,包括它们的“HMPA编号”、“微肽名称”和“ORF编号”,均可轻松获取。该界面还提供了“变化水平”功能,概述了根据HMPA存储的数据,恶性肿瘤与正常邻近组织(NAT)样本之间的表达差异。值得注意的是,此部分还包含一个由CRISPR筛选验证的、具有肿瘤促进作用的1161个微肽数据库。在表达表中点击HMPA编号可以进入每个微肽的详细页面,提供筛选结果的更深入见解。
HMPA使用了UCSC基因组浏览器来分析基因组数据,将各种数据源整合为统一视图。此部分展示的轨道包括微肽、参考基因组和phyloP保守性数据,提供了对基因组细节的全面了解,并促进了高级基因组研究(图1b)。为了确保透明性和数据共享,HMPA提供了一个下载界面,分为四部分:基本信息、进阶信息、微肽表达、微肽序列、微肽结构和微肽生物功能信息。这种组织方式使用户能够轻松访问和下载他们所需的数据以便进一步分析。
HMPA 主页概览
元莘项目数据库
[if !supportLists]1) [endif]Zhao, L., Ning, Q., Zheng, G., Luo, J., & Dong, D. (2022). exRNAdisease: an extracellular RNA transcriptome atlas in human diseases. Gene, 836, 146662.
[if !supportLists]2) [endif]Zhao, L., Wu, X., Li, T., Luo, J., & Dong, D. (2020). ctcRbase: the gene expression database of circulating tumor cells and microemboli. Database, 2020, baaa020.
[if !supportLists]3) [endif]Bai, X., Yang, X., Wu, L., Zuo, B., Lin, J., Wang, S., ... & Zhao, H. (2019). CMTTdb: the cancer molecular targeted therapy database. Annals of Translational Medicine, 7(22).
[if !supportLists]4) [endif]Bao, Z., Yang, Z., Huang, Z., Zhou, Y., Cui, Q., & Dong, D. (2019). LncRNADisease 2.0: an updated database of long non-coding RNA-associated diseases. Nucleic acids research, 47(D1), D1034-D1037.
[if !supportLists]5) [endif]Yang, Z., Wu, L., Wang, A., Tang, W., Zhao, Y., Zhao, H., & Teschendorff, A. E. (2017). dbDEMC 2.0: updated database of differentially expressed miRNAs in human cancers. Nucleic acids research, 45(D1), D812-D818.