目前公共数据库积累的海量转录组数据主要来自microarray和RNA-seq两大技术平台,然而由于平台固有的系统差异难以校正,现有研究大多聚焦于array-array或seq-seq内部的批次效应消除和数据整合,鲜有跨RNA-seq与microarray平台的数据整合方法。
3344体育官方入口曹志伟课题组长期从事基于组学大数据的精准医学和药物设计等研究。2021年7月,曹志伟课题组在Nucleic Acids Research杂志上发表文章“Rank-in: enabling integrative analysis across microarray and RNA-seq for cancer”,该论文建立了转录组学数据跨平台整合方法Rank-In,可对跨平台混合数据进行整合分析,同时提供在线分析。
该方法将表达谱原始表达值转换为每个谱内的相对排序,然后根据数据集的总体表达分布对排序加权。通过最小化microarray和RNA-seq之间的系统差异,Rank-In使得整合microarray和RNA-seq数据并进一步分析成为可能。该论文选取三类同时包含microarray和RNA-seq数据集全面检测Rank-In的性能和稳健性:1、来自SEQC的细胞系benchmark数据;2、来自TCGA胶质母细胞瘤临床样本;3、来自TCGA和GEO数据库结肠癌及其配对癌旁组织数据。结果显示,无论数据集样本量大或小,样本配对或不配对以及样本平衡或不平衡,Rank-In均适用。
目前,该在线分析平台已收集来自GEO等公共数据库的15个平台,3578个正常样本,5317个肿瘤样本的转录组数据。用户可以探究内嵌数据集中的肿瘤数据,也可以上传分析自有数据。该平台提供校正后的表达谱矩阵、差异基因列表以及聚类结果图。Rank-In将有助于整合分析不同转录组技术、平台或批次的混合数据以及零散的临床样本,进行大规模生物信息学分析。
唐凯临副教授为该论文第一作者,曹志伟教授为通讯作者,本研究获国家重点研发计划和国家自然科学基金的支持。
Copyright© 2011-2015 3344体育官方入口 - 3344体育网平台
地址:上海市四平路1239号 电话:021-65981041 传真:65981041