qb期刊 | 南开大学陈盛泉团队提出基于对比学习和参考集引导的单细胞染色质可及性数据细胞类型注释方法-米乐m6棋牌官网

 qb期刊 | 南开大学陈盛泉团队提出基于对比学习和参考集引导的单细胞染色质可及性数据细胞类型注释方法-米乐m6棋牌官网

 
来源:quantitative biology 发布时间:2024/4/18 17:37:05
选择字号:
qb期刊 | 南开大学陈盛泉团队提出基于对比学习和参考集引导的单细胞染色质可及性数据细胞类型注释方法-rainbow

论文标题: accurate cell type annotation for single-cell chromatin accessibility data via contrastive learning and reference guidance

期刊:quantitative biology

作者:siyu li , songming tang , yunchang wang , sijie li , yuhang jia , shengquan chen

发表时间:15 mar 2024

doi:10.1002/qub2.33

微信链接:

染色质可及性是指开放染色质允许调控因子结合的特性,它蕴含着丰富的基因调控信息,对于推断发育轨迹和鉴定调控元件、确定细胞间的异质性等具有重要意义。随着单细胞染色质可及性测序技术(sccas)的迅速发展,准确辨识细胞类型,探究单细胞水平上的表观遗传异质性变得尤为重要。

近日,南开大学数学科学学院陈盛泉课题组开发了一个细胞类型注释方法rainbow,通过利用对比学习策略并引入参考集信息,来实现对单细胞染色质可及性数据的细胞类型注释,并在一系列任务中取得优越性能。相关研究成果“accurate cell type annotation for single-cell chromatin accessibility data via contrastive learning and reference guidance”发表在quantitative biology期刊上。

全文概要目前,细胞类型注释方法主要采用两种策略。第一种策略是通过无监督聚类技术对细胞进行聚类,并依据各个类别所特有的标记基因来赋予相应的标签。然而,这种手动的注释方法缺乏可重复性,并且在处理大规模单细胞数据时面临巨大挑战。第二种策略则是利用已有的注释数据训练模型,以实现对未标注的细胞进行自动注释。但是,现有的自动注释方法在处理sccas数据时仍面临一些显著的局限。首先,sccas数据的极度稀疏性和极度二值化特性使得现有方法难以实现精确的细胞类型注释。其次,大量可用的细胞群染色质可及性数据以及日益增长的sccas数据为我们提供了丰富的参考信息,这些信息在训练过程中的引导作用已在多种单细胞组学数据分析中得到验证,但目前的自动注释技术并未能有效利用这些参考数据。另外,新疾病生物标志物和药物靶点的发现依赖于对新型细胞类型的精确识别,然而现有方法并为考虑到新类型的识别问题。因此,本文作者构建了一个基于对比学习策略、融合参考集信息并可以识别新细胞类型的细胞类型自动注释方法rainbow(如图1)。

图1:rainbow流程图

在rainbow的训练阶段,模型首先通过特征选择和tf-idf转换预处理数据。随后,利用对比学习策略,rainbow学习训练数据的潜在特征表示,这一过程通过增强同类细胞的相似性同时减少不同类细胞间的相似性来完成,确保能够精确识别不同细胞类型的特异性模式。在整合参考集信息时,rainbow能够选择性地使用外部参考数据或者仅仅使用训练数据,通过主成分分析得出的权重初始化多层感知机(mlp)的相关层,来实现融合更广泛的数据信息的目的。在模型的预测阶段,已训练的mlp用于提取潜在特征表示,并采用余弦相似度来预测细胞类型。此外,rainbow具有识别新细胞类型的功能:它通过leiden聚类算法选出平均熵值超过0.7的类,并将这些类中的细胞标注为新细胞类型,这一功能进一步增强了其在单细胞数据分析领域的应用潜力。

 

通过对多个 sccas 数据集进行全面实验,作者表明rainbow在细胞类型注释方面优于其他现有方法。此外,作者验证了rainbow在多种角度上的优越性能。一方面,随着稀疏度和细胞类型数量的变化,rainbow相对于其他方法表现出更高的鲁棒性。另一方面,rainbow在跨数据集实验中准确地注释了细胞类型,并具有揭示特定细胞类型模式的潜力。作者还通过比较引入参考数据与未引入参考数据下模型的注释性能,验证了引入参考数据对于模型性能的提升。此外,作者表明了rainbow在识别新细胞类型方面的有效性,这有望为发现新的疾病生物标志物提供巨大帮助。

qb期刊介绍

quantitative biology (qb)期刊是由清华大学、北京大学、高教出版社联合创办的全英文学术期刊。qb主要刊登生物信息学、计算生物学、系统生物学、理论生物学和合成生物学的最新研究成果和前沿进展,并为生命科学与计算机、数学、物理等交叉研究领域打造一个学术水平高、可读性强、具有全球影响力的交叉学科期刊品牌。

qb期刊目前已被esci, scopus, cscd等国内外重要数据库收录。if2022=3.1,citescore2022=5.7。

《前沿》系列英文学术期刊

由教育部主管、高等教育出版社主办的《前沿》(frontiers)系列英文学术期刊,于2006年正式创刊,以网络版和印刷版向全球发行。系列期刊包括基础科学、生命科学、工程技术和人文社会科学四个主题,是我国覆盖学科最广泛的英文学术期刊群,其中12种被sci收录,其他也被a&hci、ei、medline或相应学科国际权威检索系统收录,具有一定的国际学术影响力。系列期刊采用在线优先出版方式,保证文章以最快速度发表。

http://journal.hep.com.cn

 
 打印  发e-mail给: 
    
 
网站地图