基于无监督深度学习的纳米孔测序O6-甲基鸟嘌呤识别

时间:2022-12-12 00:24:26
作者:关晓宇, 王宇, 张金月, 邵伟, 黄硕, 张道强
关键字:甲基鸟嘌呤,纳米孔测序,DNA损伤,胃肠道肿瘤,深度学习,无监督学习
DOI:10.7507/1001-5515.202104068
查看次数:989

如需要完整文档点击下方 "点击下载文档" 按钮

O6-甲基鸟嘌呤(O6-CMG)是DNA中的一种高致突变烷基化产物,它会导致生命体罹患胃肠道肿瘤。现有的研究主要是利用耻垢分枝杆菌膜蛋白(MspA)纳米孔技术,借助枯草芽孢杆菌噬菌体Phi29 DNA多聚酶(Phi29 DNA polymerase)对突变进行精确定位。近年来,机器学习技术被广泛应用于纳米孔测序数据的分析,但是机器学习往往需要大量的数据标记,这给研究者们带来了额外的工作负担,大大影响了其实用性。因此,本文提出了一种纳米无监督深度学习(nano-UDL)方法,该方法能自动识别含有突变段的纳米孔数据。nano-UDL方法利用深度自动编码器从纳米孔数据中提取特征,然后通过均值漂移(MeanShift)聚类算法对特征数据进行分类。此外,该方法还联合优化了聚类损失和重构损失,从而提取最优的特征用于聚类。实验结果表明,nano-UDL方法在O6-CMG数据集上具有较高的识别精度,能准确识别出所有包含O6-CMG的序列段。为了进一步验证nano-UDL方法的鲁棒性,本文进行了超参数敏感性验证和消融实验。利用nano-UDL方法分析纳米孔数据不但可以有效降低人工分析数据带来的额外成本,而且对包括基因组测序在内的诸多生物研究具有重要意义。

如需要完整文档点击下方 "点击下载文档" 按钮

基于无监督深度学习的纳米孔测序O<sup>6</sup>-甲基鸟嘌呤识别
《基于无监督深度学习的纳米孔测序O6-甲基鸟嘌呤识别》
完整文档 下载到本地,方便收藏和查阅
文件号:125911
基于无监督深度学习的纳米孔测序O<sup>6</sup>-甲基鸟嘌呤识别
点击下载文档
基于无监督深度学习的纳米孔测序O<sup>6</sup>-甲基鸟嘌呤识别

点击下载 文件号:125911(点击复制) 公众号(点击复制)

x