计算机与现代化 ›› 2025, Vol. 0 ›› Issue (03): 71-77.doi: 10.3969/j.issn.1006-2475.2025.03.011
摘要: 小开放阅读框(small Open Reading Frames, sORFs)是指基因组中长度不超过300个碱基的开放阅读框,对于维持细胞代谢平衡及生命体的基础生理功能有重要作用。为深入挖掘sORFs序列的深层特征以及进一步提升跨物种预测编码与非编码sORFs的精度,提出一种融合DNABERT预训练和数据混合编码策略的sORF-BERT神经网络模型,并引入CAL模块以学习sORFs的多尺度特征。对原核基因组、人类、老鼠、拟南芥以及大肠杆菌数据集进行分析研究,sORF-BERT模型通过预训练与微调之后,能有效地捕获sORFs序列丰富的生物学特征,同时利用CAL更好地学习不同尺度的sORFs特征。将sORF-BERT与已发表的CPPred、DeepCPP、CNCI、CPPred-sORF、MiPiped、PsORFs这6种先进方法进行跨物种实验对比,结果显示sORF-BERT在5个独立测试集上的性能均得到提升,与排名第二的PsORFs相比ACC提升了0.42~18.72个百分点、MCC提升了1.08~11.75个百分点,充分表明了该方法在预测编码sORFs的优越性,有助于推动基础生物学的研究。
中图分类号: