计算机与现代化 ›› 2023, Vol. 0 ›› Issue (07): 13-19.doi: 10.3969/j.issn.1006-2475.2023.07.003
摘要: 长读长测序技术产生的长读数,尤其是精确的长读数,为变异检测提供了很好的数据基础。插入/缺失是较常见的基因组变异,也是重要的致病性变异来源。人类基因组的二倍体特性和高度重复结构导致一些复杂形式的杂合插入/缺失变异的检测仍具有一定难度,变异检测的敏感度和精确度仍有改进空间。针对现有方法对复杂形式的杂合插入/缺失的变异检测效果不佳这一问题,提出一种基于区域内读数段分类的插入/缺失基因组变异检测方法。该方法基于精确的长读数,使用基于双序列比对的读数段分类算法将区域内的读数段根据人类基因组的二倍体特性至多分为2组,从而更精确地检测插入/缺失变异。该方法与其他5种常见的变异检测方法在2组模拟数据集和1组真实数据集上进行比较。实验结果表明,该方法可以提高复杂杂合插入/缺失变异检测的敏感度,具有较好的插入/缺失变异检测效果。
中图分类号: