计算机与现代化 ›› 2024, Vol. 0 ›› Issue (09): 95-100.doi: 10.3969/j.issn.1006-2475.2024.09.016
摘要: 为了克服在数据平衡处理过程中单一重采样方法易生成冗余样本及误删重要样本信息的局限,本文提出一种基于联合熵的非平衡数据边界混合重采样算法。该算法首先通过引入边界因子对边界集和非边界集进行有效的区分,进一步构建一个联合熵指标体系以判断出边界集中少数类样本的重要程度,并根据其重要程度对细分后的少数类样本点设置不同的过采样方法和采样数量,最后使用NearMiss-2算法对非边界集中多数类样本点进行筛选并删除,从而实现数据的相对平衡。通过对9组UCI数据集进行对比实验,实验结果表明:该算法在F1-Score、G-mean及AUC这3个指标上均有提升,验证了其有效性,有较好的非平衡数据分类性能表现。
中图分类号: