计算机与现代化

• 应用与开发 • 上一篇    下一篇

基于代价敏感主动学习算法的2型糖尿病诊断

  

  1. (上海交通大学电子信息与电气工程学院,上海200240)
  • 收稿日期:2017-12-18 出版日期:2018-07-05 发布日期:2018-07-05
  • 作者简介:许智彪(1990-),男,湖北当阳人,上海交通大学电子信息与电气工程学院硕士研究生,研究方向:数据挖掘,多媒体信息处理。

DiagnosisofType2DiabetesBasedonCost-sensitiveActiveLearningAlgorithm

  1. (SchoolofElectronicInformationandElectricalEngineering,ShanghaiJiaoTongUniversity,Shanghai200240,China)
  • Received:2017-12-18 Online:2018-07-05 Published:2018-07-05

摘要: 建立2型糖尿病诊断模型,并通过主动学习解决医疗数据中标记样本较少的问题。2型糖尿病的诊断可以被看作一个代价敏感的二分类问题,本文基于逻辑回归模型、支持向量机模型和人工神经网络模型,采用基于期望误差减小的代价敏感主动学习方法,将主动学习算法和代价敏感分类算法相结合来构建诊断模型,将不同的误分类代价考虑到样本的选择中。在2型糖尿病诊断问题中,基于期望误差减小的代价敏感主动学习算法表现最优,以较少的样本标记达到了最低的误分类代价,因此主动学习算法能够减少医疗数据挖掘中需要标记的样本数,节省标注成本,同时保证模型的性能。

关键词: 糖尿病, 诊断模型, 代价敏感分类, 主动学习, 逻辑回归, 支持向量机, 人工神经网络

Abstract: Inthisstudy,adiagnosismodelfortype2diabeteswasbuiltandthelabelabsenceprobleminmedicaldatawassolvedbyactivelearning.Thediagnosisoftype2diabetescanbeseenasacost-sensitivebinaryclassificationtask.Takinglogisticregression,supportvectormachines(SVM)andartificialneuralnetwork(ANN)asthebasemodel,thisstudyadoptedthecost-sensitiveactivelearningalgorithmbasedontheexpectederrorreductionframework,whichcombinedtheactivelearningstrategywiththecost-sensitiveclassificationalgorithmandintroducedthecostinformationintotheinstancesamplingprocess.Forthediagnosisoftype2diabetes,thecost-sensitiveactivelearningalgorithmbasedontheexpectederrorreductionframeworkperformedbestinthesecomparedactivelearningstrategiesanditachievedtheminimummisclassificationcostsbylabelingfewerinstances.Activelearningalgorithmscanreducethenumberofinstancestobelabeled,savethelabelingcostsandguaranteethemodelperformanceatthesametime.

Key words: diabetes;diagnosticmodel;cost-sensitiveclassification;activelearning, logisticregression;supportvectormachine;artificialneuralnetwork

中图分类号: