您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(医学版)》

山东大学学报(医学版) ›› 2012, Vol. 50 ›› Issue (2): 141-.

• 论文 • 上一篇    下一篇

基于非平衡数据的癫痫发作预警模型研究

吴庆忠1,车峰远2,薛付忠1   

  1. 1.山东大学公共卫生学院卫生统计学研究所, 济南 250012;
    2.临沂市人民医院神经内科, 山东 临沂 276000
  • 收稿日期:2011-09-08 出版日期:2012-02-10 发布日期:2012-02-10
  • 通讯作者: 薛付忠(1964- ),男,教授,博士生导师,主要从事医学统计模式识别理论方法及其应用研究。 E-mail: xuefzh@sdu.edu.cn
  • 作者简介:吴庆忠(1985- ),男,硕士研究生,主要从事癫痫发作预警模型的研究。
  • 基金资助:

    国家科技部科技支撑计划项目(2008BAI52B03)

A predictive model of epileptic
seizures based on unbalanced data

WU Qing-zhong1, CHE Feng-yuan2, XUE Fu-zhong1   

  1. 1. Institute of Health Statistics, School of Public Health, Shandong University, Jinan 250012, China;
    2. Department of Neurology, Linyi People′s Hospital, Linyi 276000, Shandong, China
  • Received:2011-09-08 Online:2012-02-10 Published:2012-02-10

摘要:

目的   构建数据不平衡时癫痫发作频率预警模型。方法   以2008年9月~2011年1月在临沂市人民医院就诊的736例癫痫患者为研究对象,进行癫痫发作危险因素的流行病学调查。采用Smote算法,进行数据的平衡化处理、后构建随机森林模型(RF),对癫痫患者的发作频率(次/月)进行分类预测。结果   采用随机森林模型对癫痫患者进行分类,判断的正确率为82.53%,误判率为17.47%,受试者工作特征曲线下的面积为94.2%, 袋外误差率的值为13.3%。结论   随机森林法能够对癫痫患者发作的频率进行快速的分类,为癫痫发作的预警提供科学依据。

关键词: 非平衡数据;Smote 算法;随机森林; 癫痫发作;交叉验证

Abstract:

Objective   To construct a predictive model of epileptic seizures based on unbalanced data. Methods   The study included 736 epileptic patients treated in Linyi People′s Hospital from September 2008 to January 2011. Epidemiological investigation on risks factors for seizures was made. As the frequency of seizures in epileptic patients was non-balanced data, the data were made a balance based on the Smote Algorithm. Then the random forest was applied to construct a model to make discriminant prediction on the frequency of seizures. Results   Using the random forest to analyze the data, the correctly classified accuracy was 82.53%, incorrectly classified accuracy was 17.47%, area under the receiver operating characteristic(ROC) curve was 94.2%, and out of bag error(OOB) was 13.3%. Conclusion   The random forest is capable of rapidly discriminating the frequency of seizures after processing unbalanced data, which can provide a scientific basis for the forecast of seizures.

Key words: Unbalanced data; Smote Algorithm; Random forest; Seizures; Cross-validation

中图分类号: 

  • R181.2
[1] 陈希1,郭晓雷2,马吉祥3,唐俊利2,鹿子龙2,张吉玉2,张高辉1,徐爱强1,2. 山东省18~69岁常住居民糖尿病筛查的人体测量指标适宜切点分析[J]. 山东大学学报(医学版), 2012, 50(4): 19-23.
[2] 康殿民1,陶小润1,李建卓2,廖玫珍1,朱晓艳1,张娜1,郑薇1,于青1. 山东省项目地区女性性工作者艾滋病干预效果评价[J]. 山东大学学报(医学版), 2011, 49(10): 155-.
[3] 李顺平1,刘婷婷2,陈春辉1,李咏梅2. 济南铁路工人非酒精性脂肪肝病的患病率及影响因素分析[J]. 山东大学学报(医学版), 2010, 48(10): 125-.
[4] 宫蕊1,孟才2,孙喜红1,王志萍1,赵仲堂1. 计划怀孕对神经管缺陷一级预防措施实施的影响[J]. 山东大学学报(医学版), 2010, 48(4): 142-146.
[5] . 济南铁路工人高血压前期的发生率及影响因素研究[J]. 山东大学学报(医学版), 2009, 47(9): 137-140.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!