中文电子病历的信息抽取研究 | ||||||||||||||||
引言信息抽取作为一种文本处理技术n],通过利用机器的计算能力、计算的精确度和准确度为枯燥的信息搜索、分析和识别工作提供了理想的方法。信息抽取的主要功能是从文本中抽取特定的事实信息,被抽取出来的信息以结构化的形式描述,可以直接存人数据库中,供用户查询以及进一步分析使用。在医院信息系统的电子病历(electronicmedicalre-cords,EMR)中蕴含着丰富的信息和知识。本研究利用文本工程通用框架(GATE)进行中文EMR信息抽取研究,目的是加强自然语言理解和本体方法在中文医学文本语义标注和内容分析中的应用,为建立计算机可读的EMR提供技术支持。1病种选择和EMR文本的预处理 2基于GATE的EMR语义标注和信息抽取2.1GATE基本架构 2.4中文医学本体的导入 2.5语义标注和信息抽取结果 2.5.1患者性别和年龄特征信息抽取通过对患、者性别和年龄特征的抽取可以得出EMR文档集中脑梗死患者的性别和年龄分布状况。信息抽取和统计分析结果(见图4)显示,82例患者中,男性59例,女性23例(男女比例为2.6:1);H864年龄最大87岁,最小1岁,平均值为64.76岁,标准差一15.702;5O岁以上73例(占全部病历数的89.O2),5O岁以下9例(占全部病历数的1O.88)。2O 2.5.2脑梗死疾病治疗用药特征信息抽取本文以神经系统解剖结构、神经系统疾病治疗用药、冠心病治疗用药以及中医用药为主题,进行EMR文本特征提取。提取的特征项的主要类型或次要类型包括:minorType=NeuSysAna(:~O经系统解剖)majorType=neurodrugs(神经疾病治疗用药)majorType=heartdrugs(冠心病治疗用药)minorType=TCMDrug(中医用药)。对抽取结果进行分析,可以得到82份EMR的用药情况。 其中,脑梗死治疗用药有7类:①解热镇痛抗炎药(阿司匹林);②影响脑血管、脑代谢及促智药(奥拉西坦、奥扎格雷钠、丁苯酞、金纳多、血塞通、银杏叶提取物、恩必普、阿米三嗪萝巴新、克林澳、尼莫地平、鼠神经生长因子、依达拉奉、阿魏酸钠、吡拉西坦、氟桂利嗪、葛根素、桂哌齐特);③抗癫痫药(卡马西平、妥泰);④抗抑郁症药(阿米替林、西酞普兰);⑤抗精神病药(奥氮平、氟哌啶醇、奋乃静);⑥镇静、催眠及抗惊厥药(鲁米那、苯巴比妥);⑦中枢兴奋药(洛贝林、尼可刹米)。冠心病治疗用药有5类:①钙通道阻滞剂(硝苯地平、地尔硫卓);②调整血脂药物(辛伐他汀、洛伐他汀);③硝酸酯制剂(硝酸甘油);④溶血栓药物(尿激酶、肝素、华法令);⑤抗血小板药物(阿斯匹林)。在82份病历中,中药银杏叶和丹参用得最多;有两份被诊断为中风(中经络)并结合中药治疗的病历,分别用到了17种中药和14种中药。2.6讨论 [5]KRAUTHAMMERM.NENADICG.TerTnidentmcatiOninthebiomedicalliterature[J].JournalofBiomedicalInformaties,2004,37(6):512-526.[6]STUDERR,BENJAMINSVR。FENSELD.Knowledgeengineering,principlesandmethods[J].DataandKnowledgeEngineering,1998,25(12):16卜197.[7]PEREZAG,BENJAMINSVR.Overviewofknowledgesha-ringandreusecomponents:ontologiesandproblemsolvingmethods[c].In:BenjaminsVR,ChandrasekaranB,Gomez-PerezA,eta1.ProceedingsoftheIJCAI99workshoponOntologiesandProblemSolvingMethods(KRR5),Stockholm,Sweden。1999,115.http://ftp.informatik.rwth-aachen.de/Pub1ications/CEURWS/Vol一18/1-gomez.pdf.(2009-824)(收稿:2009-0903修回:20091030) |