文章来源:江西中医学院学 作者:黄利兴 指… 随着中医医案文献不断涌现,如何对大量的医案进行整理与挖掘,发现其中隐含的知识与规律,是医案研究的重要问题。数据挖掘技术的发展,使中医医案的发掘与整理有了良好的工具。数据挖掘( data mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,是知识发现( knowledge discovery in database)的关键步骤[ 1 ] 。有学者[ 2, 3 ]提出可用于医案数据挖掘的方法有描述性分析、聚类分析、关联分析、因子分析、判断分析、遗传算法等。近年来,数据挖掘在中医医案方面得到广泛应用。 1 数据挖掘方法 (1)频数统计分析频数统计方法比较简单,但对医案的发掘仍有较大意义,可以发现许多有价值的规律与结论。陈涛[ 4, 5 ]等统计了4400 例当代名医医案的舌象及脉象分布频数的情况,发现一些以前不为人们注意的新知识,如嫩舌也主实证等。谢氏等[ 6, 7 ]对陈可冀院士治疗的高血压与冠心病医案进行统计分析,发现数据挖掘结果能够客观反映了陈可冀院士对这二个疾病的诊治特色与经验。简氏等[ 8, 9 ]统计了历代名老中医痹证医案489 个,建立痹证医案数据库,运用频数分析对证候及病因、病位、发病时间等进行统计。研究结论与传统中医理论有着较高的一致性,符合中医对痹证的认识。还有学者[ 10 ]建立古代情志医案中心身疾病相关医案的ACCESS数据库,运用频数分析法,对出现频次在50次以上常用的54种药物进行分析,总结了心身疾病用药的特色。 (2) Logistic回归分析Logistic 回归分析方法是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。当前,在医学领域有着较广泛的应用。 张氏等[ 11, 12 ]建立历代医案数据库,采用非条件Logistic多元逐步回归筛选外感病因的症状,并给出各症状对诊断这些外感病因的贡献度和特异性。发现外感病因的证候要素是风邪、寒邪、热邪、湿邪、燥邪、疠气、外毒、疟邪和内伏风邪。还在这个数据库的基础上,采用非条件Logistic多元逐步回归方法,形成中医证候及其临床表现的知识库并编制“中医临床辅助诊断系统”软件,该软件只要输入患者的四诊信息,就可以概率的方式给出辨证结果。研究者输入《中医诊断学》心病证候的临床表现,比较软件和教材给出的辨证结果。根据比较结果,作者建议:
[1] [2] 下一页 文章来源:江西中医学院学 作者:黄利兴 指…
(1)在心气虚证中加入能辨病位的临床表现; (2)从心阳虚证或心阳虚脱证中去掉瘀血的临床表现; (3)将心脉痹阻证与瘀阻脑络证合并。 研究者希望这一诊断软件能成为关于证候规范或标准制定的一种评判手段。谭氏等[ 13 ]利用流行病学调查关于胆石病的临床资料,对296例胆石病患者临床症状和临床诊断得出的中医病因病机建立了Logistic回归模型,对中医病因病机进行了统计分析和预测,将预测结果和临床诊断结果进行对比表明,流行病学调查中采用的中医病因病机诊断标准是科学合理的,获得的296例胆石病患者的主要中医病因病机分布也是拥有较高可信度的分布。 (3)关联规则挖掘在数据挖掘领域中,关联规则( association rule)是一个应用较为广泛的研究方向。两个或多个变量的取值之间存在某种规律性,如“同时发生”或“从一个对象可以推出另一个对象”就称为关联。关联规则挖掘[ 14 ]就是通过关联分析找出数据库中隐藏的知识,利用这些知识可以根据已知情况对未知问题进行推测。朱氏等[ 15 ]采用关联规则分析名中医445例哮喘医案的病因、病位、证候与四诊信息的关联关系,病因、病位、证候、四诊信息与用药的关联关系,以及中药之间的关联关系,最终认为中医医案中的用药、四诊信息、病因、病位、证候之间存在一定关联性,可通过关联规则分析获取其中规律。邹氏等[ 16 ]以古代心悸医案为研究对象,建立数据库,进行频数分析和关联分析,挖掘出治疗心悸的基础方为半夏、陈皮、人参、茯苓、白术、甘草、当归、白芍、远志、茯神、酸枣仁、龙骨。欧阳氏等[ 17 ]集已出版发行的名中医牙痛医案,采用关联规则和链接分析方法进行统计,分析显示牙痛治疗有两个核心组方,以浙贝母、赤芍、连翘、金银花、蒲公英、菊花为第一核心中药组方,石膏、知母、生地黄、牛膝、牡丹皮为第二核心中药组方,两组方与牙痛的中医治疗理论非常吻合。李氏等[ 18 ]以临床收集的628例名医病案为对象,采用基于FP2tree的算法,对证型2症状、症状2药物,证型2药物之间的关联规则进行了挖掘。经过分析发现,挖掘出的大部分规则能得到合理的解释并具有一定的实际意义。陈氏[ 19 ]采用频数分析及关联规则挖掘技术,提出了一个萃取古代各家名医治疗各种病症的经验的方法与模式,并经由中风病症的验证,证明本模式的可行性。研究结果找出了古代名医治疗中风最常使用的7种中药,并找出了最常用来治疗中风的9个药对,以及最常用的3个三药对。作者认为:“经由古代中医医案的数据挖掘,的确可以将古代名医的治疗经验萃取出。其探勘后的知识不但可行而且具有临床应用性”。 (4)聚类分析挖掘又称集群分析,是指利用物以类聚的原理,把大量无序的数据分成数类,有助于对大量数据中的规则予以认识,它是一种数理统计 (5)人工神经网络挖掘人工神经网络是指模拟人脑工作机制的一种计算模型,它是由非处理单元组成的非线性大规模自适应系统,以类似于人脑神经网络的并行处理结构进行信息的高级处理。由于它具有自适应性、并行处理能力和非线性处理的优点,所以在医学领域被广泛应用[ 23 ] 秦氏等[ 24 ]将人工神经网络与粗糙集理论相结合,用粗糙集理论对人工神经网络进行预处理,求取核属性,构造粗糙人工神经网络,并应用到中医类风湿病的诊断建模。仿真结果表明,用粗糙集理论辅助设计人工神经网络,改善了人工神经网络的学习能力, 并在实践中取得了令人满意的效果, 叶氏等[ 25 ]尝试应用人工神经网络的反向传播算法( backp ropagation algorithm, BP) ,通过研究中医医案,形成专家知识,对BP网络进行训练,从而使网络获得一定的学习能力,将训练所“学习”而来的“知识”运用到新的病症判断中,从而实现对新知识的获取。(6)其它挖掘方法的应用赵氏[ 26 ]根据中医理论和慢性乙型肝炎中医辨证标准中肝郁脾虚、瘀血阻络证,选择了临床上常见的26项症状、体征,对肝郁脾虚 瘀血阻络证91例患者的症状进行了统计分析。通过多元线性回归分析,建立了症状、体征与证型之间的线性回归方程,提示临床所选26 项症状、体征与病情有很好的相关性,能较全面地反映肝郁脾虚 瘀血阻络证;孙氏等[ 27 ]通过直接分析西苑中医院H IS系统电子病例的证型诊断相关因素,分别构造了中医证型分类朴素贝叶斯和扩展贝叶斯模型。 实验结果显示:在中医临床证型诊断模型中,贝叶斯分类算法具有良好的分类性能。沈氏等[ 28 ]以武汉市某大型综合性医院199622000年伤害住院病案为资料,联合应用因子分析和Cox回归分析探讨住院时间的影响因素,发现住院时间的长短受医疗水平、伤害类型、入院病情、手术次数等多方面因素的影响。研究结果为临床医师正确处理伤害病人、缩短住院时间提供了依据。刘氏等[ 29 ]进行了基于决策树的医案数据分析,发现MDL剪枝法能够有效地减少得到的决策树的复杂度,近3 /4的决策树被减去,然而整个决策树在测试集上的分类精确度几乎没有下降。最终从数据中得到了一些有用的知识。但是其中有一些知识是很荒谬的。另外,他们还发现医疗是一个具有时间概念的事件,而决策树本身只能处理在某一时间点下的事件的状况,因此需要寻找一个有效的方法来处理此类数据,避免产生一些不合实践的结论。 2 问题与展望 从以上研究情况可以看出,越来越多的学者开始重视数据挖掘技术对中医医案的发掘与利用的重要作用与有效性,已经初步积累了一些医案数据挖掘的可行方法,并且发现数据挖掘确实能确发现医案中隐藏的部分规律,可以指导与纠正中医理论与实践的部分问题,但目前尚未有大规模与系统进行医案的整理与挖掘。数据挖掘在医案研究中应用尚存在以下一些问题:一是研究的重点仍以疾病的诊治用药分析最多,基础研究相对较少,但近年来有增多的趋势;二是许多研究结论虽然与临床有较高的吻合性,但仍有些结论与临床实践有明显的出入;三是医案挖掘方法仍以统计学的方法如频数分析、Lo2gistic回归分析方法为主,一些复杂挖掘方法在医案中应用不多;四是从事医案挖掘的研究人员相对较少与集中。因此,今后医案挖掘过程中,尚要注意以后两点:一是要对医案的特征进行更深入的分析,选择最合适的挖掘方法,以期挖掘结果更能反映医案中隐藏的规律,为促进中医临床实践水平起到作用;二是要发展计算机技术中的文本挖掘方法,更多地选用聚类分析、人工神经网络等挖掘方法,以期更深层次地挖掘隐藏在大量医案后面的规律。总之,数据挖掘作为一门新技术,虽然目前在中医医案研究应用中尚处于起步和试验阶段,但必将随着技术的成熟与方法的改进而取得更大的成就! 参考文献 [ 1 ]崔雷主编. 医学数据挖掘[M ] ,高等教育出版社, 2006年7月第一版. 上一页 [1] [2] |