当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于规则的医患纠纷案件关键词提取方法技术

技术编号:18575865 阅读:143 留言:0更新日期:2018-08-01 10:52
本发明专利技术公开了一种基于规则的医患纠纷案件关键词提取方法,包括:(1)按照关键词类别建立医患纠纷关键词提取规则的生成模板;(2)按照标志词包含量将医患纠纷案件文书模块化;(3)对医患纠纷案件文书的各模块定义关键词集合,并从各模块中提取对应关键词集合中的关键词;(4)按照步骤(1)定义的生成模板,将步骤(3)提取的每个关键词编写为伪表达式,并自动化映射成机器可识别表达式;(5)判别提取的关键词是否正确,若正确则将关键词对应的机器可识别表达式以及所属文书和段落属性进行存储,若不正确则存入规则待完善集合中;(6)根据规则待完善集合调整完善提取规则。本发明专利技术提高了关键词提取的准确率和召回率。

A rule based keyword extraction method for medical dispute cases

The invention discloses a rule based method for keyword extraction of doctor and patient disputes, including: (1) establishing a template for the rule of keyword extraction for doctor-patient disputes according to the keyword category; (2) modularized the doctor-patient dispute case documents according to the content of the label word package; (3) define the key words set of each module of the doctor-patient dispute case. The key words in the corresponding keyword set are extracted from each module; (4) according to the generation template defined by step (1), each keyword extracted by step (3) is written as pseudo expression and automatically mapped into a machine recognizable expression; (5) whether the extracted keyword is correct, and if the keyword is correct, the key words corresponding to the machine are correct. The recognizable expression and the attributes of the documents and paragraphs are stored. If it is not correct, the rules are stored in the set to be perfected. (6) the rule of extraction is adjusted and perfected according to the set of rules to be perfected. The invention improves the accuracy and recall rate of keyword extraction.

【技术实现步骤摘要】
一种基于规则的医患纠纷案件关键词提取方法
本专利技术涉及自然语言处理
,尤其涉及一种基于规则的医患纠纷案件关键词提取方法。
技术介绍
医患纠纷是指基于医疗行为在医方(医疗机构)与患方(患者或者患者亲属)之间产生的,对医疗行为、结果及其原因、责任等在认识上产生分歧而引发的争议。近年来,人们对医疗服务需求在不断增长,对服务质量的要求和维权意识也在提高;而中国医疗卫生事业的改革与发展相对滞后,由此导致医患纠纷案件数量逐年上升,在很多地方甚至出现了多起因医患纠纷引发的恶性案件。医患纠纷类案推荐系统可以为用户推荐类似纠纷类案,其中,对能够精准表达医患纠纷特征的关键词提取是必不可少的一个重要环节。通过对医患纠纷案件的文本中特征性较强的、便于作为分类/标识/统计的关键词进行提取,并做整理和语义抽取,可以为案件贴上相应维度的标签,在类案推荐、医患纠纷分类统计等工作中很大程度上提高匹配的准确度和提升匹配的时间性能。目前关键词提取方式主要是基于分词、词汇表匹配结合TFIDF计算的方法,由于医患纠纷案件所涉及的专业性词汇很多且较为繁杂,使词汇表的构建、中文分词以及TFIDF计算等阶段都存在或多或少的问题,从而导致整个类案推荐系统出现匹配准确率和召回率偏低的状况;且单纯的依靠分词+TFIDF来决定关键词的词比较局限和片面,对医患纠纷分类统计等工作很不利。
技术实现思路
专利技术目的:本专利技术针对现有技术存在的问题,提供一种基于规则的医患纠纷案件关键词提取方法,提高了关键词提取的准确率和召回率,从而满足提取的关键词高可用性的需求。技术方案:本专利技术所述的基于规则的医患纠纷案件关键词提取方法包括:(1)按照关键词类别建立医患纠纷关键词提取规则的生成模板;(2)按照标志词包含量将医患纠纷案件文书模块化;(3)对医患纠纷案件文书的各模块定义关键词集合,并从各模块中提取对应关键词集合中的关键词;(4)按照步骤(1)定义的生成模板,将步骤(3)提取的每个关键词编写为伪表达式,并自动化映射成机器可识别表达式;(5)判别提取的关键词是否正确,若正确则将关键词对应的机器可识别表达式以及所属文书和段落属性进行存储,若不正确则存入规则待完善集合中;(6)根据规则待完善集合调整完善提取规则。进一步的,步骤(1)中所述医患纠纷关键词提取规则的生成模板具体包括:地理位置规则模板,内容为地理位置属性和对应的元素名称;时间规则模板,内容为时间属性和对应的元素名称;机构名称规则模板,内容为机构名称和对应的关键词;普通规则模板,内容为标志词和对应的元素名称。进一步的,步骤(2)具体包括:(21)分别定义医患纠纷案件文书中基本情况说明、审查查明、法院认为和判决结果所对应的标志词;具体为下表:名称标志词基本情况说明{1.上诉人2.原审审理3.被告}审查查明{1.经审查查明2.经查明3.经原审查查明}法院认为{1.法院认为}判决结果{1.判决如下2.原审判判决结果}(22)按照定义的标志词包含量将医患纠纷案件文书切割为:基本情况说明模块、审查查明模块、法院认为模块和判决结果模块。进一步的,步骤(3)具体包括:(31)对基本情况说明模块、审查查明模块、法院认为模块和判决结果模块分别定义关键词集合,具体如下表:(32)分别按照定义的关键词集合从对应的模块中提取关键词,其中,关键词的提取范围仅限于对应模块内。进一步的,步骤(5)具体包括:(51)根据关键词所属模块以及对应的关键词集合判别提取的关键词是否正确;(52)若正确,则将关键词对应的机器可识别表达式以及所属文书和段落属性进行存储,存入格式为KeyName-Value的格式,KeyName指关键词,Value为所属文书和段落属性;(53)若不正确,则将关键词存入规则待完善集合中。进一步的,步骤(6)具体包括:将步骤(5)中所得规则待完善集合中的结果进行分类,若结果为错则根据原文本内容重新调整规则,使用新规则覆盖旧规则,若某一关键词在此模块提取结果为空,但在同一文书其他模块中提取出正确结果,则跳过本步骤。有益效果:本专利技术与现有技术相比,其显著优点是:本专利技术结合了专家规则的交互式关键词提取算法,以交互的方式获取领域内专家积累的知识/经验,然后将它们自动转换为机器可用的关键词提取规则,通过迭代的方式不断完善规则使得关键词提取的准确率与召回率逐步上升,从而对传统的关键词提取算法予以了补充和改进;且通过对医患纠纷文书模块化(分段)分割处理,从而缩小关键词匹配范围,可进一步提高关键词提取的准确率和召回率,从而满足提取的关键词高可用性的需求。具体实施方式本实施例提供了一种基于规则的医患纠纷案件关键词提取方法,包括:(1)按照关键词类别建立医患纠纷关键词提取规则的生成模板。其中,生成模板主要是定义提取规则的结构,按照关键词的不同类别建立不同的规则结构;具体包括:地理位置规则模板、时间规则模板、机构名称规则模板和普通规则模板,每组模板都定义了规则生成所用到的符号,定义了标志词、关键词、长度等多个属性,如表1所示,地理位置规则模板内容为地理位置属性和对应的元素名称,地理位置属性为省名、市名、县名等,元素名称也就是对应的省,例如([省名](江苏省))为一个关键词规则;时间规则模板内容为时间属性和对应的元素名称;机构名称规则模板内容为机构名称和对应的关键词;普通规则模板内容为标志词和对应的元素名称。表1表1中的各个符号的定义如表2所示:表2(2)按照标志词包含量将医患纠纷案件文书模块化。其中,医患纠纷案件的描述段落的关键词包含量差别很大,在需要提取最具有代表性的关键词的目标下,对案件进行模块化划分会将关键词提取界限更加清晰化;具体包括:(21)分别定义医患纠纷案件文书中基本情况说明、审查查明、法院认为和判决结果所对应的标志词;具体为下表:表3名称标志词基本情况说明{1.上诉人2.原审审理3.被告}审查查明{1.经审查查明2.经查明3.经原审查查明}法院认为{1.法院认为}判决结果{1.判决如下2.原审判判决结果}(22)按照定义的标志词包含量将医患纠纷案件文书切割为:基本情况说明模块、审查查明模块、法院认为模块和判决结果模块。(3)对医患纠纷案件文书的各模块定义关键词集合,并从各模块中提取对应关键词集合中的关键词。具体包括:(31)对基本情况说明模块、审查查明模块、法院认为模块和判决结果模块分别定义关键词集合,具体如下表:表4(32)分别按照定义的关键词集合从对应的模块中提取关键词,其中,关键词的提取范围仅限于对应模块内。(4)按照步骤(1)定义的生成模板,将步骤(3)提取的每个关键词编写为伪表达式,并自动化映射成机器可识别表达式。例如,部分关键词的伪表达式和机器可识别表达式如下表所示:表5(5)判别提取的关键词是否正确,若正确则将关键词对应的机器可识别表达式以及所属文书和段落属性进行存储,若不正确则存入规则待完善集合中。具体包括:(51)根据关键词所属模块以及对应的关键词集合判别提取的关键词是否正确;(52)若正确,则将关键词对应的机器可识别表达式以及所属文书和段落属性进行存储,存入格式为KeyName-Value的格式,KeyName指关键词,Value为所属文书和段落属性;(53)若不正确,则将关键词存入规则待完善集合中。(6)根本文档来自技高网...

【技术保护点】
1.一种基于规则的医患纠纷案件关键词提取方法,其特征在于该方法包括:(1)按照关键词类别建立医患纠纷关键词提取规则的生成模板;(2)按照标志词包含量将医患纠纷案件文书模块化;(3)对医患纠纷案件文书的各模块定义关键词集合,并从各模块中提取对应关键词集合中的关键词;(4)按照步骤(1)定义的生成模板,将步骤(3)提取的每个关键词编写为伪表达式,并自动化映射成机器可识别表达式;(5)判别提取的关键词是否正确,若正确则将关键词对应的机器可识别表达式以及所属文书和段落属性进行存储,若不正确则存入规则待完善集合中;(6)根据规则待完善集合调整完善提取规则。

【技术特征摘要】
1.一种基于规则的医患纠纷案件关键词提取方法,其特征在于该方法包括:(1)按照关键词类别建立医患纠纷关键词提取规则的生成模板;(2)按照标志词包含量将医患纠纷案件文书模块化;(3)对医患纠纷案件文书的各模块定义关键词集合,并从各模块中提取对应关键词集合中的关键词;(4)按照步骤(1)定义的生成模板,将步骤(3)提取的每个关键词编写为伪表达式,并自动化映射成机器可识别表达式;(5)判别提取的关键词是否正确,若正确则将关键词对应的机器可识别表达式以及所属文书和段落属性进行存储,若不正确则存入规则待完善集合中;(6)根据规则待完善集合调整完善提取规则。2.根据权利要求1所述的基于规则的医患纠纷案件关键词提取方法,其特征在于:步骤(1)中所述医患纠纷关键词提取规则的生成模板具体包括:地理位置规则模板,内容为地理位置属性和对应的元素名称;时间规则模板,内容为时间属性和对应的元素名称;机构名称规则模板,内容为机构名称和对应的关键词;普通规则模板,内容为标志词和对应的元素名称。3.根据权利要求1所述的基于规则的医患纠纷案件关键词提取方法,其特征在于:所述步骤(2)具体包括:(21)分别定义医患纠纷案件文书中基本情况说明、审查查明、法院认为和判决结果所对应的标志词;具体为下表:名称标志词基本情况说明{1.上诉人2.原审审理3.被告}审查查明{1.经审查查明2.经查明3.经原审查...

【专利技术属性】
技术研发人员:张柏礼王林木刘艳红王禄生陈皓吕建华
申请(专利权)人:东南大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1