The invention discloses a rule based method for keyword extraction of doctor and patient disputes, including: (1) establishing a template for the rule of keyword extraction for doctor-patient disputes according to the keyword category; (2) modularized the doctor-patient dispute case documents according to the content of the label word package; (3) define the key words set of each module of the doctor-patient dispute case. The key words in the corresponding keyword set are extracted from each module; (4) according to the generation template defined by step (1), each keyword extracted by step (3) is written as pseudo expression and automatically mapped into a machine recognizable expression; (5) whether the extracted keyword is correct, and if the keyword is correct, the key words corresponding to the machine are correct. The recognizable expression and the attributes of the documents and paragraphs are stored. If it is not correct, the rules are stored in the set to be perfected. (6) the rule of extraction is adjusted and perfected according to the set of rules to be perfected. The invention improves the accuracy and recall rate of keyword extraction.
【技术实现步骤摘要】
一种基于规则的医患纠纷案件关键词提取方法
本专利技术涉及自然语言处理
,尤其涉及一种基于规则的医患纠纷案件关键词提取方法。
技术介绍
医患纠纷是指基于医疗行为在医方(医疗机构)与患方(患者或者患者亲属)之间产生的,对医疗行为、结果及其原因、责任等在认识上产生分歧而引发的争议。近年来,人们对医疗服务需求在不断增长,对服务质量的要求和维权意识也在提高;而中国医疗卫生事业的改革与发展相对滞后,由此导致医患纠纷案件数量逐年上升,在很多地方甚至出现了多起因医患纠纷引发的恶性案件。医患纠纷类案推荐系统可以为用户推荐类似纠纷类案,其中,对能够精准表达医患纠纷特征的关键词提取是必不可少的一个重要环节。通过对医患纠纷案件的文本中特征性较强的、便于作为分类/标识/统计的关键词进行提取,并做整理和语义抽取,可以为案件贴上相应维度的标签,在类案推荐、医患纠纷分类统计等工作中很大程度上提高匹配的准确度和提升匹配的时间性能。目前关键词提取方式主要是基于分词、词汇表匹配结合TFIDF计算的方法,由于医患纠纷案件所涉及的专业性词汇很多且较为繁杂,使词汇表的构建、中文分词以及TFIDF计算等阶段都存在或多或少的问题,从而导致整个类案推荐系统出现匹配准确率和召回率偏低的状况;且单纯的依靠分词+TFIDF来决定关键词的词比较局限和片面,对医患纠纷分类统计等工作很不利。
技术实现思路
专利技术目的:本专利技术针对现有技术存在的问题,提供一种基于规则的医患纠纷案件关键词提取方法,提高了关键词提取的准确率和召回率,从而满足提取的关键词高可用性的需求。技术方案:本专利技术所述的基于规则的医患纠纷案件 ...
【技术保护点】
1.一种基于规则的医患纠纷案件关键词提取方法,其特征在于该方法包括:(1)按照关键词类别建立医患纠纷关键词提取规则的生成模板;(2)按照标志词包含量将医患纠纷案件文书模块化;(3)对医患纠纷案件文书的各模块定义关键词集合,并从各模块中提取对应关键词集合中的关键词;(4)按照步骤(1)定义的生成模板,将步骤(3)提取的每个关键词编写为伪表达式,并自动化映射成机器可识别表达式;(5)判别提取的关键词是否正确,若正确则将关键词对应的机器可识别表达式以及所属文书和段落属性进行存储,若不正确则存入规则待完善集合中;(6)根据规则待完善集合调整完善提取规则。
【技术特征摘要】
1.一种基于规则的医患纠纷案件关键词提取方法,其特征在于该方法包括:(1)按照关键词类别建立医患纠纷关键词提取规则的生成模板;(2)按照标志词包含量将医患纠纷案件文书模块化;(3)对医患纠纷案件文书的各模块定义关键词集合,并从各模块中提取对应关键词集合中的关键词;(4)按照步骤(1)定义的生成模板,将步骤(3)提取的每个关键词编写为伪表达式,并自动化映射成机器可识别表达式;(5)判别提取的关键词是否正确,若正确则将关键词对应的机器可识别表达式以及所属文书和段落属性进行存储,若不正确则存入规则待完善集合中;(6)根据规则待完善集合调整完善提取规则。2.根据权利要求1所述的基于规则的医患纠纷案件关键词提取方法,其特征在于:步骤(1)中所述医患纠纷关键词提取规则的生成模板具体包括:地理位置规则模板,内容为地理位置属性和对应的元素名称;时间规则模板,内容为时间属性和对应的元素名称;机构名称规则模板,内容为机构名称和对应的关键词;普通规则模板,内容为标志词和对应的元素名称。3.根据权利要求1所述的基于规则的医患纠纷案件关键词提取方法,其特征在于:所述步骤(2)具体包括:(21)分别定义医患纠纷案件文书中基本情况说明、审查查明、法院认为和判决结果所对应的标志词;具体为下表:名称标志词基本情况说明{1.上诉人2.原审审理3.被告}审查查明{1.经审查查明2.经查明3.经原审查...
【专利技术属性】
技术研发人员:张柏礼,王林木,刘艳红,王禄生,陈皓,吕建华,
申请(专利权)人:东南大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。