【技术实现步骤摘要】
一种基于hanlp解析医疗诊断的方法
[0001]本专利技术涉及一种基于hanlp解析医疗诊断的方法。
技术介绍
[0002]在医疗数据中,比如电子病历等数据,其数据存储格式为非结构化的文本数据,这些数据难以被关系数据库所建模,也难以被代码利用,在数据处理之前,其不具备数据分析,数据挖掘的价值,本专利技术旨在针对医疗数据进行非结构化的处理分析,并获得有价值的诊断结果。
[0003]目前市面上暂无公开的基于hanlp分词来生成医疗诊断的方法,公开的基于hanlp的应用主要集中于垃圾信息过滤等领域,且功能多为简单采用hanlp分词,并没有有效将实体与特征、动词副词相结合得出可靠的关联。
技术实现思路
[0004]本专利技术的目的在于提供一种基于hanlp解析医疗诊断的方法,通过hanlp的分词功能与依存句法分析,通过构建句法树,遍历判断实体词的依赖动词,副词,形容词以及语料库维护的诊断名词,将特征性质等信息与医疗实体名词相关联,从而得出实体名词与其诊断、特性记录。
[0005]为实现上述目的,本专 ...
【技术保护点】
【技术特征摘要】
1.一种基于hanlp解析医疗诊断的方法,其特征在于,对hanlp完整分词以及构造出的句法树结果进行处理,采用树遍历的方式找寻医疗实体的特征值,具体实现步骤如下:S1、输入医疗非结构化数据,根据句号,分号分段符进行预分段,将数据预先划分为n组;S2、将预先分组的各组数据采用多线程方式,启动hanlp多线程处理并输出语义依存句法数组;S3、对依存句法数组进行分析处理:S31、初始化一个最终解析结果列表,该列表存储有解析结果的对象集合,解析结果对象属性有实体名词名称、特征描述字符串数组、诊断内容字符串数组;初始完成后开始遍历语义依存句法结果分组,针对每一条分组执行步骤S32;S32、遍历语义依存数组,原始数据为一个维度1的对象数组,根据对象的前置节点信息,重新构建自定义的依存句法树,该树存在父指针和子集合,分别指向其父节点和子节点集合;S33、从解析结果数组下标i(初始i=0)开始遍历数组,当遇到医疗实体名词后以该名词对象信息创建最终解析结果对象,加入结果列表list中,并复制为currentObj对象,并进入实体名词...
【专利技术属性】
技术研发人员:张豪,
申请(专利权)人:福建福诺移动通信技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。