文本指标数据解析方法、系统及相应设备和存储介质技术方案

技术编号:27195071 阅读:24 留言:0更新日期:2021-01-31 11:47
本申请公开了文本指标数据解析方法、系统及相应设备和存储介质,其中所述方法包括:将待解析文本分成一个或多个句子;将每一句子分成词语序列并标注每一词语的词性;将每一词语序列分割成一系列简单句;提取每一简单句的主谓宾成分,及响应于一简单句缺乏主语,将第一简单句的主语作为缺乏主语的简单句的主语,得到每一简单句的主谓宾三元组;生成所有主谓宾三元组的每一主语的词向量;将所有主谓宾三元组及词向量输入经训练的神经网络,输出每一词向量属于某个指标的概率;将概率最高且高于预定阈值的指标作为预测指标;将预测指标及对应的主谓宾三元组的谓语和宾语结合作为指标数据。本发明专利技术使能提高文本指标数据的解析准确度和解析全面性。和解析全面性。和解析全面性。

【技术实现步骤摘要】
文本指标数据解析方法、系统及相应设备和存储介质


[0001]本申请涉及电数字数据处理领域,尤其涉及文本指标数据解析方法、系统及相应设备和存储介质。

技术介绍

[0002]大数据领域,需要丰富的指标数据作为数据分析的基础。但作为单个单位,很难收集到整个领域的各种数据。通过从机构公开报告里面包括从年报里面挖掘指标数据是必然之选,因为这些报告、年报包含的数据丰富、安全,不会涉及数据隐私泄露的风险。从技术角度,数据挖掘将涉及自然语言处理、指标识别,对数据分析来说指标的准确率显得尤为重要,需要有比较高的指标解析准确率,同时不能漏掉已经存在的指标(召回率),才能形成可靠的指标数据集。然而,现有的指标数据抽取技术存在准确度较低、解析不全的缺点。

技术实现思路

[0003]为了克服现有技术中存在的不足,本专利技术提供一种文本指标数据解析方法、系统及相应设备和存储介质,其能提高文本指标数据的解析准确度和解析全面性。
[0004]在本专利技术的第一方面,提供一种文本指标数据解析方法,该方法包括:将待解析文本分成一个或多个句子;将每一句子分成词语序列并标注每一词语的词性;将分完词的每一词语序列分割成一系列简单句;对于每一词语序列所分成的一系列简单句,提取每一简单句的主谓宾成分,及响应于一简单句缺乏主语,将所述一系列简单句中第一简单句的主语作为缺乏主语的简单句的主语,得到每一简单句的主谓宾三元组;生成所有主谓宾三元组的每一主语的词向量;将所有主谓宾三元组及相应的词向量输入经训练的神经网络,所述神经网络输出每一词向量属于某个指标的概率;将概率最高且高于预定阈值的指标作为所述待解析文本的预测指标;将预测指标及相应词向量对应的主谓宾三元组的谓语和宾语结合作为所述待解析文本的指标数据。
[0005]在实施例中,所述方法还包括:在提取每一简单句的主谓宾成分的同时确定每一简单句对应的指标类型。
[0006]在实施例中,所述神经网络的训练包括:将每一已进行指标标注的训练句子分成词语序列并标注每一词语的词性;将分完词的每一词语序列分成一系列简单句;对于每一词语序列所分成的一系列简单句,提取每一简单句的主谓宾成分,及响应于一简单句缺乏主语,将所述一系列简单句中第一简单句的主语作为缺乏主语的简单句的主语,得到每一简单句的主谓宾三元组;
生成所有主谓宾三元组的每一主语的词向量;将所有主谓宾三元组及相应的词向量以及训练文本样本指标标签输入神经网络对神经网络进行训练。
[0007]在本专利技术的第二方面,提供一种文本指标数据解析系统,该系统包括:复合句解析模块,用于将待解析文本分成一个或多个句子;分词模块,用于将每一句子分成词语序列并标注每一词语的词性;简单句分割模块,用于将分完词的每一词语序列分割成一系列简单句;主谓宾解析模块,用于对于每一词语序列所分成的一系列简单句,提取每一简单句的主谓宾成分,及响应于一简单句缺乏主语,将所述一系列简单句中第一简单句的主语作为缺乏主语的简单句的主语,得到每一简单句的主谓宾三元组;词向量生成模块,用于生成所有主谓宾三元组的每一主语的词向量;分类模块,用于将所有主谓宾三元组及相应的词向量输入经训练的神经网络,所述神经网络输出每一词向量属于某个指标的概率;预测指标确定模块,用于将概率最高且高于预定阈值的指标作为所述待解析文本的预测指标;指标数据确定模块,用于将预测指标及相应词向量对应的主谓宾三元组的谓语和宾语结合作为所述待解析文本的指标数据。
[0008]在本专利技术的第三方面,提供一种计算机设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中所述处理器执行所述计算机程序时实现根据本专利技术的第一方面的方法的步骤。
[0009]根据本专利技术的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现根据本专利技术的第一方面的方法的步骤。
[0010]按照本专利技术,对文本进行了短句子(简单句)分割,使用依存句法分析,对文本中省略主语的句子进行主语补充,而不是直接对文本进行解析,提高了解析的正确性。通过使用词向量模型生成文本特征,而不是使用文本空间向量/关键词进行解析,提高了指标解析的全面性。另外,通过使用词向量作为输入和BP神经网络模型作为输出,通过简单的识别训练,就能达到非常高的准确度,实施简单,节约数据公司成本。
[0011]结合附图阅读本专利技术实施方式的详细描述后,本专利技术的其它特点和优点将变得更加清楚。
[0012]附图说明
[0013]图1为根据本专利技术方法的一实施例的流程图;图2为根据本专利技术系统的一实施例的框图。
[0014]为清晰起见,这些附图均为示意性及简化的图,它们只给出了对于理解本专利技术所必要的细节,而省略其他细节。
[0015]具体实施方式
[0016]下面参照附图对本专利技术的实施方式和实施例进行详细说明。
[0017]通过下面给出的详细描述,本专利技术的适用范围将显而易见。然而,应当理解,在详细描述和具体例子表明本专利技术优选实施例的同时,它们仅为说明目的给出。
[0018]图1示出了根据本专利技术的文本指标数据解析方法的一优选实施例的流程图。
[0019]文本可以是各种公开报告、年报、年鉴等。在此以目前互联网公布的卫健委公开报告、医院年鉴数据为例,这些数据里面都可能含有门诊量、出院量、医疗收入、患者均次费用、医保支付额度等重要指标信息。然而,每家机构或者医院都有自己的写作风格、用语习惯,造成很难有通用的识别程序可以一劳永逸的识别出来。提出本专利技术方法来解决这样的问题。
[0020]在步骤S102,将待解析文本分成一个或多个句子。例如,通过中文句尾标点符号即句号、问号、感叹号、分号等将文本分成一系列句子。在报告、年鉴等情形下,这样的句子通常为复合句。例如,某省卫健委的一份公开报告里有这样一段文本:“2018年,全省门诊处方抗菌药物使用率为3.8%,同比下降6.1%;急诊处方抗菌药物使用率为16.2%,同比下降3.6%;住院抗菌药物使用率为31.8%,同比下降0.3%;抗菌药物使用强度为33.1%,同比下降10.5%。”。可将这段文本分成四个句子,即“2018年,全省门诊处方抗菌药物使用率为3.8%,同比下降6.1%”、“急诊处方抗菌药物使用率为16.2%,同比下降3.6%”、“住院抗菌药物使用率为31.8%,同比下降0.3%”和“抗菌药物使用强度为33.1%,同比下降10.5%”。
[0021]在步骤S104,将每一句子例如通过中文分词程序分成词语序列并标注每一词语的词性。根据中文分词程序,每一词语可能包含1个字、2个字、3个字、3个以上的字。中文分词程序可以是本领域已知的任何中文分词程序。
[0022]在步骤S106,将分完词的每一词语序列分成一系列简单句。目前业界的依存句法解析算法往往只支持简单句子的解析,不支持复合语句的解析(解析正确率低),且以词语序列和词性标注为输入,因而在此将复合语句分割成多个简单句子。例如,句子“急诊处方抗菌药物使用率为16.2本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本指标数据解析方法,其特征在于,所述方法包括:将待解析文本分成一个或多个句子;将每一句子分成词语序列并标注每一词语的词性;将分完词的每一词语序列分割成一系列简单句;对于每一词语序列所分成的一系列简单句,提取每一简单句的主谓宾成分,及响应于一简单句缺乏主语,将所述一系列简单句中第一简单句的主语作为缺乏主语的简单句的主语,得到每一简单句的主谓宾三元组;生成所有主谓宾三元组的每一主语的词向量;将所有主谓宾三元组及相应的词向量输入经训练的神经网络,所述神经网络输出每一词向量属于某个指标的概率;将概率最高且高于预定阈值的指标作为所述待解析文本的预测指标;将预测指标及相应词向量对应的主谓宾三元组的谓语和宾语结合作为所述待解析文本的指标数据。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:在提取每一简单句的主谓宾成分的同时确定每一简单句对应的指标类型,其中指标类型包括存量指标、增量指标和/或占比指标。3.根据权利要求1所述的方法,其特征在于,所述神经网络的训练包括:将每一已进行指标标注的训练句子分成词语序列并标注每一词语的词性;将分完词的每一词语序列分成一系列简单句;对于每一词语序列所分成的一系列简单句,提取每一简单句的主谓宾成分,及响应于一简单句缺乏主语,将所述一系列简单句中第一简单句的主语作为缺乏主语的简单句的主语,得到每一简单句的主谓宾三元组;生成所有主谓宾三元组的每一主语的词向量;将所有主谓宾三元组及相应的词向量以及训练文本样本指标标签输入神经网络对神经网络进行训练。4.根据权利要求1所述的方法,其特征在于,所述词向量使用BERT或ALBERT模型生成。5.根据权利要求1所述的方法,其特征在于,所述主谓宾成分通过依存句法解析算法提取。6.根据权利要求1所述的方法,其特征在于,所述神经网络为BP神经网络。7.一种文本指标数据解析系统,其...

【专利技术属性】
技术研发人员:张俊锋程煜华黄俊杰侯丹丹翟文丽
申请(专利权)人:望海康信北京科技股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1