文本指标数据解析方法、系统及相应设备和存储介质技术方案

技术编号：27195071 阅读：24 留言：0更新日期：2021-01-31 11:47

本申请公开了文本指标数据解析方法、系统及相应设备和存储介质，其中所述方法包括：将待解析文本分成一个或多个句子；将每一句子分成词语序列并标注每一词语的词性；将每一词语序列分割成一系列简单句；提取每一简单句的主谓宾成分，及响应于一简单句缺乏主语，将第一简单句的主语作为缺乏主语的简单句的主语，得到每一简单句的主谓宾三元组；生成所有主谓宾三元组的每一主语的词向量；将所有主谓宾三元组及词向量输入经训练的神经网络，输出每一词向量属于某个指标的概率；将概率最高且高于预定阈值的指标作为预测指标；将预测指标及对应的主谓宾三元组的谓语和宾语结合作为指标数据。本发明专利技术使能提高文本指标数据的解析准确度和解析全面性。和解析全面性。和解析全面性。

全部详细技术资料下载

【技术实现步骤摘要】
文本指标数据解析方法、系统及相应设备和存储介质

[0001]本申请涉及电数字数据处理领域，尤其涉及文本指标数据解析方法、系统及相应设备和存储介质。

技术介绍

[0002]大数据领域，需要丰富的指标数据作为数据分析的基础。但作为单个单位，很难收集到整个领域的各种数据。通过从机构公开报告里面包括从年报里面挖掘指标数据是必然之选，因为这些报告、年报包含的数据丰富、安全，不会涉及数据隐私泄露的风险。从技术角度，数据挖掘将涉及自然语言处理、指标识别，对数据分析来说指标的准确率显得尤为重要，需要有比较高的指标解析准确率，同时不能漏掉已经存在的指标（召回率），才能形成可靠的指标数据集。然而，现有的指标数据抽取技术存在准确度较低、解析不全的缺点。

技术实现思路

[0003]为了克服现有技术中存在的不足，本专利技术提供一种文本指标数据解析方法、系统及相应设备和存储介质，其能提高文本指标数据的解析准确度和解析全面性。
[0004]在本专利技术的第一方面，提供一种文本指标数据解析方法，该方法包括：将待解析文本分成一个或多个句子；将每一句子分成词语序列并标注每一词语的词性；将分完词的每一词语序列分割成一系列简单句；对于每一词语序列所分成的一系列简单句，提取每一简单句的主谓宾成分，及响应于一简单句缺乏主语，将所述一系列简单句中第一简单句的主语作为缺乏主语的简单句的主语，得到每一简单句的主谓宾三元组；生成所有主谓宾三元组的每一主语的词向量；将所有主谓宾三元组及相应的词向量输入经训练的神经网络，所述神经网络输出每一词向量属...

【技术保护点】

【技术特征摘要】
1.一种文本指标数据解析方法，其特征在于，所述方法包括：将待解析文本分成一个或多个句子；将每一句子分成词语序列并标注每一词语的词性；将分完词的每一词语序列分割成一系列简单句；对于每一词语序列所分成的一系列简单句，提取每一简单句的主谓宾成分，及响应于一简单句缺乏主语，将所述一系列简单句中第一简单句的主语作为缺乏主语的简单句的主语，得到每一简单句的主谓宾三元组；生成所有主谓宾三元组的每一主语的词向量；将所有主谓宾三元组及相应的词向量输入经训练的神经网络，所述神经网络输出每一词向量属于某个指标的概率；将概率最高且高于预定阈值的指标作为所述待解析文本的预测指标；将预测指标及相应词向量对应的主谓宾三元组的谓语和宾语结合作为所述待解析文本的指标数据。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：在提取每一简单句的主谓宾成分的同时确定每一简单句对应的指标类型，其中指标类型包括存量指标、增量指标和/或占比指标。3.根据权利要求1所述的方法，其特征在于，所述神经网络的训练包括：将每一已进行指标标注的训练句子分成词语序列并标注每一词语的词性；将分完词的每一词语序列分成一系列简单句；对于每一词语序列所分成的一系列简单句，提取每一简单句的主谓宾成分，及响应于一简单句缺乏主语，将所述一系列简单句中第一简单句的主语作为缺乏主语的简单句的主语，得到每一简单句的主谓宾三元组；生成所有主谓宾三元组的每一主语的词向量；将所有主谓宾三元组及相应的词向量以及训练文本样本指标标签输入神经网络对神经网络进行训练。4.根据权利要求1所述的方法，其特征在于，所述词向量使用BERT或ALBERT模型生成。5.根据权利要求1所述的方法，其特征在于，所述主谓宾成分通过依存句法解析算法提取。6.根据权利要求1所述的方法，其特征在于，所述神经网络为BP神经网络。7.一种文本指标数据解析系统，其...

【专利技术属性】
技术研发人员：张俊锋，程煜华，黄俊杰，侯丹丹，翟文丽，
申请(专利权)人：望海康信北京科技股份公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人