当前位置: 首页 > 专利查询>中国人民解放军军事科学院军事科学信息研究中心专利>正文

一种数值类指标数据检测与抽取方法及系统技术方案

技术编号：39497423 阅读：7 留言：0更新日期：2023-11-24 11:27

本发明专利技术提供了一种数值类指标数据检测与抽取方法及系统，该方法包括：采用正则表达式对待抽取的文本提取数值，并据此得到每个数值在文本中的位置；遍历每个数值，将待抽取文本和每个数值在文本中的位置输入预先建立和训练好的数值指标判别模型，得到对应的判别数值，并根据设定条件判断是否为指标数值，如果为指标数值，则将指标数值和对应文本输入预先建立和训练好的指标数据属性抽取模型，将输出转化为属性并形成元组；如果遍历完都没有指标数值，则过程结束

全部详细技术资料下载

【技术实现步骤摘要】
一种数值类指标数据检测与抽取方法及系统

[0001]本专利技术涉及统计指标和信息抽取领域，具体指一种数值类指标数据检测与抽取方法及系统
。

技术介绍

[0002]统计指标是数据分析的重要手段，是描述数据总体态势和核心局部特征的重要方式，构建统计指标体系对数据驱动的管理决策具有重要意义
。
同时，统计指标又是分析结果的重要呈现方式，常常是数据发布的主要内容，已经发布的大量统计指标及其数据具有重要的参考和研究价值
。
当前指标研究一般以专家研究为主，主要依靠专家学习吸收和参考其他指标，采用技术方法大量提取指标，可以给指标研究提供更多的参考；同时大量提取已发布的各类指标的数据，对指标的对比分析也具有重要作用
。
[0003]发布的指标及数据一般以报告的形式蕴含在非结构化文本中，指标的表达形式各异，从这些文本中抽取指标和数据具有较大挑战
。
目前指标抽取的研究和专利技术还较少，由于在报告中指标和数据常常是同时出现的，可通过数值抽取的方法间接找到指标
。
目前直接开展数值抽取的研究主要聚焦于如何找到数值
、
判断数值类别，将数值及其属性作为完整单元抽取研究还比较少
。
其他涉及数值抽取的主要是只是抽取中的数值类属性，但其主要通过固定的属性
(
比如人的年龄
、
身高
)
，抽取属性对应的数值，在数值类指标抽取中，由于指标的随意性比较大，难以作为固定属性抽取/>。

技术实现思路

[0004]本专利技术的目的在于克服现有技术缺陷，提出了一种数值类指标数据检测与抽取方法
。
[0005]为了实现上述目的，本专利技术提出了一种数值类指标数据检测与抽取方法，所述方法包括：
[0006]采用正则表达式对待抽取的文本提取数值，并据此得到每个数值在文本中的位置；
[0007]遍历每个数值，将待抽取文本和每个数值在文本中的位置输入预先建立和训练好的数值指标判别模型，得到对应的判别数值，并根据设定条件判断是否为指标数值，如果为指标数值，则将指标数值和对应文本输入预先建立和训练好的指标数据属性抽取模型，将输出转化为属性并形成元组；如果遍历完都没有指标数值，则过程结束
。
[0008]优选的，所述对待抽取的文本提取数值，包括：阿拉伯数字
、
小数点和百分号
。
[0009]优选的，所述数值指标判别模型包括：输入层
、
隐藏层和输出层；其中，
[0010]所述输入层，用于接收待抽取文本和数值在文本中的位置，待抽取文本以设定的第一标识符开始，以字为基本单元；
[0011]所述隐藏层，使用
Bert
模型，输出为
Bert
模型每个节点对应的向量；
[0012]所述输出层，为一层全连接神经网络，使用位置掩码提取数值在文本中的位置对
应的
Bert
输出向量，然后输入全连接神经网络，其激活函数采用
sigmoid
函数，输出为1个0到1之间的判别数值
。
[0013]优选的，所述根据设定条件判断是否为指标数值具体包括：
[0014]将数值指标判别模型输出的判别数值与设定阈值进行比较，如果大于设定阈值，为指标数值，否则不是指标数值
。
[0015]优选的，所述指标数据属性抽取模型包括：输入层
、
隐藏层和输出层；其中，
[0016]所述输入层，用于接收待抽取文本和指标数值，待抽取文本以设定的第一标识符开始，以字为基本单元，指标数值前添加第二标识符；
[0017]所述隐藏层，使用
Bert
模型，输出为
Bert
模型每个节点对应的向量；
[0018]所述输出层，每一个词对应节点包含一个全连接神经网络，其激活函数采用
softmax
函数，输出长度为9的向量，向量的数值均在0到1之间，且9个数值的和为
1。
[0019]优选的，所述将输出转化为属性并形成元组，具体包括：
[0020]首先获取输出向量中最大值所在位置，然后判断：
[0021]如果在第1维，表示该字是对象的首字；
[0022]如果在第2维，表示该字是对象的内部字；
[0023]如果在第3维，表示该字是指标的首字；
[0024]如果在第4维，表示该字是指标的内部字；
[0025]如果在第5维，表示该字是时间的首字；
[0026]如果在第6维，表示该字是时间的内部字；
[0027]如果在第7维，表示该字是单位的首字；
[0028]如果在第8维，表示该字是单位的内部字；
[0029]如果在第9维，表示该字不是属性相关的字；
[0030]将统一属性的首字和与之连续的内部字连接，得到对应的属性文本；再组成元组，所述元组形式为
<
对象
、
指标
、
时间
、
数值
、
单位
>。
[0031]优选的，所述方法还包括数值指标判别模型的训练步骤：具体包括：
[0032]按照设定的格式，建立训练集，是数值指标，标记为1，否则标记为0；
[0033]使用计算结果与标记的交叉熵误差作为损失函数，直至满足训练要求，得到训练好的数值指标判别模型
。
[0034]优选的，所述方法还包括指标数据属性抽取模型的训练步骤：具体包括：
[0035]按照设定的格式，建立训练集，标记为
<
对象
、
指标
、
时间
、
数值
、
单位
>
元组；
[0036]使用计算结果与标记的交叉熵误差作为损失函数，直至满足训练要求，得到训练好的指标数据属性抽取模型
。
[0037]另一方面，本专利技术提出了一种数值类指标数据检测与抽取系统，所述系统包括：
[0038]提取模块，用于采用正则表达式对待抽取的文本提取数值，并据此得到每个数值在文本中的位置；
[0039]判别模块，用于遍历每个数值，将待抽取文本和每个数值在文本中的位置输入预先建立和训练好的数值指标判别模型，得到对应的判别数值，根据设定条件判断是否为指标数值；和
[0040]抽取模块，用于将指标数值和对应文本输入预先建立和训练好的指标数据属性抽
取模型，将输出转化为属性并形成元组
。
[0041]与现有技术相比，本专利技术的优势在于：
[0042]1、
本专利技术将
<
对象
、
指标
、
时间
、
本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种数值类指标数据检测与抽取方法，所述方法包括：采用正则表达式对待抽取的文本提取数值，并据此得到每个数值在文本中的位置；遍历每个数值，将待抽取文本和每个数值在文本中的位置输入预先建立和训练好的数值指标判别模型，得到对应的判别数值，并根据设定条件判断是否为指标数值，如果为指标数值，则将指标数值和对应文本输入预先建立和训练好的指标数据属性抽取模型，将输出转化为属性并形成元组；如果遍历完都没有指标数值，则过程结束
。2.
根据权利要求1所述的数值类指标数据检测与抽取方法，其特征在于，所述对待抽取的文本提取数值，包括：阿拉伯数字
、
小数点和百分号
。3.
根据权利要求1所述的数值类指标数据检测与抽取方法，其特征在于，所述数值指标判别模型包括：输入层
、
隐藏层和输出层；其中，所述输入层，用于接收待抽取文本和数值在文本中的位置，待抽取文本以设定的第一标识符开始，以字为基本单元；所述隐藏层，使用
Bert
模型，输出为
Bert
模型每个节点对应的向量；所述输出层，为一层全连接神经网络，使用位置掩码提取数值在文本中的位置对应的
Bert
输出向量，然后输入全连接神经网络，其激活函数采用
sigmoid
函数，输出为1个0到1之间的判别数值
。4.
根据权利要求1所述的数值类指标数据检测与抽取方法，其特征在于，所述根据设定条件判断是否为指标数值具体包括：将数值指标判别模型输出的判别数值与设定阈值进行比较，如果大于设定阈值，为指标数值，否则不是指标数值
。5.
根据权利要求1所述的数值类指标数据检测与抽取方法，其特征在于，所述指标数据属性抽取模型包括：输入层
、
隐藏层和输出层；其中，所述输入层，用于接收待抽取文本和指标数值，待抽取文本以设定的第一标识符开始，以字为基本单元，指标数值前添加第二标识符；所述隐藏层，使用
Bert
模型，输出为
Bert
模型每个节点对应的向量；所述输出层，每一个词对应节点包含一个全连接神经网络，其激活函数采用
softmax
函数，输出长度为9的向量，向量的数值均在0到1之间，且9个数值的和为

【专利技术属性】
技术研发人员：程佳军，
申请(专利权)人：中国人民解放军军事科学院军事科学信息研究中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人