一种基于神经语义解析的金融文本公式抽取方法及装置制造方法及图纸

技术编号:29673370 阅读:12 留言:0更新日期:2021-08-13 21:55
本发明专利技术公开了一种基于神经语义解析的金融文本公式抽取方法及装置,其中,上述基于神经语义解析的金融文本公式抽取方法包括:定义抽象语法,输入蕴含金融公式的自然语言描述文本,即待抽取文本;对上述待抽取文本进行金融实体识别,并基于融合类别向量的编码器进行特征提取,基于语法树的解码器进行解码,获取各个时间步解码器输出的构造动作;基于构造动作列表构造上述金融公式对应的抽象语法树,并对上述抽象语法树进行深度优先搜索,获得形式化金融公式。与现有技术中的方案相比,本发明专利技术方案可以从自然语言描述文本中抽取金融公式,提高公式抽取效率,并使得金融领域中公式抽取和计算过程实现自动化,节省人力成本,提高办公效率。

【技术实现步骤摘要】
一种基于神经语义解析的金融文本公式抽取方法及装置
本专利技术涉及自然语言处理
,尤其涉及的是一种基于神经语义解析的金融文本公式抽取方法及装置。
技术介绍
随着科学技术的迅速发展,人工智能等领域的创新和发展也越来越受到关注。人工智能是研究、开发用于模拟、延伸和扩展人智能的理论、方法、技术及应用系统的一门新技术科学。目前,人工智能技术已经在医疗、金融、教育等领域得以运用。语义解析作为人工智能的一个领域,其作用也越来越重要。语义解析是将自然语言句子映射为其语义表示。现有技术中,在语义解析领域,大部分的工作集中在将自然语言转换为SQL、LambdaCalculus、编程语言这些语义表示。现有技术的问题在于,没有考虑到将自然语言转换为公式的需求,缺乏将自然语言描述文本转换为公式的方案,不利于进行自动化公式抽取,影响公式抽取的效率。因此,现有技术还有待改进和发展。
技术实现思路
本专利技术的主要目的在于提供一种基于神经语义解析的金融文本公式抽取方法及装置,旨在解决现有技术中没有考虑到将自然语言转换为公式的需求,缺乏将自然语言描述文本转换为公式的方案,不利于进行公式抽取的问题,影响公式抽取的效率。为了实现上述目的,本专利技术第一方面提供一种基于神经语义解析的金融文本公式抽取方法,其中,上述方法包括如下步骤:定义抽象语法:定义金融公式的抽象语法描述,用于描述上述金融公式所对应的抽象语法;输入待抽取文本:上述待抽取文本为蕴含上述金融公式的自然语言描述文本;金融实体识别:对上述待抽取文本进行命名实体识别,识别出上述待抽取文本中包含的所有用于组成上述金融公式的金融实体,并标注上述金融实体在上述金融公式中的成分类别;融合类别向量的编码器特征提取:对上述待抽取文本中的上述金融实体和其它词语构建语义表示向量,对上述金融实体分别构建表示其成分类别的类别表示向量,对所有其它词语按照同一个类别构建类别表示向量,将上述待抽取文本的词序列中每个上述金融实体及其它词语的上述语义表示向量与上述类别表示向量进行拼接后,按顺序输入到融合类别向量的编码器中,获取上述编码器输出的与上述待抽取文本对应的隐藏状态序列;基于语法树的解码器进行解码:定义上述解码器的输出为上述金融公式对应的抽象语法树的一组构造动作,上述构造动作用于重建上述抽象语法树,在解码过程中的每一个时间步,以上述编码器的所有隐藏状态序列作为键值对,计算上述解码器当前时间步的隐藏状态对应的注意力向量,基于上述注意力向量计算所有可能的抽象语法树的构造动作的概率,将所有可能的构造动作中符合语法限制规则且对应的概率最大者作为上述当前时间步的解码器的输出;金融公式语法树的构造:基于构造动作列表构造上述金融公式对应的抽象语法树,其中,上述构造动作列表包括上述解码器输出的所有构造动作;形式化金融公式的生成:对上述金融公式的抽象语法树进行深度优先搜索,将每个节点和边进行拼接,获得上述形式化金融公式。可选的,上述定义抽象语法包括如下步骤:分析业务需求:根据实际业务场景,获取目标公式的类型;定义变量类型:根据上述目标公式的类型定义对应的变量类型,上述变量类型是上述金融实体的类型;定义产生式:定义抽象语法的产生式,以定义构造动作的数量和类型。可选的,上述金融实体识别包括如下步骤:微调获取命名实体识别模型:对包含金融公式的自然语言描述文本中的命名实体进行标注,获取由多条文本组成的初始数据集并将上述初始数据集划分为训练集、验证集和测试集,获取预训练模型,在上述训练集上结合上述验证集和上述测试集对上述预训练模型进行微调,将微调后的上述预训练模型作为命名实体识别模型;金融实体信息识别:使用上述命名实体识别模型对上述待抽取文本进行命名实体识别,得到上述金融实体的位置和类别。可选的,上述融合类别向量的编码器特征提取包括如下步骤:语义表示向量的生成:将上述命名实体识别模型所识别出的每一个金融实体分别作为一个词,除上述金融实体外的其它所有字符,每个字符均当作一个词,按词在上述待抽取文本中的顺序对词进行排列得到一组词序列,将上述词序列进行向量化,得到语义表示向量;类别表示向量的生成:将上述命名识别模型识别出的每一个金融实体的类别分别作为对应的词的类别,除上述金融实体外的其它词的类别均标记为None,按上述词序列的顺序排列上述类别,得到一组类别序列,将上述类别序列进行向量化,得到类别表示向量;语义表示向量与类别表示向量的拼接:将各上述金融实体及其它字符的语义表示向量和类别表示向量进行拼接,得到目标输入向量;编码器隐藏状态的计算:将上述目标输入向量输入到编码器中,得到与上述词序列相对应的隐藏状态序列。可选的,上述基于语法树的解码器进行解码包括如下步骤:解码器隐藏状态的计算:将上述编码器最后的隐藏状态作为解码器的初始隐藏状态,计算解码器的隐藏状态;注意力向量的计算:以上述编码器的所有隐藏状态作为键值对,根据注意力机制计算获得注意力向量;抽象语法树构造动作的概率计算与比较:上述抽象语法树的构造动作包括应用产生式规则和生成词语,在解码过程中,分别根据上述注意力向量计算两种上述构造动作的概率并比较概率大小,将上述语法限制规则下的概率最大的合法构造动作作为当前的构造动作。可选的,上述金融公式语法树的构造包括如下步骤:初始化金融公式语法树根节点:根据上述构造动作列表中的第一个构造动作,初始化上述金融公式的抽象语法树的根节点;扩展金融公式语法树:根据后续的两种构造动作,为上述抽象语法树的前沿节点添加相应类型的子节点,直至生成完整的语法树,其中,上述两种构造动作包括应用产生式规则和生成词语。可选的,上述形式化金融公式的生成包括如下步骤:初始化一个形式化公式字符串:将初始的形式化公式字符串设置为空字符串;判断当前公式语法树节点的类型:判断上述抽象语法树的当前节点对应运算符还是金融实体;运算符对应语法树节点的处理:如果上述抽象语法树的当前节点对应一个运算符,则在上述初始的形式化公式字符串后附加一个左括号,作为当前形式化公式字符串,然后将上述当前节点的子节点以递归的方式进行处理,递归完成后将上述子节点对应的形式化公式子字符串附加到上述当前形式化公式字符串后,最后附加一个右括号,并作为返回结果;金融实体对应语法树节点的处理:如果上述抽象语法树的当前节点对应一个金融实体,则将上述金融实体的名称作为返回结果;输出形式化金融公式:基于上述返回结果输出形式化金融公式。可选的,上述语义表示向量的生成包括如下步骤:初始化词语列表:将词语列表初始化为空;遍历金融实体列表并填充词语列表:上述金融实体列表包括上述命名实体识别模型识别出的所有金融实体,对上述金融实体列表中的每一个金融实体进行遍历,对于遍历过程中的每一个当前金融实体,获取上述当前金融实体在上述待抽取文本中的位置,将上述当前金融实体之前的其它文本本文档来自技高网...

【技术保护点】
1.一种基于神经语义解析的金融文本公式抽取方法,其特征在于,所述方法包括如下步骤:/n定义抽象语法:定义金融公式的抽象语法描述,用于描述所述金融公式所对应的抽象语法;/n输入待抽取文本:所述待抽取文本为蕴含所述金融公式的自然语言描述文本;/n金融实体识别:对所述待抽取文本进行命名实体识别,识别出所述待抽取文本中包含的所有用于组成所述金融公式的金融实体,并标注所述金融实体在所述金融公式中的成分类别;/n融合类别向量的编码器特征提取:对所述待抽取文本中的所述金融实体和其它词语构建语义表示向量,对所述金融实体分别构建表示其成分类别的类别表示向量,对所有其它词语按照同一个类别构建类别表示向量,将所述待抽取文本的词序列中每个所述金融实体及其它词语的所述语义表示向量与所述类别表示向量进行拼接后,按顺序输入到融合类别向量的编码器中,获取所述编码器输出的与所述待抽取文本对应的隐藏状态序列;/n基于语法树的解码器进行解码:定义所述解码器的输出为所述金融公式对应的抽象语法树的一组构造动作,所述构造动作用于重建所述抽象语法树,在解码过程中的每一个时间步,以所述编码器的所有隐藏状态序列作为键值对,计算所述解码器当前时间步的隐藏状态对应的注意力向量,基于所述注意力向量计算所有可能的抽象语法树的构造动作的概率,将所有可能的构造动作中符合语法限制规则且对应的概率最大者作为所述当前时间步的解码器的输出;/n金融公式语法树的构造:基于构造动作列表构造所述金融公式对应的抽象语法树,其中,所述构造动作列表包括所述解码器输出的所有构造动作;/n形式化金融公式的生成:对所述金融公式的抽象语法树进行深度优先搜索,将每个节点和边进行拼接,获得所述形式化金融公式。/n...

【技术特征摘要】
1.一种基于神经语义解析的金融文本公式抽取方法,其特征在于,所述方法包括如下步骤:
定义抽象语法:定义金融公式的抽象语法描述,用于描述所述金融公式所对应的抽象语法;
输入待抽取文本:所述待抽取文本为蕴含所述金融公式的自然语言描述文本;
金融实体识别:对所述待抽取文本进行命名实体识别,识别出所述待抽取文本中包含的所有用于组成所述金融公式的金融实体,并标注所述金融实体在所述金融公式中的成分类别;
融合类别向量的编码器特征提取:对所述待抽取文本中的所述金融实体和其它词语构建语义表示向量,对所述金融实体分别构建表示其成分类别的类别表示向量,对所有其它词语按照同一个类别构建类别表示向量,将所述待抽取文本的词序列中每个所述金融实体及其它词语的所述语义表示向量与所述类别表示向量进行拼接后,按顺序输入到融合类别向量的编码器中,获取所述编码器输出的与所述待抽取文本对应的隐藏状态序列;
基于语法树的解码器进行解码:定义所述解码器的输出为所述金融公式对应的抽象语法树的一组构造动作,所述构造动作用于重建所述抽象语法树,在解码过程中的每一个时间步,以所述编码器的所有隐藏状态序列作为键值对,计算所述解码器当前时间步的隐藏状态对应的注意力向量,基于所述注意力向量计算所有可能的抽象语法树的构造动作的概率,将所有可能的构造动作中符合语法限制规则且对应的概率最大者作为所述当前时间步的解码器的输出;
金融公式语法树的构造:基于构造动作列表构造所述金融公式对应的抽象语法树,其中,所述构造动作列表包括所述解码器输出的所有构造动作;
形式化金融公式的生成:对所述金融公式的抽象语法树进行深度优先搜索,将每个节点和边进行拼接,获得所述形式化金融公式。


2.根据权利要求1所述的基于神经语义解析的金融文本公式抽取方法,其特征在于,所述定义抽象语法包括如下步骤:
分析业务需求:根据实际业务场景,获取目标公式的类型;
定义变量类型:根据所述目标公式的类型定义对应的变量类型,所述变量类型是所述金融实体的类型;
定义产生式:定义抽象语法的产生式,以定义构造动作的数量和类型。


3.根据权利要求1所述的基于神经语义解析的金融文本公式抽取方法,其特征在于,所述金融实体识别包括如下步骤:
微调获取命名实体识别模型:对包含金融公式的自然语言描述文本中的命名实体进行标注,获取由多条文本组成的初始数据集并将所述初始数据集划分为训练集、验证集和测试集,获取预训练模型,在所述训练集上结合所述验证集和所述测试集对所述预训练模型进行微调,将微调后的所述预训练模型作为命名实体识别模型;
金融实体信息识别:使用所述命名实体识别模型对所述待抽取文本进行命名实体识别,得到所述金融实体的位置和类别。


4.根据权利要求3所述的基于神经语义解析的金融文本公式抽取方法,其特征在于,所述融合类别向量的编码器特征提取包括如下步骤:
语义表示向量的生成:将所述命名实体识别模型所识别出的每一个金融实体分别作为一个词,除所述金融实体外的其它所有字符,每个字符均当作一个词,按词在所述待抽取文本中的顺序对词进行排列得到一组词序列,将所述词序列进行向量化,得到语义表示向量;
类别表示向量的生成:将所述命名识别模型识别出的每一个金融实体的类别分别作为对应的词的类别,除所述金融实体外的其它词的类别均标记为None,按所述词序列的顺序排列所述类别,得到一组类别序列,将所述类别序列进行向量化,得到类别表示向量;
语义表示向量与类别表示向量的拼接:将各所述金融实体及其它字符的语义表示向量和类别表示向量进行拼接,得到目标输入向量;
编码器隐藏状态的计算:将所述目标输入向量输入到编码器中,得到与所述词序列相对应的隐藏状态序列。


5.根据权利要求1所述的基于神经语义解析的金融文本公式抽取方法,其特征在于,所述基于语法树的解码器进行解码包括如下步骤:
解码器隐藏状态的计算:将所述编码器最后的隐藏状态作为解码器的初始隐藏状态,计算解码器的隐藏状态;
注意力向量的计算:以所述编码器的所有隐藏状态作为键值对,根据注意力机制计算获得注意力向量;
抽象语法树构造动作的概率计算与比较:所述抽象语法树的构造动作包括应用产生式规则和生成词语,在解码过程中,分别根据所述注意力向量计算两种所述构造动作的概率并比较概率大小,将所述语法限制规则下的概率最大的合法构造动作作为当前的构造动作。


6.根据权利要求1所述的基于神经语义解析的金融文本公式抽取方法,其特征在于,所述金融公式语法树的构造包括如下步骤:
初始化金融公式语法树根节点:根据所述构造动作列表中的...

【专利技术属性】
技术研发人员:李东方金能征黄佳洋陈清财丘宇彬陈枫宋自文张亚军朱易文徐维黛
申请(专利权)人:深圳市图灵机器人有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1