【技术实现步骤摘要】
一种基于神经语义解析的金融文本公式抽取方法及装置
本专利技术涉及自然语言处理
,尤其涉及的是一种基于神经语义解析的金融文本公式抽取方法及装置。
技术介绍
随着科学技术的迅速发展,人工智能等领域的创新和发展也越来越受到关注。人工智能是研究、开发用于模拟、延伸和扩展人智能的理论、方法、技术及应用系统的一门新技术科学。目前,人工智能技术已经在医疗、金融、教育等领域得以运用。语义解析作为人工智能的一个领域,其作用也越来越重要。语义解析是将自然语言句子映射为其语义表示。现有技术中,在语义解析领域,大部分的工作集中在将自然语言转换为SQL、LambdaCalculus、编程语言这些语义表示。现有技术的问题在于,没有考虑到将自然语言转换为公式的需求,缺乏将自然语言描述文本转换为公式的方案,不利于进行自动化公式抽取,影响公式抽取的效率。因此,现有技术还有待改进和发展。
技术实现思路
本专利技术的主要目的在于提供一种基于神经语义解析的金融文本公式抽取方法及装置,旨在解决现有技术中没有考虑到将自然语言转换为公式的需求,缺乏将自然语言描述文本转换为公式的方案,不利于进行公式抽取的问题,影响公式抽取的效率。为了实现上述目的,本专利技术第一方面提供一种基于神经语义解析的金融文本公式抽取方法,其中,上述方法包括如下步骤:定义抽象语法:定义金融公式的抽象语法描述,用于描述上述金融公式所对应的抽象语法;输入待抽取文本:上述待抽取文本为蕴含上述金融公式的自然语言描述文本;金融实 ...
【技术保护点】
1.一种基于神经语义解析的金融文本公式抽取方法,其特征在于,所述方法包括如下步骤:/n定义抽象语法:定义金融公式的抽象语法描述,用于描述所述金融公式所对应的抽象语法;/n输入待抽取文本:所述待抽取文本为蕴含所述金融公式的自然语言描述文本;/n金融实体识别:对所述待抽取文本进行命名实体识别,识别出所述待抽取文本中包含的所有用于组成所述金融公式的金融实体,并标注所述金融实体在所述金融公式中的成分类别;/n融合类别向量的编码器特征提取:对所述待抽取文本中的所述金融实体和其它词语构建语义表示向量,对所述金融实体分别构建表示其成分类别的类别表示向量,对所有其它词语按照同一个类别构建类别表示向量,将所述待抽取文本的词序列中每个所述金融实体及其它词语的所述语义表示向量与所述类别表示向量进行拼接后,按顺序输入到融合类别向量的编码器中,获取所述编码器输出的与所述待抽取文本对应的隐藏状态序列;/n基于语法树的解码器进行解码:定义所述解码器的输出为所述金融公式对应的抽象语法树的一组构造动作,所述构造动作用于重建所述抽象语法树,在解码过程中的每一个时间步,以所述编码器的所有隐藏状态序列作为键值对,计算所述解码 ...
【技术特征摘要】
1.一种基于神经语义解析的金融文本公式抽取方法,其特征在于,所述方法包括如下步骤:
定义抽象语法:定义金融公式的抽象语法描述,用于描述所述金融公式所对应的抽象语法;
输入待抽取文本:所述待抽取文本为蕴含所述金融公式的自然语言描述文本;
金融实体识别:对所述待抽取文本进行命名实体识别,识别出所述待抽取文本中包含的所有用于组成所述金融公式的金融实体,并标注所述金融实体在所述金融公式中的成分类别;
融合类别向量的编码器特征提取:对所述待抽取文本中的所述金融实体和其它词语构建语义表示向量,对所述金融实体分别构建表示其成分类别的类别表示向量,对所有其它词语按照同一个类别构建类别表示向量,将所述待抽取文本的词序列中每个所述金融实体及其它词语的所述语义表示向量与所述类别表示向量进行拼接后,按顺序输入到融合类别向量的编码器中,获取所述编码器输出的与所述待抽取文本对应的隐藏状态序列;
基于语法树的解码器进行解码:定义所述解码器的输出为所述金融公式对应的抽象语法树的一组构造动作,所述构造动作用于重建所述抽象语法树,在解码过程中的每一个时间步,以所述编码器的所有隐藏状态序列作为键值对,计算所述解码器当前时间步的隐藏状态对应的注意力向量,基于所述注意力向量计算所有可能的抽象语法树的构造动作的概率,将所有可能的构造动作中符合语法限制规则且对应的概率最大者作为所述当前时间步的解码器的输出;
金融公式语法树的构造:基于构造动作列表构造所述金融公式对应的抽象语法树,其中,所述构造动作列表包括所述解码器输出的所有构造动作;
形式化金融公式的生成:对所述金融公式的抽象语法树进行深度优先搜索,将每个节点和边进行拼接,获得所述形式化金融公式。
2.根据权利要求1所述的基于神经语义解析的金融文本公式抽取方法,其特征在于,所述定义抽象语法包括如下步骤:
分析业务需求:根据实际业务场景,获取目标公式的类型;
定义变量类型:根据所述目标公式的类型定义对应的变量类型,所述变量类型是所述金融实体的类型;
定义产生式:定义抽象语法的产生式,以定义构造动作的数量和类型。
3.根据权利要求1所述的基于神经语义解析的金融文本公式抽取方法,其特征在于,所述金融实体识别包括如下步骤:
微调获取命名实体识别模型:对包含金融公式的自然语言描述文本中的命名实体进行标注,获取由多条文本组成的初始数据集并将所述初始数据集划分为训练集、验证集和测试集,获取预训练模型,在所述训练集上结合所述验证集和所述测试集对所述预训练模型进行微调,将微调后的所述预训练模型作为命名实体识别模型;
金融实体信息识别:使用所述命名实体识别模型对所述待抽取文本进行命名实体识别,得到所述金融实体的位置和类别。
4.根据权利要求3所述的基于神经语义解析的金融文本公式抽取方法,其特征在于,所述融合类别向量的编码器特征提取包括如下步骤:
语义表示向量的生成:将所述命名实体识别模型所识别出的每一个金融实体分别作为一个词,除所述金融实体外的其它所有字符,每个字符均当作一个词,按词在所述待抽取文本中的顺序对词进行排列得到一组词序列,将所述词序列进行向量化,得到语义表示向量;
类别表示向量的生成:将所述命名识别模型识别出的每一个金融实体的类别分别作为对应的词的类别,除所述金融实体外的其它词的类别均标记为None,按所述词序列的顺序排列所述类别,得到一组类别序列,将所述类别序列进行向量化,得到类别表示向量;
语义表示向量与类别表示向量的拼接:将各所述金融实体及其它字符的语义表示向量和类别表示向量进行拼接,得到目标输入向量;
编码器隐藏状态的计算:将所述目标输入向量输入到编码器中,得到与所述词序列相对应的隐藏状态序列。
5.根据权利要求1所述的基于神经语义解析的金融文本公式抽取方法,其特征在于,所述基于语法树的解码器进行解码包括如下步骤:
解码器隐藏状态的计算:将所述编码器最后的隐藏状态作为解码器的初始隐藏状态,计算解码器的隐藏状态;
注意力向量的计算:以所述编码器的所有隐藏状态作为键值对,根据注意力机制计算获得注意力向量;
抽象语法树构造动作的概率计算与比较:所述抽象语法树的构造动作包括应用产生式规则和生成词语,在解码过程中,分别根据所述注意力向量计算两种所述构造动作的概率并比较概率大小,将所述语法限制规则下的概率最大的合法构造动作作为当前的构造动作。
6.根据权利要求1所述的基于神经语义解析的金融文本公式抽取方法,其特征在于,所述金融公式语法树的构造包括如下步骤:
初始化金融公式语法树根节点:根据所述构造动作列表中的...
【专利技术属性】
技术研发人员:李东方,金能征,黄佳洋,陈清财,丘宇彬,陈枫,宋自文,张亚军,朱易文,徐维黛,
申请(专利权)人:深圳市图灵机器人有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。