同义句对生成方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:26172177 阅读:18 留言:0更新日期:2020-10-31 13:48
本申请涉及人工智能,提供一种同义句对生成方法、装置、计算机设备及存储介质,通过获取样本句子以及同义句子;通过同义句对模型中的预训练模型得到样本句子中每一第一字符串对应的样本隐层向量;通过预训练模型得到同义句子中每一第二字符串对应的同义隐层向量;将样本隐层向量和同义隐层向量输入至注意力模型中,得到注意力矩阵;根据注意力矩阵生成样本句子与同义句子之间的同义句对。本申请通过引入注意力模型,在经过预训练模型提取特征向量的基础上,对特征向量之间的对齐程度和对齐关系进行进一步的检测,提高了同义短语生成的准确性和效率。本申请还涉及区块链技术,同义句对模型存储于区块链网络中。

Method, device, computer equipment and storage medium for generating synonym pairs

【技术实现步骤摘要】
同义句对生成方法、装置、计算机设备及存储介质
本申请涉及人工智能,尤其涉及一种同义句对生成方法、装置、计算机设备及存储介质。
技术介绍
随着人工智能的发展,在自然语言处理领域中,例如,文本识别,文本检测或者同义短语挖掘等领域技术也相应提高。其中,同义句挖掘在自然语言处理领域中应用很广泛,例如在信息检索领域,实体信息识别领域,知识问答领域等。其中,同义句挖掘包括同义词挖掘、同义短语挖掘和同义短句挖掘。目前,对于同义词挖掘主要是关注挖掘词语级别的同义项,比如“北京”和“帝都”,“下岗”和“失业”。但是在很多应用场景下,往往需要挖掘的是同义短句或者同义短语。而传统的同义词挖掘的工作往往只能借助于统计机器翻译的方法,该类方法仅关注词语的统计信息而没有引入语义信息,会导致同义短语挖掘的准确率降低。
技术实现思路
本申请实施例提供一种同义句对生成方法、装置、计算机设备及存储介质,以解决同义短语挖掘的准确率低的问题。一种同义句对生成方法,包括:获取样本句子以及与所述样本句子对应的同义句子;将所述样本句子以及所述同义句子输入至同义句对模型中,通过所述同义句对模型中的预训练模型得到所述样本句子中每一第一字符串对应的样本隐层向量;同时,通过所述预训练模型得到所述同义句子中每一第二字符串对应的同义隐层向量;将所述样本隐层向量和所述同义隐层向量输入至注意力模型中,得到注意力矩阵;根据所述注意力矩阵生成所述样本句子与所述同义句子之间的同义句对。一种同义句对生成装置,其特征在于,包括:句子获取模块,用于获取样本句子以及与所述样本句子对应的同义句子;隐层向量生成模块,用于将所述样本句子以及所述同义句子输入至同义句对模型中,通过所述同义句对模型中的预训练模型得到所述样本句子中每一第一字符串对应的样本隐层向量;同时,通过所述预训练模型得到所述同义句子中每一第二字符串对应的同义隐层向量;注意力矩阵生成模块,用于将所述样本隐层向量和所述同义隐层向量输入至注意力模型中,得到注意力矩阵;同义句对生成模块,用于根据所述注意力矩阵生成所述样本句子与所述同义句子之间的同义句对。一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述同义句对生成方法。一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述同义句对生成方法。上述同义句对生成方法、装置、计算机设备及存储介质,通过获取样本句子以及与所述样本句子对应的同义句子;将所述样本句子以及所述同义句子输入至同义句对模型中,通过所述同义句对模型中的预训练模型得到所述样本句子中每一第一字符串对应的样本隐层向量;同时,通过所述预训练模型得到所述同义句子中每一第二字符串对应的同义隐层向量;将所述样本隐层向量和所述同义隐层向量输入至注意力模型中,得到注意力矩阵;根据所述注意力矩阵生成所述样本句子与所述同义句子之间的同义句对。本申请通过引入注意力模型,在经过预训练模型提取特征向量的基础上,对特征向量之间的对齐程度和对齐关系进行进一步的检测,提高了同义短语生成的准确性和效率并且本申请不仅限于提取单个词的同义关系,还能够提取具有同义关系的短语或者是文本片段。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本申请一实施例中同义句对生成方法的一应用环境示意图;图2是本申请一实施例中同义句对生成方法的一流程图;图3是本申请一实施例中同义句对生成方法中步骤S14的一流程图;图4是本申请一实施例中同义句对生成方法中步骤S14的另一流程图;图5是本申请一实施例中同义句对生成装置的一原理框图;图6是本申请一实施例中同义句对生成装置中同义句对生成模块的一原理框图;图7是本申请一实施例中同义句对生成装置中同义句对生成模块的另一原理框图;图8是本申请一实施例中计算机设备的一示意图。具体实施方式本申请实施例提供一同义句对生成方法,该同义句对生成方法可应用如图1所示的应用环境中。具体地,该同义句对生成方法应用在同义句对生成系统中,该同义句对生成系统包括如图1所示的客户端和服务器,客户端与服务器通过网络进行通信,用于解决图像描述文本准确率低的问题。其中,客户端又称为用户端,是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。在一实施例中,如图2所示,提供一种同义句对生成方法,以该方法应用在图1中的服务器为例进行说明,可包括如下步骤:S11:获取样本句子以及与样本句子对应的同义句子。其中,样本句子为任意句子,该样本句子包含至少一个字词对应的字符串。同义句子为与样本句子具有相同含义的句子,该同义句子也包含至少一个字词对应的字符串。优选地,本实施例中,为了突出生成的同义句对,因此样本句子与同义句子为包含至少两个字词对应的字符串的句子。其中,样本句子和同义句子的字符串长度可以相同,也可以不同。S12:将样本句子以及同义句子输入至同义句对模型中,通过同义句对模型中的预训练模型得到样本句子中每一第一字符串对应的样本隐层向量;同时,通过预训练模型得到同义句子中每一第二字符串对应的同义隐层向量。其中,同义句对模型用于生成两个句子的同义句对。预训练模型为同义句对模型中,用于对句子进行特征提取的模型,该预训练模型可以为BRET、ALBERT或者ELMO等文字识别模型。第一字符串为样本句子中字词对应的字符串。样本隐层向量的实质为样本句子中每一第一字符串对应的特征向量。第二字符串为同义句子中字词对应的字符串。同义隐层向量的实质为同义句子中每一第二字符串对应的特征向量。具体地,在获取到样本句子以及同义句子之后,将样本句子以及同义句子输入至同义句对模型中,通过同义句对模型中的预训练模型,对样本句子进行特征提取,得到样本句子中每一字符串对应的特征向量,也即样本隐层向量;同时,通过同义句对模型中的预训练模型,对同义句子进行特征提取,得到同义句子中每一字符串对应的特征向量,也即同义隐层向量。S13:将样本隐层向量和同义隐层向量输入至注意力模型中,得到注意力矩阵。其中,注意力模型用于生成每一样本隐层向量和每一同义隐层向量的对应关系。注意力矩阵记录每一样本隐层向量和每一同义隐层向量的对齐程度与对齐关系。具体地,在得到样本隐层向量和同义隐层向量之后,将样本隐层向量和同义隐层向量输入至注意力模型中,确定每一样本隐层向量与每一同义隐层向量之间的对齐程度和本文档来自技高网...

【技术保护点】
1.一种同义句对生成方法,其特征在于,包括:/n获取样本句子以及与所述样本句子对应的同义句子;/n将所述样本句子以及所述同义句子输入至同义句对模型中,通过所述同义句对模型中的预训练模型得到所述样本句子中每一第一字符串对应的样本隐层向量;同时,通过所述预训练模型得到所述同义句子中每一第二字符串对应的同义隐层向量;/n将所述样本隐层向量和所述同义隐层向量输入至注意力模型中,得到注意力矩阵;/n根据所述注意力矩阵生成所述样本句子与所述同义句子之间的同义句对。/n

【技术特征摘要】
1.一种同义句对生成方法,其特征在于,包括:
获取样本句子以及与所述样本句子对应的同义句子;
将所述样本句子以及所述同义句子输入至同义句对模型中,通过所述同义句对模型中的预训练模型得到所述样本句子中每一第一字符串对应的样本隐层向量;同时,通过所述预训练模型得到所述同义句子中每一第二字符串对应的同义隐层向量;
将所述样本隐层向量和所述同义隐层向量输入至注意力模型中,得到注意力矩阵;
根据所述注意力矩阵生成所述样本句子与所述同义句子之间的同义句对。


2.如权利要求1所述同义句对生成方法,其特征在于,所述根据所述注意力矩阵生成所述样本句子与所述同义句子之间的同义句对,包括:
根据预设的选取规则,选取所述注意力矩阵中任一具有大于预设相似阈值的相似值的单元格作为起始单元格;所述注意力矩阵的每一单元格均对应一个相似值;
在所述注意力矩阵中从所述起始单元格开始的至少一个移动方向上,查找除所述起始单元格之外的剩余单元格中所有大于预设相似阈值的相似值对应的剩余单元格;
将位于同一个移动方向上的所述起始单元格以及查找到的剩余单元格记录为该移动方向的同义单元格;
将每一个移动方向上相邻的同义单元格关联记录为同义短语单元格;
根据所述样本句子中与所述同义短语单元格对应的第一字符串以及所述同义句子中与所述同义短语单元格对应的第二字符串,生成同义句对。


3.如权利要求2所述的同义句对生成方法,其特征在于,在所述注意力矩阵中从所述起始单元格开始的至少一个移动方向上,查找除所述起始单元格之外的剩余单元格中所有大于预设相似阈值的相似值对应的剩余单元格之后,还包括:
在检测注意力矩阵中还存在未查找单元格时,根据预设的选取规则,选取所有所述未查找单元格中任一具有大于预设相似阈值的相似值的单元格作为新的起始单元格;
在注意力矩阵中从所述新的起始单元格开始的至少一个移动方向上,查找除所有新的起始单元格之外的剩余未查找单元格中所有大于预设相似阈值的相似值对应的剩余未查找单元格;
将位于同一移动方向上的新的起始单元格以及查找到的剩余未查找单元格记录为该移动方向的剩余同义单元格;
将每一个移动方向上相邻的剩余同义单元格关联记录为剩余同义短语单元格;
根据所述样本句子中与所述剩余同义短语单元格对应的第一字符串以及所述同义句子中与所述剩余同义短语单元格对应的第二字符串,生成剩余同义句对。


4.如权利要求1所述的同义句对生成方法,其特征在于,所述将所述样本句子以及所述同义句子输入至同义句对模型中之前,还包括:
获取同义样本集、反义样本集和初始同义句对模型,所述同义样本集中包含多组相同语义的第一样本句;所述反义样本集中包含多个与所述第一样本句具有反义关系的第二样本句;所述初始同义句对模型中包含初始预训练模型、循环神经网络和初始回归模型;
根据预设的句子选取规则选取第一训练句和第二训练句,并确定第一训练句和第二训练句之间的样本相似度;第一训练句为第一样本句或第二样本句;第二训练句为第一样本句或第二样本句;
将所述第一训练句和第二训练句输入至初始预训练模型中,得到与第一训练句对应的第一特征向量集以及与第二训练句对应的第二特征向量集;
在将所述第一特征向量集和所述第二特征向量集输入至循环神经网络中,...

【专利技术属性】
技术研发人员:赵知纬高维国
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1