同义句对生成方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：26172177 阅读：18 留言：0更新日期：2020-10-31 13:48

本申请涉及人工智能，提供一种同义句对生成方法、装置、计算机设备及存储介质，通过获取样本句子以及同义句子；通过同义句对模型中的预训练模型得到样本句子中每一第一字符串对应的样本隐层向量；通过预训练模型得到同义句子中每一第二字符串对应的同义隐层向量；将样本隐层向量和同义隐层向量输入至注意力模型中，得到注意力矩阵；根据注意力矩阵生成样本句子与同义句子之间的同义句对。本申请通过引入注意力模型，在经过预训练模型提取特征向量的基础上，对特征向量之间的对齐程度和对齐关系进行进一步的检测，提高了同义短语生成的准确性和效率。本申请还涉及区块链技术，同义句对模型存储于区块链网络中。

Method, device, computer equipment and storage medium for generating synonym pairs

全部详细技术资料下载

【技术实现步骤摘要】
同义句对生成方法、装置、计算机设备及存储介质
本申请涉及人工智能，尤其涉及一种同义句对生成方法、装置、计算机设备及存储介质。
技术介绍
随着人工智能的发展，在自然语言处理领域中，例如，文本识别，文本检测或者同义短语挖掘等领域技术也相应提高。其中，同义句挖掘在自然语言处理领域中应用很广泛，例如在信息检索领域，实体信息识别领域，知识问答领域等。其中，同义句挖掘包括同义词挖掘、同义短语挖掘和同义短句挖掘。目前，对于同义词挖掘主要是关注挖掘词语级别的同义项，比如“北京”和“帝都”，“下岗”和“失业”。但是在很多应用场景下，往往需要挖掘的是同义短句或者同义短语。而传统的同义词挖掘的工作往往只能借助于统计机器翻译的方法，该类方法仅关注词语的统计信息而没有引入语义信息，会导致同义短语挖掘的准确率降低。
技术实现思路
本申请实施例提供一种同义句对生成方法、装置、计算机设备及存储介质，以解决同义短语挖掘的准确率低的问题。一种同义句对生成方法，包括：获取样本句子以及与所述样本句子对应的同义句子；将所述样本句子以及所述同义句子输入至同义句对模型中，通过所述同义句对模型中的预训练模型得到所述样本句子中每一第一字符串对应的样本隐层向量；同时，通过所述预训练模型得到所述同义句子中每一第二字符串对应的同义隐层向量；将所述样本隐层向量和所述同义隐层向量输入至注意力模型中，得到注意力矩阵；根据所述注意力矩阵生成所述样本句子与所述同义句子之间的同义句对。一种同义句对生成装置，其...

【技术保护点】
1.一种同义句对生成方法，其特征在于，包括：/n获取样本句子以及与所述样本句子对应的同义句子；/n将所述样本句子以及所述同义句子输入至同义句对模型中，通过所述同义句对模型中的预训练模型得到所述样本句子中每一第一字符串对应的样本隐层向量；同时，通过所述预训练模型得到所述同义句子中每一第二字符串对应的同义隐层向量；/n将所述样本隐层向量和所述同义隐层向量输入至注意力模型中，得到注意力矩阵；/n根据所述注意力矩阵生成所述样本句子与所述同义句子之间的同义句对。/n

【技术特征摘要】
1.一种同义句对生成方法，其特征在于，包括：
获取样本句子以及与所述样本句子对应的同义句子；
将所述样本句子以及所述同义句子输入至同义句对模型中，通过所述同义句对模型中的预训练模型得到所述样本句子中每一第一字符串对应的样本隐层向量；同时，通过所述预训练模型得到所述同义句子中每一第二字符串对应的同义隐层向量；
将所述样本隐层向量和所述同义隐层向量输入至注意力模型中，得到注意力矩阵；
根据所述注意力矩阵生成所述样本句子与所述同义句子之间的同义句对。

2.如权利要求1所述同义句对生成方法，其特征在于，所述根据所述注意力矩阵生成所述样本句子与所述同义句子之间的同义句对，包括：
根据预设的选取规则，选取所述注意力矩阵中任一具有大于预设相似阈值的相似值的单元格作为起始单元格；所述注意力矩阵的每一单元格均对应一个相似值；
在所述注意力矩阵中从所述起始单元格开始的至少一个移动方向上，查找除所述起始单元格之外的剩余单元格中所有大于预设相似阈值的相似值对应的剩余单元格；
将位于同一个移动方向上的所述起始单元格以及查找到的剩余单元格记录为该移动方向的同义单元格；
将每一个移动方向上相邻的同义单元格关联记录为同义短语单元格；
根据所述样本句子中与所述同义短语单元格对应的第一字符串以及所述同义句子中与所述同义短语单元格对应的第二字符串，生成同义句对。

3.如权利要求2所述的同义句对生成方法，其特征在于，在所述注意力矩阵中从所述起始单元格开始的至少一个移动方向上，查找除所述起始单元格之外的剩余单元格中所有大于预设相似阈值的相似值对应的剩余单元格之后，还包括：
在检测注意力矩阵中还存在未查找单元格时，根据预设的选取规则，选取所有所述未查找单元格中任一具有大于预设相似阈值的相似值的单元格作为新的起始单元格；
在注意力矩阵中从所述新的起始单元格开始的至少一个移动方向上，查找除所有新的起始单元格之外的剩余未查找单元格中所有大于预设相似阈值的相似值对应的剩余未查找单元格；
将位于同一移动方向上的新的起始单元格以及查找到的剩余未查找单元格记录为该移动方向的剩余同义单元格；
将每一个移动方向上相邻的剩余同义单元格关联记录为剩余同义短语单元格；
根据所述样本句子中与所述剩余同义短语单元格对应的第一字符串以及所述同义句子中与所述剩余同义短语单元格对应的第二字符串，生成剩余同义句对。

4.如权利要求1所述的同义句对生成方法，其特征在于，所述将所述样本句子以及所述同义句子输入至同义句对模型中之前，还包括：
获取同义样本集、反义样本集和初始同义句对模型，所述同义样本集中包含多组相同语义的第一样本句；所述反义样本集中包含多个与所述第一样本句具有反义关系的第二样本句；所述初始同义句对模型中包含初始预训练模型、循环神经网络和初始回归模型；
根据预设的句子选取规则选取第一训练句和第二训练句，并确定第一训练句和第二训练句之间的样本相似度；第一训练句为第一样本句或第二样本句；第二训练句为第一样本句或第二样本句；
将所述第一训练句和第二训练句输入至初始预训练模型中，得到与第一训练句对应的第一特征向量集以及与第二训练句对应的第二特征向量集；
在将所述第一特征向量集和所述第二特征向量集输入至循环神经网络中，...

【专利技术属性】
技术研发人员：赵知纬，高维国，
申请(专利权)人：中国平安人寿保险股份有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人