词推荐模型训练方法及装置制造方法及图纸

技术编号:38003317 阅读:7 留言:0更新日期:2023-06-30 10:17
本发明专利技术公开了一种词推荐模型训练方法及装置,通过建立文本数据集并确定各文本数据的实体词,进而确定对应于各实体词的第一文本向量和第一图向量,根据第一文本向量和第一图向量确定对应于词推荐模型的损失函数,提升了词推荐模型在不同场景下的通用性,并提升了词推荐模型训练的效率。荐模型训练的效率。荐模型训练的效率。

【技术实现步骤摘要】
词推荐模型训练方法及装置


[0001]本专利技术涉及自然语言处理
,尤其涉及一种词推荐模型训练方法及装置。

技术介绍

[0002]现有的词推荐模型包括基于文本相似度的推荐方法、基于词典和上下文信息的推荐方法及基于知识图谱的推荐方法等。但是,不同原理的词推荐模型存在相应的局限性。例如,基于文本相似度的推荐方法模型复杂,基于词典和上下文信息的推荐方法无法对无上下文的孤立词语进行推荐,基于知识图谱的推荐方法应用过程复杂。并且,多种方法结合应用时存在障碍,导致词推荐在不同场景下的通用性不好。因此,提升词推荐模型在不同场景下的通用性尤为重要。

技术实现思路

[0003]本专利技术所要解决的技术问题在于,提供一种词推荐模型训练方法及装置,通过建立文本数据集并确定各文本数据的实体词,进而确定对应于各实体词的第一文本向量和第一图向量,根据第一文本向量和第一图向量确定对应于词推荐模型的损失函数,提升词推荐模型在不同场景下的通用性,并提升词推荐模型训练的效率。
[0004]为了解决上述技术问题,本专利技术第一方面公开了一种词推荐模型训练方法,包括:建立文本数据集,并确定对应于所述文本数据集中各文本数据的实体词;根据所述实体词,确定对应于各所述实体词的第一文本向量;以及,根据所述实体词,确定知识图谱结构;在预训练词向量库中确定对应于各所述实体词的词向量,并根据所述词向量,通过图结构编码器,确定对应于各所述实体词的第一图向量;其中,所述图结构编码器用于指示所述知识图谱结构;所述预训练词向量库用于指示对应于预设文本数据的词向量;根据所述第一文本向量和所述第一图向量,确定所述词推荐模型的损失函数;若所述损失函数收敛,则确定对所述文本处理模型训练完成。
[0005]作为一种可选的实施方式,所述确定对应于所述文本数据集中各文本数据的实体词,包括:通过文本编码网络,对各所述文本数据进行切分处理,获得对应于各所述文本数据的分字序列;根据所述分字序列,通过预设字表获得对应的数字序列;根据所述数字序列,获得对应于所述文本数据集中各文本数据的第二文本向量;获取对应于各所述文本数据的上下文信息;根据所述上下文信息及所述第二文本向量,确定对应于各所述文本数据的实体词。
[0006]作为一种可选的实施方式,所述获取对应于各所述文本数据的上下文信息之后,
所述方法还包括:根据所述上下文信息,确定所述第二文本向量的全局最优序列;根据所述全局最优序列,对所述第二文本向量进行替换,并获得替换后的第二文本向量;所述根据所述上下文信息及所述第二文本向量,确定对应于各所述文本数据的实体词,包括:根据所述替换后的第二文本向量,确定对应于各所述文本数据的实体词。
[0007]作为一种可选的实施方式,所述知识图谱结构包括至少一个三元组关系;所述根据所述实体词,确定知识图谱结构,包括:确定各所述实体词的所属类别;根据各所述实体词的类别,确定各所述实体词之间的实体关系;根据对应于各所述实体词的第一文本向量,以及所述实体关系,确定对应于各所述实体词的三元组关系。
[0008]作为一种可选的实施方式,所述根据所述词向量,通过图结构编码器,确定对应于各所述实体词的第一图向量,包括:确定各所述实体词所对应的节点自身的第一注意力参数,以及各所述实体词所对应的节点与所述知识图谱结构中不超过预设跳数的邻居节点之间的第二注意力参数;根据各所述实体词对应的词向量、所述邻居节点对应的词向量、所述第一注意力参数和所述第二注意力参数,计算获得对应于各所述实体词的图注意力参数;根据所述图注意力参数,通过图结构编码器,确定对应于各所述实体词的第一图向量。
[0009]作为一种可选的实施方式,所述确定对所述文本处理模型训练完成之后,所述方法还包括:输入待识别文本,并判断所述待识别文本的文本长度是否大于预设长度;若判断出所述待识别文本长度不大于预设长度,则通过所述文本编码网络,获得对应于所述待识别文本的第三文本向量;若判断出所述待识别文本长度大于预设长度,则通过所述文本编码网络,获得所述待识别文本中的待识别实体词;以及,根据所述待识别实体词,获得对应于所述待识别文本的第三文本向量;计算获得所述第三文本向量与所述第一图向量的第一相似度,并输出所述第一相似度大于第一预设阈值的所有所述实体词,作为所述待识别文本的推荐词。
[0010]作为一种可选的实施方式,所述计算获得所述第三文本向量与所述第一图向量的第一相似度之后,所述方法还包括:确定对应于所述第三文本向量的第二图向量;计算获得所述第二图向量与所述对应于各所述实体词的第一图向量的第二相似度;计算获得所述第三文本向量与所述对应于各所述实体词的第一文本向量的第三相似度;计算获得所述第二图向量与所述对应于各所述实体词的第一文本向量的第四相
似度;根据所述第一相似度,和/或第二相似度,和/或第三相似度,和/或第四相似度,获得语义相似度,并输出所述语义相似度大于第二预设阈值的所有所述实体词,作为所述待识别文本的推荐词。
[0011]第二方面,本申请提供一种词推荐模型训练装置,所述装置包括:数据集建立模块,用于建立文本数据集,并确定对应于所述文本数据集中各文本数据的实体词;文本向量确定模块,用于根据所述实体词,确定对应于各所述实体词的第一文本向量;知识图谱确定模块,用于根据所述实体词,确定知识图谱结构;图向量确定模块,用于在预训练词向量库中确定对应于各所述实体词的词向量,并根据所述词向量,通过图结构编码器,确定对应于各所述实体词的第一图向量;其中,所述图结构编码器用于指示所述知识图谱结构;所述预训练词向量库用于指示对应于预设文本数据的词向量;损失函数确定模块,用于根据所述第一文本向量和所述第一图向量,确定所述词推荐模型的损失函数;若所述损失函数收敛,则确定对所述文本处理模型训练完成。
[0012]作为一种可选的实施方式,所述数据集建立模块确定对应于所述文本数据集中各文本数据的实体词的具体方式,包括:通过文本编码网络,对各所述文本数据进行切分处理,获得对应于各所述文本数据的分字序列;根据所述分字序列,通过预设字表获得对应的数字序列;根据所述数字序列,获得对应于所述文本数据集中各文本数据的第二文本向量;获取对应于各所述文本数据的上下文信息;根据所述上下文信息及所述第二文本向量,确定对应于各所述文本数据的实体词。
[0013]作为一种可选的实施方式,所述文本向量确定模块还用于在所述数据集建立模块获取对应于各所述文本数据的上下文信息之后,根据所述上下文信息,确定所述第二文本向量的全局最优序列;根据所述全局最优序列,对所述第二文本向量进行替换,并获得替换后的第二文本向量;所述数据集建立模块根据所述上下文信息及所述第二文本向量,确定对应于各所述文本数据的实体词的具体方式,包括:根据所述替换后的第二文本向量,确定对应于各所述文本数据的实体词。
[0014]作为一种可选的实施方式,所述知识图谱结构包括至少一个三元组关系;所述知识图谱确定模块根据所述实体词,确定知识图谱结构的具体方式,包括:确定各所述实体词的所属类别;根本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种词推荐模型训练方法,其特征在于,所述方法包括:建立文本数据集,并确定对应于所述文本数据集中各文本数据的实体词;根据所述实体词,确定对应于各所述实体词的第一文本向量;以及,根据所述实体词,确定知识图谱结构;在预训练词向量库中确定对应于各所述实体词的词向量,并根据所述词向量,通过图结构编码器,确定对应于各所述实体词的第一图向量;其中,所述图结构编码器用于指示所述知识图谱结构;所述预训练词向量库用于指示对应于预设文本数据的词向量;根据所述第一文本向量和所述第一图向量,确定所述词推荐模型的损失函数;若所述损失函数收敛,则确定对所述词推荐模型训练完成。2.根据权利要求1所述的方法,其特征在于,所述确定对应于所述文本数据集中各文本数据的实体词,包括:通过文本编码网络,对各所述文本数据进行切分处理,获得对应于各所述文本数据的分字序列;根据所述分字序列,通过预设字表获得对应的数字序列;根据所述数字序列,获得对应于所述文本数据集中各文本数据的第二文本向量;获取对应于各所述文本数据的上下文信息;根据所述上下文信息及所述第二文本向量,确定对应于各所述文本数据的实体词。3.根据权利要求2所述的方法,其特征在于,所述获取对应于各所述文本数据的上下文信息之后,所述方法还包括:根据所述上下文信息,确定所述第二文本向量的全局最优序列;根据所述全局最优序列,对所述第二文本向量进行替换,并获得替换后的第二文本向量;所述根据所述上下文信息及所述第二文本向量,确定对应于各所述文本数据的实体词,包括:根据所述替换后的第二文本向量,确定对应于各所述文本数据的实体词。4.根据权利要求1所述的方法,其特征在于,所述知识图谱结构包括至少一个三元组关系;所述根据所述实体词,确定知识图谱结构,包括:确定各所述实体词的所属类别;根据各所述实体词的类别,确定各所述实体词之间的实体关系;根据对应于各所述实体词的第一文本向量,以及所述实体关系,确定对应于各所述实体词的三元组关系。5.根据权利要求1所述的方法,其特征在于,所述根据所述词向量,通过图结构编码器,确定对应于各所述实体词的第一图向量,包括:确定各所述实体词所对应的节点自身的第一注意力参数,以及各所述实体词所对应的节点与所述知识图谱结构中不超过预设跳数的邻居节点之间的第二注意力参数;根据各所述实体词对应的词向量、所述邻居节点对应的词向量、所述第一注意力参数和所述第二注意力参数,计算获得对应于各所述实体词的图注意力参数;根据所述图注意力参数,通过图结构编码器,确定对应于各所述实体词的第一图向量。
6.根据权利要求1

5任一...

【专利技术属性】
技术研发人员:陈莹莹黄于晏
申请(专利权)人:有米科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1