词权重生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号:35306915 阅读:23 留言:0更新日期:2022-10-22 12:57
本发明专利技术涉及人工智能技术,揭露了一种词权重生成方法,包括:对获取的语句样本执行分词操作,并对执行分词后的分词语句进行向量转换,得到样本语句向量;对分词语句进行掩蔽操作,得到掩蔽语句集并构建掩蔽词界数组;整合样本语句向量以及掩蔽词界数组,并利用预构建的词权重生成模型计算样本组合向量的预测词权重;计算预测词权重与真实词权重的误差,当误差不满足预设的损失条件时,调整预构建的词权重生成模型的参数,当误差满足预设的损失条件时,得到标准词权重生成模型;利用标准词权重生成模型生成待处理语句的词权重。本发明专利技术还提出一种词权重生成装置、电子设备以及存储介质。本发明专利技术可以解决无法生成词界重合的分词词语的词权重的问题。语的词权重的问题。语的词权重的问题。

【技术实现步骤摘要】
词权重生成方法、装置、电子设备及存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种词权重生成方法、装置、电子设备及存储介质。

技术介绍

[0002]句子的基本构成单位是单词,而词权重则是对单词在句子中的重要程度的量化,现阶段,词权重通常被广泛应用于舆情监测和搜索排序中。
[0003]词权重生成方法中,需要先将样本进行分词之后,再依次确定每个分词词语的词权重,但传统的词权重生成方案在分词词语相互之间有重合的情况下,无法生成有重合的分词词语的词权重。例如,对于“中华人民共和国人民大会堂”,分词会把句子划分成“中华人民共和国、中华人民、中华、华人、人民共和国、人民、共和国、大会堂、大会、会堂”等词,词与词之间有重合的情况出现,即分词词语词界重合,现有的词权重生成方案无法生成词界重合分词词语的词权重。因此,现阶段亟需一种词权重生成方法,使得即使分词词语词界有重合时,依然可以生成每个分词词语的词权重。

技术实现思路

[0004]本专利技术提供一种词权重生成方法、装置、电子设备及存储介质,其主要目的在于解决无法生成词界重合的分词词语的词权重的问题。
[0005]为实现上述目的,本专利技术提供的一种词权重生成方法,包括:
[0006]获取语句样本,并对所述语句样本执行分词操作,得到分词语句;
[0007]对所述分词语句进行向量转换操作,得到样本语句向量;
[0008]对所述分词语句中的分词词语依次进行掩蔽操作,得到掩蔽语句集;
[0009]根据所述掩蔽语句集中每个掩蔽的分词词语的位置构建掩蔽词界数组;
[0010]利用预构建的词权重生成模型整合所述样本语句向量以及所述掩蔽词界数组,得到样本组合向量集;
[0011]根据所述样本组合向量集,利用所述预构建的词权重生成模型计算每个样本组合向量对应的掩蔽的分词词语的预测词权重;
[0012]计算所述预测词权重与真实词权重之间的误差,当所述误差不满足预设的损失条件时,调整所述预构建的词权重生成模型的参数,并返回上述的根据所述样本组合向量集,利用所述预构建的词权重生成模型计算每个样本组合向量对应的掩蔽的分词词语的预测词权重的步骤,当所述误差满足所述预设的损失条件时,将所述预构建的词权重生成模型作为标准词权重生成模型;
[0013]获取待处理语句,并利用所述标准词权重生成模型生成所述待处理语句的词权重。
[0014]可选地,所述根据所述掩蔽语句集中每个掩蔽的分词词语的位置构建掩蔽词界数组,包括:
[0015]识别所述掩蔽语句集中每个掩蔽语句的掩蔽字符;
[0016]定位所述掩蔽字符在每个所述掩蔽语句中的字符位置以及字符个数;
[0017]根据所述字符位置以及字符个数,利用预设的数组标注格式对所述掩蔽语句集中每个掩蔽的分词词语执行数组标注,得到所述掩蔽词界数组。
[0018]可选地,所述利用预构建的词权重生成模型整合所述样本语句向量以及所述掩蔽词界数组,得到样本组合向量集,包括:
[0019]利用所述预构建的词权重生成模型对所述样本掩蔽词界数组中每个掩蔽词界数组转化为样本掩蔽词界向量集;
[0020]分别对所述样本掩蔽词界向量集中每个样本掩蔽词界向量与所述样本语句向量执行向量求和平均计算,得到样本组合向量集。
[0021]可选地,所述根据所述样本组合向量集,利用所述预构建的词权重生成模型计算每个样本组合向量对应的掩蔽的分词词语的预测词权重,包括:
[0022]获取所述样本组合向量集的向量维数,并根据所述向量维数,利用所述预构建的词权重生成模型生成初始化维度向量;
[0023]利用所述样本组合向量集中每个样本组合向量与所述初始化维度向量,计算所述掩蔽词语的预测词权重。
[0024]可选地,所述利用预设的损失函数计算所述预测词权重与真实词权重之间的误差,包括:
[0025]采用下述损失函数公式计算所述预测词权重与真实词权重之间的误差:
[0026][0027]其中,L为所述误差,pred
j
为第j个单词的预测词权重,y
j
为第j个单词的真实词权重,m为所述分词词语的总数。
[0028]可选地,所述对所述分词语句进行向量转换操作,包括:
[0029]将所述分词语句在文本向量空间中进行映射,得到语句向量映射表;
[0030]根据所述语句向量映射表查询所述分词语句中每个分词词语的词向量;
[0031]依次整合每个所述分词词语的词向量,得到样本语句向量。
[0032]可选地,所述对所述语句样本执行分词操作,得到分词语句,包括:
[0033]将所述语句样本与预构建的机器词典进行词语匹配;
[0034]从所述语句样本中分割出成功匹配的词语,得到所述分词语句。
[0035]为了解决上述问题,本专利技术还提供一种词权重生成装置,所述装置包括:
[0036]样本语句向量生成模块,用于获取语句样本,并对所述语句样本执行分词操作,得到分词语句;对所述分词语句进行向量转换操作,得到样本语句向量;
[0037]掩蔽词界数组构建模块,用于对所述分词语句中的分词词语依次进行掩蔽操作,得到掩蔽语句集;根据所述掩蔽语句集中每个掩蔽的分词词语的位置构建掩蔽词界数组;
[0038]标准词权重生成模型获取模块,用于利用预构建的词权重生成模型整合所述样本语句向量以及所述掩蔽词界数组,得到样本组合向量集;根据所述样本组合向量集,利用所述预构建的词权重生成模型计算每个样本组合向量对应的掩蔽的分词词语的预测词权重;
计算所述预测词权重与真实词权重之间的误差,当所述误差不满足预设的损失条件时,调整所述预构建的词权重生成模型的参数,并返回上述的根据所述样本组合向量集,利用所述预构建的词权重生成模型计算每个样本组合向量对应的掩蔽的分词词语的预测词权重的步骤,当所述误差满足所述预设的损失条件时,将所述预构建的词权重生成模型作为标准词权重生成模型;
[0039]待处理语句词权重生成模块,用于获取待处理语句,并利用所述标准词权重生成模型生成所述待处理语句的词权重。
[0040]为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:
[0041]至少一个处理器;以及,
[0042]与所述至少一个处理器通信连接的存储器;其中,
[0043]所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的词权重生成方法。
[0044]为了解决上述问题,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的词权重生成方法。
[0045]本专利技术实施例通过对语句样本进行分词后进行向量转换操作,可将离散的信息量化,再对分词后的分词语句执行单词掩蔽操作,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种词权重生成方法,其特征在于,所述方法包括:获取语句样本,并对所述语句样本执行分词操作,得到分词语句;对所述分词语句进行向量转换操作,得到样本语句向量;对所述分词语句中的分词词语依次进行掩蔽操作,得到掩蔽语句集;根据所述掩蔽语句集中每个掩蔽的分词词语的位置构建掩蔽词界数组;利用预构建的词权重生成模型整合所述样本语句向量以及所述掩蔽词界数组,得到样本组合向量集;根据所述样本组合向量集,利用所述预构建的词权重生成模型计算每个样本组合向量对应的掩蔽的分词词语的预测词权重;计算所述预测词权重与真实词权重之间的误差,当所述误差不满足预设的损失条件时,调整所述预构建的词权重生成模型的参数,并返回上述的根据所述样本组合向量集,利用所述预构建的词权重生成模型计算每个样本组合向量对应的掩蔽的分词词语的预测词权重的步骤,当所述误差满足所述预设的损失条件时,将所述预构建的词权重生成模型作为标准词权重生成模型;获取待处理语句,并利用所述标准词权重生成模型生成所述待处理语句的词权重。2.如权利要求1所述的词权重生成方法,其特征在于,所述根据所述掩蔽语句集中每个的分词掩蔽词语的位置构建掩蔽词界数组,包括:识别所述掩蔽语句集中每个掩蔽语句的掩蔽字符;定位所述掩蔽字符在每个所述掩蔽语句中的字符位置以及字符个数;根据所述字符位置以及字符个数,利用预设的数组标注格式对所述掩蔽语句集中每个掩蔽的分词词语执行数组标注,得到所述掩蔽词界数组。3.如权利要求1所述的词权重生成方法,其特征在于,所述利用预构建的词权重生成模型整合所述样本语句向量以及所述掩蔽词界数组,得到样本组合向量集,包括:利用所述预构建的词权重生成模型对所述样本掩蔽词界数组中每个掩蔽词界数组转化为样本掩蔽词界向量集;分别对所述样本掩蔽词界向量集中每个样本掩蔽词界向量与所述样本语句向量执行向量求和平均计算,得到样本组合向量集。4.如权利要求1所述的词权重生成方法,其特征在于,所述根据所述样本组合向量集,利用所述预构建的词权重生成模型计算每个样本组合向量对应的掩蔽的分词词语的预测词权重,包括:获取所述样本组合向量集的向量维数,并根据所述向量维数,利用所述预构建的词权重生成模型生成初始化维度向量;利用所述样本组合向量集中每个样本组合向量与所述初始化维度向量,计算对应的掩蔽的分词词语的预测词权重。5.如权利要求所述的词权重生成方法,其特征在于,所述计算所述预测词权重与真实词权重之间的误差,包括:采用下述损失函数公式计算所述预测词权重与真实词...

【专利技术属性】
技术研发人员:杨海韵
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1