词权重生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号：35306915 阅读：23 留言：0更新日期：2022-10-22 12:57

本发明专利技术涉及人工智能技术，揭露了一种词权重生成方法，包括：对获取的语句样本执行分词操作，并对执行分词后的分词语句进行向量转换，得到样本语句向量；对分词语句进行掩蔽操作，得到掩蔽语句集并构建掩蔽词界数组；整合样本语句向量以及掩蔽词界数组，并利用预构建的词权重生成模型计算样本组合向量的预测词权重；计算预测词权重与真实词权重的误差，当误差不满足预设的损失条件时，调整预构建的词权重生成模型的参数，当误差满足预设的损失条件时，得到标准词权重生成模型；利用标准词权重生成模型生成待处理语句的词权重。本发明专利技术还提出一种词权重生成装置、电子设备以及存储介质。本发明专利技术可以解决无法生成词界重合的分词词语的词权重的问题。语的词权重的问题。语的词权重的问题。

全部详细技术资料下载

【技术实现步骤摘要】
词权重生成方法、装置、电子设备及存储介质

[0001]本专利技术涉及人工智能
，尤其涉及一种词权重生成方法、装置、电子设备及存储介质。

技术介绍

[0002]句子的基本构成单位是单词，而词权重则是对单词在句子中的重要程度的量化，现阶段，词权重通常被广泛应用于舆情监测和搜索排序中。
[0003]词权重生成方法中，需要先将样本进行分词之后，再依次确定每个分词词语的词权重，但传统的词权重生成方案在分词词语相互之间有重合的情况下，无法生成有重合的分词词语的词权重。例如，对于“中华人民共和国人民大会堂”，分词会把句子划分成“中华人民共和国、中华人民、中华、华人、人民共和国、人民、共和国、大会堂、大会、会堂”等词，词与词之间有重合的情况出现，即分词词语词界重合，现有的词权重生成方案无法生成词界重合分词词语的词权重。因此，现阶段亟需一种词权重生成方法，使得即使分词词语词界有重合时，依然可以生成每个分词词语的词权重。

技术实现思路

[0004]本专利技术提供一种词权重生成方法、装置、电子设备及存储介质，其主要目的在于解决无法生成词界重合的分词词语的词权重的问题。
[0005]为实现上述目的，本专利技术提供的一种词权重生成方法，包括：
[0006]获取语句样本，并对所述语句样本执行分词操作，得到分词语句；
[0007]对所述分词语句进行向量转换操作，得到样本语句向量；
[0008]对所述分词语句中的分词词语依次进行掩蔽操作，得到掩蔽语句集；
[0009]根据所述掩蔽...

【技术保护点】

【技术特征摘要】
1.一种词权重生成方法，其特征在于，所述方法包括：获取语句样本，并对所述语句样本执行分词操作，得到分词语句；对所述分词语句进行向量转换操作，得到样本语句向量；对所述分词语句中的分词词语依次进行掩蔽操作，得到掩蔽语句集；根据所述掩蔽语句集中每个掩蔽的分词词语的位置构建掩蔽词界数组；利用预构建的词权重生成模型整合所述样本语句向量以及所述掩蔽词界数组，得到样本组合向量集；根据所述样本组合向量集，利用所述预构建的词权重生成模型计算每个样本组合向量对应的掩蔽的分词词语的预测词权重；计算所述预测词权重与真实词权重之间的误差，当所述误差不满足预设的损失条件时，调整所述预构建的词权重生成模型的参数，并返回上述的根据所述样本组合向量集，利用所述预构建的词权重生成模型计算每个样本组合向量对应的掩蔽的分词词语的预测词权重的步骤，当所述误差满足所述预设的损失条件时，将所述预构建的词权重生成模型作为标准词权重生成模型；获取待处理语句，并利用所述标准词权重生成模型生成所述待处理语句的词权重。2.如权利要求1所述的词权重生成方法，其特征在于，所述根据所述掩蔽语句集中每个的分词掩蔽词语的位置构建掩蔽词界数组，包括：识别所述掩蔽语句集中每个掩蔽语句的掩蔽字符；定位所述掩蔽字符在每个所述掩蔽语句中的字符位置以及字符个数；根据所述字符位置以及字符个数，利用预设的数组标注格式对所述掩蔽语句集中每个掩蔽的分词词语执行数组标注，得到所述掩蔽词界数组。3.如权利要求1所述的词权重生成方法，其特征在于，所述利用预构建的词权重生成模型整合所述样本语句向量以及所述掩蔽词界数组，得到样本组合向量集，包括：利用所述预构建的词权重生成模型对所述样本掩蔽词界数组中每个掩蔽词界数组转化为样本掩蔽词界向量集；分别对所述样本掩蔽词界向量集中每个样本掩蔽词界向量与所述样本语句向量执行向量求和平均计算，得到样本组合向量集。4.如权利要求1所述的词权重生成方法，其特征在于，所述根据所述样本组合向量集，利用所述预构建的词权重生成模型计算每个样本组合向量对应的掩蔽的分词词语的预测词权重，包括：获取所述样本组合向量集的向量维数，并根据所述向量维数，利用所述预构建的词权重生成模型生成初始化维度向量；利用所述样本组合向量集中每个样本组合向量与所述初始化维度向量，计算对应的掩蔽的分词词语的预测词权重。5.如权利要求所述的词权重生成方法，其特征在于，所述计算所述预测词权重与真实词权重之间的误差，包括：采用下述损失函数公式计算所述预测词权重与真实词...

【专利技术属性】
技术研发人员：杨海韵，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人