词语识别方法技术

技术编号：39587395 阅读：10 留言：0更新日期：2023-12-03 19:39

本申请公开了一种词语识别方法

全部详细技术资料下载

【技术实现步骤摘要】
词语识别方法、装置、电子设备和存储介质

[0001]本申请属于语言识别
，具体涉及一种词语识别方法
、
装置
、
电子设备和存储介质
。

技术介绍

[0002]在相关技术中，随着时代发展，不断有新的词语涌现，这些新的词语可能是新的作品名
、
新的技术名词
、
新的物种名称等，且对于一些现有名词，在语言使用过程中，也存在对名词进行变化
、
简写的情况，从而诞生一些全新的词汇
。
[0003]对于搜索场景，主要依赖现有词库集合，当一个新的词语没有被包含在现有词库中时，就会出现分词不准
、
实体识别错误或产生歧义等问题，因此需要对新的词语进行准确识别和记录，而现有的词语识别方法的识别准确率不高
。

技术实现思路

[0004]本申请实施例的目的是提供一种词语识别方法
、
装置
、
电子设备和存储介质，能够解决词语识别准确率差的问题
。
[0005]第一方面，本申请实施例提供了一种词语识别方法，包括：
[0006]对文本数据进行第一处理，得到文本数据中的待识别文本片段；
[0007]确定待识别文本片段在文本数据中的相邻文本片段，以及待识别文本片段的语义向量和相邻文本片段的语义向量；
[0008]以待识别文本片段和待识别文本片段的语义向量为父节点，以相邻文本片段和相邻文本片段的语义向量为子节点，以待识别文本片段...

【技术保护点】

【技术特征摘要】
1.
一种词语识别方法，其特征在于，包括：对文本数据进行第一处理，得到所述文本数据中的待识别文本片段；确定所述待识别文本片段在所述文本数据中的相邻文本片段，以及所述待识别文本片段的语义向量和所述相邻文本片段的语义向量；以所述待识别文本片段和所述待识别文本片段的语义向量为父节点，以所述相邻文本片段和所述相邻文本片段的语义向量为子节点，以所述待识别文本片段和所述相邻文本片段的相邻关系为边，构建图网络；根据所述图网络和分类识别模型确定所述待识别文本片段为词语的置信度；其中，所述分类识别模型是通过图对比学习方法训练得到的
。2.
根据权利要求1所述的词语识别方法，其特征在于，所述对文本数据进行第一处理，得到所述文本数据中的待识别文本片段，包括：对所述文本数据进行预处理，得到所述文本数据对应的文本片段集合；确定所述文本片段集合中的每一个文本片段的左右熵，以及所述文本片段集合中的每一个文本片段和与其相邻的文本片段之间的互信息；根据每一个所述文本片段的左右熵以及每一个所述文本片段和与其相邻的文本片段之间的互信息，在所述文本片段集合中确定所述待识别文本片段
。3.
根据权利要求2所述的词语识别方法，其特征在于，所述根据每一个所述文本片段的左右熵以及每一个所述文本片段和与其相邻的文本片段之间的互信息，在所述文本片段集合中确定所述待识别文本片段，包括：根据每一个所述文本片段的左右熵以及每一个所述文本片段和与其相邻的文本片段之间的互信息，确定每一个所述文本片段的分值；将所述分值大于或等于分值阈值的文本片段确定为所述待识别文本片段；或者，按照所述分值大小对多个所述文本片段进行排序，得到片段序列，将所述片段序列中的前
N
个文本片段确定为所述待识别文本片段，
N
为正整数
。4.
根据权利要求2所述的词语识别方法，其特征在于，在所述根据所述图网络和分类识别模型确定所述待识别文本片段为词语的置信度之前，所述方法还包括：通过训练集对初始神经网络模型进行训练，得到所述初始神经网络模型对应的第一损失；其中，所述训练集包括一个以上的训练词对应的训练图网络
、
一个以上的所述训练词的左右熵以及一个以上的所述训练词中的每一个训练词和与其相邻的词之间的互信息；基于所述训练图网络的特征向量，确定第二损失；根据所述第一损失和所述第一损失对应的权重信息以及所述第二损失和所述第二损失对应的权重信息，确定分类识别损失；在所述分类识别损失小于损失阈值的情况下，将训练后的所述初始神经网络模型确定为所述分类识别模型
。5.
根据权利要求4所述的词语识别方法，其特征在于，所述基于所述训练图网络的特征向量，确定第二损失，包括：确定所述训练图网络中每个所述子节点的移除概率；基于所述移除概率，在所述训练图网络的全部所述子节点中，移除至少一个所述子节点，得到所述训练图网络的至少两个子图网络；
根据至少两个所述子图网络的相似度确定所述第二损失
。6.
一种词语识别装置，其特征在于，包括：处理模块，用于对文本数据进行第一处理，得到所述文本数据中的待识别文本片段；确定...

【专利技术属性】
技术研发人员：谭官鑫，
申请(专利权)人：维沃软件技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人