词语识别方法技术

技术编号:39587395 阅读:10 留言:0更新日期:2023-12-03 19:39
本申请公开了一种词语识别方法

【技术实现步骤摘要】
词语识别方法、装置、电子设备和存储介质


[0001]本申请属于语言识别
,具体涉及一种词语识别方法

装置

电子设备和存储介质


技术介绍

[0002]在相关技术中,随着时代发展,不断有新的词语涌现,这些新的词语可能是新的作品名

新的技术名词

新的物种名称等,且对于一些现有名词,在语言使用过程中,也存在对名词进行变化

简写的情况,从而诞生一些全新的词汇

[0003]对于搜索场景,主要依赖现有词库集合,当一个新的词语没有被包含在现有词库中时,就会出现分词不准

实体识别错误或产生歧义等问题,因此需要对新的词语进行准确识别和记录,而现有的词语识别方法的识别准确率不高


技术实现思路

[0004]本申请实施例的目的是提供一种词语识别方法

装置

电子设备和存储介质,能够解决词语识别准确率差的问题

[0005]第一方面,本申请实施例提供了一种词语识别方法,包括:
[0006]对文本数据进行第一处理,得到文本数据中的待识别文本片段;
[0007]确定待识别文本片段在文本数据中的相邻文本片段,以及待识别文本片段的语义向量和相邻文本片段的语义向量;
[0008]以待识别文本片段和待识别文本片段的语义向量为父节点,以相邻文本片段和相邻文本片段的语义向量为子节点,以待识别文本片段和相邻文本片段的相邻关系为边,构建图网络;
[0009]根据图网络和分类识别模型确定待识别文本片段为词语的置信度;其中,分类识别模型是通过图对比学习方法训练得到的

[0010]第二方面,本申请实施例提供了一种词语识别装置,包括:
[0011]处理模块,用于对文本数据进行第一处理,得到文本数据中的待识别文本片段;
[0012]确定模块,用于确定待识别文本片段在文本数据中的相邻文本片段,以及待识别文本片段的语义向量和相邻文本片段的语义向量;
[0013]构建模块,用于以待识别文本片段和待识别文本片段的语义向量为父节点,以相邻文本片段和待识别文本片段的语义向量为子节点,以待识别文本片段和相邻文本片段的相邻关系为边,构建图网络;
[0014]识别模块,用于根据图网络和分类识别模型确定待识别文本片段为词语的置信度;其中,分类识别模型是通过图对比学习装置训练得到的

[0015]第三方面,本申请实施例提供了一种电子设备,包括处理器和存储器,存储器存储可在处理器上运行的程序或指令,程序或指令被处理器执行时实现如第一方面的方法的步骤

[0016]第四方面,本申请实施例提供了一种可读存储介质,该可读存储介质上存储程序或指令,该程序或指令被处理器执行时实现如第一方面的方法的步骤

[0017]第五方面,本申请实施例提供了一种芯片,该芯片包括处理器和通信接口,该通信接口和该处理器耦合,该处理器用于运行程序或指令,实现如第一方面的方法的步骤

[0018]第六方面,本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如第一方面的方法

[0019]在本申请实施例中,通过构建待识别文本片段的图网络,该图网络包括了待识别文本片段的空间相邻信息,还包括了待识别文本片段和待识别文本片段的相邻文本片段的语义信息,通过包含了空间相邻信息和语义向量的网络图作为分类识别模型的输入,通过分类识别模型来推理网络图中心节点,也即父节点上的文本片段是否满足是一个词语的条件,使得推理过程充分利用了文本片段之间的空间相邻信息和语义信息,能够有效提高词语识别的准确率

附图说明
[0020]图1示出了本申请的一些实施例的词语识别方法的流程图;
[0021]图2示出了本申请的一些实施例的图网络的示意图;
[0022]图3示出了本申请的一些实施例的模型结构示意图;
[0023]图4示出了本申请的一些实施例的词语识别装置的结构框图;
[0024]图5示出了根据本申请实施例的电子设备的结构框图;
[0025]图6为实现本申请实施例的一种电子设备的硬件结构示意图

具体实施方式
[0026]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例

基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围

[0027]本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序

应该理解这样使用的术语在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个

此外,说明书以及权利要求中“和
/
或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系

[0028]下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的词语识别方法

装置

电子设备和存储介质进行详细地说明

[0029]在本申请的一些实施例中,提供了一种词语识别方法,图1示出了本申请的一些实施例的词语识别方法的流程图,如图1所示,词语识别方法包括:
[0030]步骤
102
,对文本数据进行第一处理,得到文本数据中的待识别文本片段

[0031]在本申请实施例中,第一处理包括对文本数据中的全部文本片段进行的初筛处理

具体地,原始文本数据中包括大量文本片段,而这些文本片段中的绝大部分文本片段是词语的概率都很低,因此对文本数据进行初筛,得到可能是词语的待识别文本片段,能够有
效减少无效识别处理,提高词语识别效率

[0032]其中,词语具体为具有完整含义的词语,举例来说,一个文本片段“晚上去美食街吃火锅”中,根据拆分方式不同,得到的文本片段可能不同,比如按照每2字拆分为一个片段的方式,拆分会得到“晚上”、“去美”、“食街”、“吃火”和“锅”的5个片段,其中只有“晚上”这个片段是一个词语

[0033]而如果按照每3字拆分为一个片段的方式,拆分会得到“晚上去”、“美食节”和“吃火锅”的3个片段,其中的“美食街”和“吃火锅”均是词语

[0034]步骤
104
,确定待识别文本片段在文本数据中的相邻文本片段,以及待识别文本片段的语义向本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种词语识别方法,其特征在于,包括:对文本数据进行第一处理,得到所述文本数据中的待识别文本片段;确定所述待识别文本片段在所述文本数据中的相邻文本片段,以及所述待识别文本片段的语义向量和所述相邻文本片段的语义向量;以所述待识别文本片段和所述待识别文本片段的语义向量为父节点,以所述相邻文本片段和所述相邻文本片段的语义向量为子节点,以所述待识别文本片段和所述相邻文本片段的相邻关系为边,构建图网络;根据所述图网络和分类识别模型确定所述待识别文本片段为词语的置信度;其中,所述分类识别模型是通过图对比学习方法训练得到的
。2.
根据权利要求1所述的词语识别方法,其特征在于,所述对文本数据进行第一处理,得到所述文本数据中的待识别文本片段,包括:对所述文本数据进行预处理,得到所述文本数据对应的文本片段集合;确定所述文本片段集合中的每一个文本片段的左右熵,以及所述文本片段集合中的每一个文本片段和与其相邻的文本片段之间的互信息;根据每一个所述文本片段的左右熵以及每一个所述文本片段和与其相邻的文本片段之间的互信息,在所述文本片段集合中确定所述待识别文本片段
。3.
根据权利要求2所述的词语识别方法,其特征在于,所述根据每一个所述文本片段的左右熵以及每一个所述文本片段和与其相邻的文本片段之间的互信息,在所述文本片段集合中确定所述待识别文本片段,包括:根据每一个所述文本片段的左右熵以及每一个所述文本片段和与其相邻的文本片段之间的互信息,确定每一个所述文本片段的分值;将所述分值大于或等于分值阈值的文本片段确定为所述待识别文本片段;或者,按照所述分值大小对多个所述文本片段进行排序,得到片段序列,将所述片段序列中的前
N
个文本片段确定为所述待识别文本片段,
N
为正整数
。4.
根据权利要求2所述的词语识别方法,其特征在于,在所述根据所述图网络和分类识别模型确定所述待识别文本片段为词语的置信度之前,所述方法还包括:通过训练集对初始神经网络模型进行训练,得到所述初始神经网络模型对应的第一损失;其中,所述训练集包括一个以上的训练词对应的训练图网络

一个以上的所述训练词的左右熵以及一个以上的所述训练词中的每一个训练词和与其相邻的词之间的互信息;基于所述训练图网络的特征向量,确定第二损失;根据所述第一损失和所述第一损失对应的权重信息以及所述第二损失和所述第二损失对应的权重信息,确定分类识别损失;在所述分类识别损失小于损失阈值的情况下,将训练后的所述初始神经网络模型确定为所述分类识别模型
。5.
根据权利要求4所述的词语识别方法,其特征在于,所述基于所述训练图网络的特征向量,确定第二损失,包括:确定所述训练图网络中每个所述子节点的移除概率;基于所述移除概率,在所述训练图网络的全部所述子节点中,移除至少一个所述子节点,得到所述训练图网络的至少两个子图网络;
根据至少两个所述子图网络的相似度确定所述第二损失
。6.
一种词语识别装置,其特征在于,包括:处理模块,用于对文本数据进行第一处理,得到所述文本数据中的待识别文本片段;确定...

【专利技术属性】
技术研发人员:谭官鑫
申请(专利权)人:维沃软件技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1