一种应用于意图识别的词义消歧方法及装置制造方法及图纸

技术编号:31090906 阅读:14 留言:0更新日期:2021-12-01 12:53
本发明专利技术公开了一种应用于意图识别的词义消歧方法及装置,包括:获取原始文本信息;对所述原始文本信息进行划分处理,得到第一文本,所述划分处理包括分句和分词处理;基于目标词义消歧模型,对所述第一文本进行词义消歧处理,得到第二文本;若所述第二文本中存在多义词,进行词义处理,并对进行词义处理后的文本进行词向量表示,获得目标文本。本发明专利技术能够对文本进行分词、消歧、多义词处理,使得处理后的文本质量和精准度更高,进而提升了后续应用该文本进行训练的模型的识别精度。文本进行训练的模型的识别精度。文本进行训练的模型的识别精度。

【技术实现步骤摘要】
一种应用于意图识别的词义消歧方法及装置


[0001]本专利技术涉及信息处理
,特别是涉及一种应用于意图识别的词义消歧方法及装置。

技术介绍

[0002]文本意图识别,即基本文本内容归类到不同的意图类别中。通常是基于训练文本训练得到意图识别的神经网络模型,由该神经网络模式自动对待识别的文本进行识别,以获得意图分类。
[0003]但是,通常训练样本的文本质量会影响最终进行意图识别的神经网络模型的精度。而文本往往会出现不规范、多口语、多错误词语的问题,同时文本方式多样化,甚至非标准的自然语言、相同或者类似语句可对应多种不同意图等问题。从而使得训练样本精度降低。

技术实现思路

[0004]针对于上述问题,本专利技术提供一种应用于意图识别的词义消歧方法及装置,实现了提升文本精度和质量的目的。
[0005]为了实现上述目的,本专利技术提供了如下技术方案:
[0006]一种应用于意图识别的词义消歧方法,包括:
[0007]获取原始文本信息;
[0008]对所述原始文本信息进行划分处理,得到第一文本,所述划分处理包括分句和分词处理;
[0009]基于目标词义消歧模型,对所述第一文本进行词义消歧处理,得到第二文本;
[0010]若所述第二文本中存在多义词,进行词义处理,并对进行词义处理后的文本进行词向量表示,获得目标文本。
[0011]可选地,所述方法还包括:
[0012]基于所述目标文本生成训练样本;
[0013]依据所述训练样本进行神经网络模型训练,获得目标意图识别模型,所述目标意图识别模型用于基于文本进行意图识别。
[0014]可选地,所述对原始文本信息进行划分处理,得到第一文本,包括:
[0015]基于第一符号对所述原始文本信息进行分句处理,获得分句处理结果;
[0016]统计所述分句处理结果中的各个关键词的概率,并基于概率结果进行分词处理,得到第一文本。
[0017]可选地,所述目标词义消歧模型包括:
[0018]基于文本的互消息模式创建的模型,所述文本的互消息模式表征基于文本的上下文特征,确定随机变量的相关性;
[0019]或,
[0020]基于贝叶斯分类器创建的模型,所述贝叶斯分类器用于计算特定上下文语境下,概率最大词的分离器;
[0021]或,
[0022]基于最大熵创建的模型,所述基于最大熵创建的模型用于对多义词根据其特定的上下文条件确定该词的义项。
[0023]可选地,所述若所述第二文本中存在多义词,进行词义处理,并对进行词义处理后的文本进行词向量表示,获得目标文本,包括:
[0024]获取第二文本中的词语权重;
[0025]基于所述词语权重对多义词的词义进行处理;
[0026]利用二进制编码和上下文词预测模式对进行词义处理后的文本进行词向量表示,获得目标文本,所述上下文预测模式用于预测与目标中心词相对应的上下文词的模式。
[0027]一种应用于意图识别的词义消歧装置,包括:
[0028]获取单元,用于获取原始文本信息;
[0029]划分单元,用于对所述原始文本信息进行划分处理,得到第一文本,所述划分处理包括分句和分词处理;
[0030]消歧单元,用于基于目标词义消歧模型,对所述第一文本进行词义消歧处理,得到第二文本;
[0031]处理单元,用于若所述第二文本中存在多义词,进行词义处理,并对进行词义处理后的文本进行词向量表示,获得目标文本。
[0032]可选地,所述装置还包括:
[0033]样本生成单元,用于基于所述目标文本生成训练样本;
[0034]训练单元,用于依据所述训练样本进行神经网络模型训练,获得目标意图识别模型,所述目标意图识别模型用于基于文本进行意图识别。
[0035]可选地,所述划分单元包括:
[0036]分句子单元,用于基于第一符号对所述原始文本信息进行分句处理,获得分句处理结果;
[0037]分词子单元,用于统计所述分句处理结果中的各个关键词的概率,并基于概率结果进行分词处理,得到第一文本。
[0038]可选地,所述目标词义消歧模型包括:
[0039]基于文本的互消息模式创建的模型,所述文本的互消息模式表征基于文本的上下文特征,确定随机变量的相关性;
[0040]或,
[0041]基于贝叶斯分类器创建的模型,所述贝叶斯分类器用于计算特定上下文语境下,概率最大词的分离器;
[0042]或,
[0043]基于最大熵创建的模型,所述基于最大熵创建的模型用于对多义词根据其特定的上下文条件确定该词的义项。
[0044]可选地,所述处理单元具体用于:
[0045]获取第二文本中的词语权重;
[0046]基于所述词语权重对多义词的词义进行处理;
[0047]利用二进制编码和上下文词预测模式对进行词义处理后的文本进行词向量表示,获得目标文本,所述上下文预测模式用于预测与目标中心词相对应的上下文词的模式。
[0048]相较于现有技术,本专利技术提供了一种应用于意图识别的词义消歧方法及装置,包括:获取原始文本信息;对所述原始文本信息进行划分处理,得到第一文本,所述划分处理包括分句和分词处理;基于目标词义消歧模型,对所述第一文本进行词义消歧处理,得到第二文本;若所述第二文本中存在多义词,进行词义处理,并对进行词义处理后的文本进行词向量表示,获得目标文本。本专利技术能够对文本进行分词、消歧、多义词处理,使得处理后的文本质量和精准度更高,进而提升了后续应用该文本进行训练的模型的识别精度。
附图说明
[0049]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0050]图1为本专利技术实施例提供的一种应用于意图识别的词义消歧方法的流程示意图;
[0051]图2为本专利技术实施例提供的一种应用于意图识别的词义消歧装置的结构示意图。
具体实施方式
[0052]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0053]本专利技术的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有设定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
[0054]在本发本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种应用于意图识别的词义消歧方法,其特征在于,包括:获取原始文本信息;对所述原始文本信息进行划分处理,得到第一文本,所述划分处理包括分句和分词处理;基于目标词义消歧模型,对所述第一文本进行词义消歧处理,得到第二文本;若所述第二文本中存在多义词,进行词义处理,并对进行词义处理后的文本进行词向量表示,获得目标文本。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:基于所述目标文本生成训练样本;依据所述训练样本进行神经网络模型训练,获得目标意图识别模型,所述目标意图识别模型用于基于文本进行意图识别。3.根据权利要求1所述的方法,其特征在于,所述对原始文本信息进行划分处理,得到第一文本,包括:基于第一符号对所述原始文本信息进行分句处理,获得分句处理结果;统计所述分句处理结果中的各个关键词的概率,并基于概率结果进行分词处理,得到第一文本。4.根据权利要求1所述的方法,其特征在于,所述目标词义消歧模型包括:基于文本的互消息模式创建的模型,所述文本的互消息模式表征基于文本的上下文特征,确定随机变量的相关性;或,基于贝叶斯分类器创建的模型,所述贝叶斯分类器用于计算特定上下文语境下,概率最大词的分离器;或,基于最大熵创建的模型,所述基于最大熵创建的模型用于对多义词根据其特定的上下文条件确定该词的义项。5.根据权利要求1所述的方法,其特征在于,所述若所述第二文本中存在多义词,进行词义处理,并对进行词义处理后的文本进行词向量表示,获得目标文本,包括:获取第二文本中的词语权重;基于所述词语权重对多义词的词义进行处理;利用二进制编码和上下文词预测模式对进行词义处理后的文本进行词向量表示,获得目标文本,所述上下文预测模式用于预测与目标中心词相对应的上下文词的模式。6.一种应用于意...

【专利技术属性】
技术研发人员:孙喜民李娜周晶田晓芸李慧超孙博
申请(专利权)人:国网电商科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1