一种应用于意图识别的词义消歧方法及装置制造方法及图纸

技术编号：31090906 阅读：14 留言：0更新日期：2021-12-01 12:53

本发明专利技术公开了一种应用于意图识别的词义消歧方法及装置，包括：获取原始文本信息；对所述原始文本信息进行划分处理，得到第一文本，所述划分处理包括分句和分词处理；基于目标词义消歧模型，对所述第一文本进行词义消歧处理，得到第二文本；若所述第二文本中存在多义词，进行词义处理，并对进行词义处理后的文本进行词向量表示，获得目标文本。本发明专利技术能够对文本进行分词、消歧、多义词处理，使得处理后的文本质量和精准度更高，进而提升了后续应用该文本进行训练的模型的识别精度。文本进行训练的模型的识别精度。文本进行训练的模型的识别精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种应用于意图识别的词义消歧方法及装置

[0001]本专利技术涉及信息处理
，特别是涉及一种应用于意图识别的词义消歧方法及装置。

技术介绍

[0002]文本意图识别，即基本文本内容归类到不同的意图类别中。通常是基于训练文本训练得到意图识别的神经网络模型，由该神经网络模式自动对待识别的文本进行识别，以获得意图分类。
[0003]但是，通常训练样本的文本质量会影响最终进行意图识别的神经网络模型的精度。而文本往往会出现不规范、多口语、多错误词语的问题，同时文本方式多样化，甚至非标准的自然语言、相同或者类似语句可对应多种不同意图等问题。从而使得训练样本精度降低。

技术实现思路

[0004]针对于上述问题，本专利技术提供一种应用于意图识别的词义消歧方法及装置，实现了提升文本精度和质量的目的。
[0005]为了实现上述目的，本专利技术提供了如下技术方案：
[0006]一种应用于意图识别的词义消歧方法，包括：
[0007]获取原始文本信息；
[0008]对所述原始文本信息进行划分处理，得到第一文本，所述划分处理包括分句和分词处理；
[0009]基于目标词义消歧模型，对所述第一文本进行词义消歧处理，得到第二文本；
[0010]若所述第二文本中存在多义词，进行词义处理，并对进行词义处理后的文本进行词向量表示，获得目标文本。
[0011]可选地，所述方法还包括：
[0012]基于所述目标文本生成训练样本；
[0013]依据所述训练样本进...

【技术保护点】

【技术特征摘要】
1.一种应用于意图识别的词义消歧方法，其特征在于，包括：获取原始文本信息；对所述原始文本信息进行划分处理，得到第一文本，所述划分处理包括分句和分词处理；基于目标词义消歧模型，对所述第一文本进行词义消歧处理，得到第二文本；若所述第二文本中存在多义词，进行词义处理，并对进行词义处理后的文本进行词向量表示，获得目标文本。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：基于所述目标文本生成训练样本；依据所述训练样本进行神经网络模型训练，获得目标意图识别模型，所述目标意图识别模型用于基于文本进行意图识别。3.根据权利要求1所述的方法，其特征在于，所述对原始文本信息进行划分处理，得到第一文本，包括：基于第一符号对所述原始文本信息进行分句处理，获得分句处理结果；统计所述分句处理结果中的各个关键词的概率，并基于概率结果进行分词处理，得到第一文本。4.根据权利要求1所述的方法，其特征在于，所述目标词义消歧模型包括：基于文本的互消息模式创建的模型，所述文本的互消息模式表征基于文本的上下文特征，确定随机变量的相关性；或，基于贝叶斯分类器创建的模型，所述贝叶斯分类器用于计算特定上下文语境下，概率最大词的分离器；或，基于最大熵创建的模型，所述基于最大熵创建的模型用于对多义词根据其特定的上下文条件确定该词的义项。5.根据权利要求1所述的方法，其特征在于，所述若所述第二文本中存在多义词，进行词义处理，并对进行词义处理后的文本进行词向量表示，获得目标文本，包括：获取第二文本中的词语权重；基于所述词语权重对多义词的词义进行处理；利用二进制编码和上下文词预测模式对进行词义处理后的文本进行词向量表示，获得目标文本，所述上下文预测模式用于预测与目标中心词相对应的上下文词的模式。6.一种应用于意...

【专利技术属性】
技术研发人员：孙喜民，李娜，周晶，田晓芸，李慧超，孙博，
申请(专利权)人：国网电商科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人