一种基于关键词特征嵌入语言模型的意图识别方法及系统技术方案

技术编号:28942893 阅读:26 留言:0更新日期:2021-06-18 21:50
本发明专利技术属于自然语言处理技术领域,具体涉及一种基于关键词特征嵌入语言模型的意图识别方法,包括:采用前后向最大分词算法,对提取的有效文本的语言信息进行分词,获得不同类别的分词结果;针对获得的不同类别的分词结果,获得不同类别的分词结果对应的候选意图相关的关键词列表;剔除每一种类别的分词结果对应的候选意图相关的关键词列表中的通用高频词和领域无关词,获得每一种类别的分词结果对应的最终关键词表,进而获得不同的关键词特征向量;将获得的每一个关键词特征向量嵌入至预先训练好的语言模型,获得带有关键词特征的有效文本的语音信息;并对其进行编码和分类,获得该有效文本的语言信息的意图识别结果。

【技术实现步骤摘要】
一种基于关键词特征嵌入语言模型的意图识别方法及系统
本专利技术属于自然语言处理和长文本意图识别
,具体涉及一种基于关键词特征嵌入语言模型的意图识别方法及系统。
技术介绍
意图识别技术是将长文本中隐含的说话人意图进行识别的重要技术,也是自然语言处理领域的一个重要研究内容。传统的意图识别技术,采用关键词匹配以及使用词频、TFIDF(termfrequency–inversedocumentfrequency,词频逆文本频率指数)等统计信息和如支持向量机、混合高斯模型等传统机器学习模型结合的方法,这些方法都只是对潜在的语言统计数据进行了利用,而深层次的语义信息无法涉及,对于样本质量十分依赖,性能不理想。深度学习技术发展以来,卷积神经网络、递归神经网络、transformer等先进的神经网络都用于编码更深层次的语义信息,并且在自然语言处理的各个领域均取得了不菲的成果,但是,这些方法都太依赖于训练数据,只专注于特定任务,而且会受数据集的影响,学习到数据集的其他特征而忽略任务核心语义信息,一旦数据集改变,性能会大打折扣。...

【技术保护点】
1.一种基于关键词特征嵌入语言模型的意图识别方法,该方法包括:/n对待识别语料进行预处理,利用正则表达式提取待识别语料中的有效文本的语言信息;/n采用前后向最大分词算法,对提取的有效文本的语言信息进行分词,获得不同类别的分词结果;/n针对获得的不同类别的分词结果,根据TFIDF算法,计算每一种类别的分词结果中的所有词的TFIDF值,获得不同类别的分词结果对应的候选意图相关的关键词列表;/n通过类别交叉统计和去停用词,剔除每一种类别的分词结果对应的候选意图相关的关键词列表中的通用高频词和领域无关词,获得每一种类别的分词结果对应的最终关键词表;/n根据最终的关键词列表,查找有效文本的语言信息中的每...

【技术特征摘要】
1.一种基于关键词特征嵌入语言模型的意图识别方法,该方法包括:
对待识别语料进行预处理,利用正则表达式提取待识别语料中的有效文本的语言信息;
采用前后向最大分词算法,对提取的有效文本的语言信息进行分词,获得不同类别的分词结果;
针对获得的不同类别的分词结果,根据TFIDF算法,计算每一种类别的分词结果中的所有词的TFIDF值,获得不同类别的分词结果对应的候选意图相关的关键词列表;
通过类别交叉统计和去停用词,剔除每一种类别的分词结果对应的候选意图相关的关键词列表中的通用高频词和领域无关词,获得每一种类别的分词结果对应的最终关键词表;
根据最终的关键词列表,查找有效文本的语言信息中的每个关键词对应的位置信息,获得不同的关键词特征向量;
将获得的每一个关键词特征向量嵌入至预先训练好的语言模型,获得带有关键词特征的有效文本的语音信息;
对获得的带有关键词特征的有效文本的语音信息进行编码和分类,获得该有效文本的语言信息的意图识别结果。


2.根据权利要求1所述的方法,其特征在于,所述对待识别语料进行预处理,利用正则表达式提取待识别语料中的有效文本的语言信息;具体为:
调整编码格式,将纷杂的文本文件的中文编码统一转为utf-8格式;去除非法字符,利用正则表达式,对待识别语料,去除汉字、英文单词、数字、常用标点符号之外的不合法字符;再将去除后的待识别语料进行数字转化,将数字转化后的待识别语料中所有阿拉伯数字统一转换为简体中文规范写法;再进行标点符号转换,将转换后的待识别语料中的半角字符统一转化为对应的全角字符;再进行标签规范,利用规则匹配的方法,纠正文本意图标签中的拼写错误;文件大小筛选,删去转化后的待识别语料中的空白文件以及三行以内无信息的噪声文件,进而提取删除后的待识别语料中的有效文本的语言信息。


3.根据权利要求1所述的方法,其特征在于,所述采用前后向最大分词算法,对提取的有效文本的语言信息进行分词,获得不同类别的分词结果;具体为:
采用前后向最大分词算法,分别从正向和逆向两个方向对提取的有效文本的语言信息中的片段在预先构建的分词词典中进行匹配,获得在正向和逆向的不同长度片段的有效文本语言信息,将匹配到的正向和逆向的最大长度片段的有效文本语言信息作为各自的匹配结果,最后利用正向最大匹配法,根据正向最大长度片段的有效文本语言信息,获得正向分词结果;利用逆向最大匹配法,根据逆向最大长度片段的有效文本语言信息,获得逆向分词结果;
比较正向分词结果和逆向分词结果,如果正向分词结果和逆向分词结果相同,则采用该分词结果;如果正向分词结果和逆向分词结果不同,则利用该预先训练的语言模型,选取两个分词结果之中句子困惑度最小的,从而决定最终正确的分词结果。


4.根据权利要求1所述的方法,其特征在于,所述针对获得的不同类别的分词结果,根据TFIDF算法,计算每一种类别的分词结果中的所有词的TFIDF值,获得不同类别的分词结果对应的候选意图相关的关键词列表;具体为:
根据公式(1),计算每个类别的分词结果中的每一个词汇的TF-IDF值:
TFIDF(x,j)=TF(x,j)*IDF(x)(1)
其中,TF(x,j)为单个词汇x在第j类别中出现的频率;



IDF(x)为逆向文件频率,代表单个词汇x在类别中的独特代表性,



其中,dx是包含单个词汇x的类别数,D是类别总数;
最终选择每个类别中TFIDF值最大的100个词汇作为候选意图相关的关键词列表。


5.根据权利要求1所述的方法,其特征在于,所述通过类别交叉统计和去停用词,剔除每一种类别的分词结果对应的候选意图相关的关键词列表中的通用...

【专利技术属性】
技术研发人员:颜永红林格平付瑞柳万辛张学君孙旭东孙晓晨
申请(专利权)人:中国科学院声学研究所国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1