一种改进的前缀树与循环神经网络结合的领域分类方法技术

技术编号：23149940 阅读：22 留言：0更新日期：2020-01-18 13:48

本发明专利技术公开了一种改进的前缀树与循环神经网络结合的领域分类方法，通过新增用户数据，重新训练RNN模型以及重构前缀树，然后根据真实用户请求，重新设计领域分类算法结构，最后优化了前缀树特征的权重计算方法。成功的解决了领域分类的性能问题，并提高了分类的正确率。

An improved domain classification method based on prefix tree and recurrent neural network

全部详细技术资料下载

【技术实现步骤摘要】
一种改进的前缀树与循环神经网络结合的领域分类方法
本专利技术涉及自然语言处理
，尤其涉及一种改进的前缀树与循环神经网络结合的领域分类方法。
技术介绍
自然语言处理(NLP)是计算机科学领域与人工智能领域中的一个重要方向。它的研究可以实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。自然语言处理的目的就是让计算机能‘懂得’人类对它‘说’的话，然后去执行一些指定的任务。这些任务包括拼写检查，关键词搜索，意图识别，机器翻译，对话系统等。对于我们语义云项目而言，自然语言处理就是实现人与电视机之间利用自然语言进行有效的沟通交流，即对用户的输入进行有效的意图识别，并做出相应的回复。意图识别就是让语义云系统能够识别出与用户输入最相关的信息，例如用户输入“我想看刘德华”时，我们知道“刘德华”既是演员又是歌手，如果我们通过用户意图识别发现该用户是想看“刘德华”这个演员演的电影，而不是想听“刘德华”这个歌手唱的歌，那我们直接把“刘德华”演的电视剧作为结果返回给用户，...

【技术保护点】
1.一种改进的前缀树与循环神经网络结合的领域分类方法，其特征在于，包括以下步骤：/n步骤1、构建循环神经网络模型；/n步骤2、构建前缀树；/n步骤3、文本类别预测：包括优化领域分类结构，分类算法。/n

【技术特征摘要】
1.一种改进的前缀树与循环神经网络结合的领域分类方法，其特征在于，包括以下步骤：
步骤1、构建循环神经网络模型；
步骤2、构建前缀树；
步骤3、文本类别预测：包括优化领域分类结构，分类算法。

2.如权利要求1所述的一种改进的前缀树与循环神经网络结合的领域分类方法，其特征在于，所述步骤1具体为：
1.1搜集用户数据，组成训练数据集；
1.2采用one-hot编码，将训练数据集人工分类后打上标签；
1.3构造词向量模型，把训练数据集进行中文分词处理，利用word2vec对分词文本进行训练，得到词向量模型；
1.4向量化文本，利用训练好的词向量模型训练文本，得到向量化的文本数据；
1.5搭建循环神经网络模型，将向量化的训练文本输入模型，将输出通过softmax函数激活后，输出模型最终的分类；
1.6模型训练：得到了分类结果以后，计算模型的损失，即loss，然后采用BPTT算法不断的优化模型，即最小化loss，就这样不断的迭代、优化，得到最优的循环神经网络模型。

3.如权利要求1所述的一种改进的前缀树与循环神经网络结合的领域分类方法，其特征在于，所述步骤2具体为：
2.1新增用户数据，用于提取更多特征构建前缀树；
2.2将训练数据集按领域打好标签，即分类；
2.3首先从每一类的数据中选择具有明显领域特征的名词，领域之间无重复的特征，以类为名字存为特征文本一；然后再从每一类的数据中选择属于各领域特征的动词和名词，领域之间特征可重复，以类为名字存为特征文本二；
2.4搭建前缀树模型，分...

【专利技术属性】
技术研发人员：刘楚雄，代秀琼，
申请(专利权)人：四川长虹电器股份有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人