字符数字唯一可译深度模型的文本分类方法及存储介质技术

技术编号:20242392 阅读:54 留言:0更新日期:2019-01-29 23:21
本发明专利技术公开了一种字符数字唯一可译深度模型的文本分类方法,以常用中文字符为基础构造矩阵,每个常用中文字符采用行数拼接列数的数字表示,使每个常用中文字符对应数字唯一可译标量,并将数字唯一可译标量进行矢量化;将矢量化表示的文本序列输入第一层卷积神经网络,进行卷积,提取文本序列的特征并得到第一和第二卷积结果,将第一卷积结果通过激活函数处理,并将此结果与第二卷积结果按位相乘,直到得到的结果矩阵形态与卷积阶段的数据形态相同,输出作为下一层卷积神经网络的输入,重复进行输入、卷积、位乘和输出,直到到达顶端并输出提取的文本特征信息,构建深度模型;对深度模型进行训练数据的学习,以提供中文字符的智能文本分类。

【技术实现步骤摘要】
字符数字唯一可译深度模型的文本分类方法及存储介质
本专利技术实施方式涉及自然语言处理领域,尤其涉及一种字符数字唯一可译深度模型的文本分类方法及计算机可读存储介质。
技术介绍
文本分类是自然语言处理领域的一个重要的经典课题,在语音交互对话机器人中可以实现自然语言理解的意图识别功能,在语义分析与语义理解等方面有着广泛的应用。文本分类的实现方法可以分成词匹配法、知识工程、基于统计机器学习的方法和基于深度学习实现方法。专利技术人发现现有技术中至少存在如下问题:知识工程的方法借助语言学专家的帮助,为特定类别充分定义大量规则,如果待预测文本能够满足这些推理规则,则可以判定属于该类别,并与特定规则的匹配度作为文本分类特征。然而,该方法在系统中加入了大量人为产生的规则因素,准确度虽然比词匹配法显著提高,但是分类的质量好坏严重依赖于人工设定的规则,严重依赖于语言学专家本身的主观因素,因此通用性和泛化能力受限,并且人力成本极高令人难以承受,使得推广实用化严重受限。可见知识工程致命缺陷是很难具备可推广性,比如针对科技领域构建的分类系统,打算扩充到教育或军事等领域,则需要完全重新设计相关文本的分类规则,需要本文档来自技高网...

【技术保护点】
1.一种字符数字唯一可译深度模型的文本分类方法,其特征在于,包括:以常用中文字符为基础,构造矩阵,每个常用中文字符对应的行数拼接列数的数字字符表示该常用中文字符,使每个常用中文字符对应数字唯一可译标量,将常用中文字符的数字唯一可译标量进行矢量化,得到中文字符的数字唯一矢量化表示;将中文字符的数字唯一矢量化表示的文本序列输入到第一层卷积神经网络,第一层卷积神经网络对输入的文本序列进行卷积,提取文本序列的特征并得到第一卷积结果和第二卷积结果,将第一卷积结果通过激活函数进行处理,并将经过激活函数处理的第一卷积处理结果与第二卷积结果进行按位相乘,直到得到的结果矩阵形态与第一卷积结果和第二卷积结果的数据...

【技术特征摘要】
1.一种字符数字唯一可译深度模型的文本分类方法,其特征在于,包括:以常用中文字符为基础,构造矩阵,每个常用中文字符对应的行数拼接列数的数字字符表示该常用中文字符,使每个常用中文字符对应数字唯一可译标量,将常用中文字符的数字唯一可译标量进行矢量化,得到中文字符的数字唯一矢量化表示;将中文字符的数字唯一矢量化表示的文本序列输入到第一层卷积神经网络,第一层卷积神经网络对输入的文本序列进行卷积,提取文本序列的特征并得到第一卷积结果和第二卷积结果,将第一卷积结果通过激活函数进行处理,并将经过激活函数处理的第一卷积处理结果与第二卷积结果进行按位相乘,直到得到的结果矩阵形态与第一卷积结果和第二卷积结果的数据形态相同,输出作为下一层卷积神经网络的输入,下一层卷积神经网络对输入的文本序列重复进行输入、卷积、位乘和输出,直到到达顶端并输出提取的文本特征信息,构建深度模型;对深度模型进行训练数据的学习,以提供中文字符的智能文本分类。2.根据权利要求1所述的字符数字唯一可译深度模型的文本分类方法,其特征在于,所述以常用中文字符为基础,构造矩阵,采用每个常用中文字符对应的行数拼接列数的数字字符表示该常用中文字符,具体包括:以3500个常用中文字符为基础,构造43行×83列的矩阵,采用每个常用中文字符对应的行数拼接列数的四位数字字符来进行唯一可译标量化表示,非常用中文字符统一采用预先设定的数字字符表示,从而采用10个数字字符来形成对中文字符的表示,该10个数字字符为0、1、2、3、4、5、6、7、8、9。3.根据权利要求2所述的字符数字唯一可译深度模型的文本分类方法,其特征在于,所述将常用中文字符的数字唯一可译标量进行矢量化,得到中文字符的数字唯一矢量化表示,具体包括:把单位圆周上点按照360度进行10等分,对应点取余弦值为横坐标,正弦值为纵坐标,得到数字字符0到9的二维连续空间特定单位矢量;将常用中文字符的数字唯一可译标量经过二维连续空间特定单位矢量被映射为矩阵,得到每个常用中文字符的数字唯一矢量化表示。4.根据权利要求1~3中任一项所述的字符数字唯一可译深度模型的文本分类方法,其特征在于,所述方法还包括:在输入深度模型之前,每个中文字符之间添加预先设定的数字字符以区分中文字符之间的空格。5.根据权利要求4所述的字符数字唯一可译深度模型的文本分类方法,其特征在于,所述将中文字符的的数字唯一矢量化表示的文本序列输入到第一层卷积神经网络,具体包括:中文字符的数字唯一可译标量经过二维连续空间单位矢量被映射为矩阵后,将矩阵形态变成竖式的文本序列,并将矩阵形态的文本序列输入到深度模型的第一层卷积神经网络,其中设定输入的通道数为2,以整体读取中文中文字符对应的二维矢量。6.根据权利要求5所述的字...

【专利技术属性】
技术研发人员:陈海波
申请(专利权)人:深兰科技上海有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1