一种文本分类方法、装置、网络及存储介质制造方法及图纸

技术编号:24010732 阅读:45 留言:0更新日期:2020-05-02 01:39
本申请涉及一种文本分类方法、装置、网络及存储介质,其中,一种文本分类方法包括步骤:获取待分类文本的中文字形信息,所述中文字形信息基于五笔输入法字根得到、将所述中文字形信息编码为独热编码、通过第一神经网络将所述独热编码转换为五笔字形编码、利用第二神经网络将所述五笔字形编码转换为注意力编码、根据所述注意力编码计算得到所述待分类文本的特征向量、通过第三神经网络对所述特征向量进行运算并根据运算结果确定所述待分类文本的标签类型。本申请能够对中文类型的待分类文本进行精确分类。

A text classification method, device, network and storage medium

【技术实现步骤摘要】
一种文本分类方法、装置、网络及存储介质
本申请涉及自然语言处理
,具体而言,涉及一种文本分类方法、装置、网络及存储介质。
技术介绍
通常,在自然语言处理领域中,为了实现对文本精确分类,需要考虑到文本中的不同词组的语义对前后文本的影响。目前,现有技术中存在一种模型框架,该模型框架通过“多头自注意力机制”兼顾文本中不同词组对整个文本的影响,进而可实现对文本精确分类。但是,技术人员发现该模型框架难以从中文文本的字形层面对中文文本进行卷积,并获取相关的词向量信息,因此,该模型框架无法适用于对中文文本精确分类。
技术实现思路
本申请实施例的目的在于公开一种文本分类方法、装置、网络及存储介质,用于解决现有文本分类模型无法对中文类型的待分类文本进行分类这一技术问题,从而实现对中文类型的待分类文本进行精确分类。本申请第一方面公开一种文本分类方法,该方法包括:获取待分类文本的中文字形信息,中文字形信息基于五笔输入法字根得到;将中文字形信息编码为独热编码;通过第一神经网络将独热编码转换为五笔字形编码;...

【技术保护点】
1.一种文本分类方法,其特征在于,所述方法包括:/n获取待分类文本的中文字形信息,所述中文字形信息基于五笔输入法字根得到;/n将所述中文字形信息编码为独热编码;/n通过第一神经网络将所述独热编码转换为五笔字形编码;/n利用第二神经网络将所述五笔字形编码转换为注意力编码;/n根据所述注意力编码计算得到所述待分类文本的特征向量;/n通过第三神经网络对所述特征向量进行运算并根据运算结果确定所述待分类文本的标签类型。/n

【技术特征摘要】
1.一种文本分类方法,其特征在于,所述方法包括:
获取待分类文本的中文字形信息,所述中文字形信息基于五笔输入法字根得到;
将所述中文字形信息编码为独热编码;
通过第一神经网络将所述独热编码转换为五笔字形编码;
利用第二神经网络将所述五笔字形编码转换为注意力编码;
根据所述注意力编码计算得到所述待分类文本的特征向量;
通过第三神经网络对所述特征向量进行运算并根据运算结果确定所述待分类文本的标签类型。


2.如权利要求1所述的文本分类方法,其特征在于,根据所述注意力编码计算得到所述待分类文本的特征向量,包括:
当所述注意力编码的数量大于等于两个时,拼接所有所述注意力编码并得到所述待分类文本的特征向量。


3.如权利要求1所述的文本分类方法,其特征在于,利用第二神经网络将所述五笔字形编码转换为注意力编码,包括:
将所述五笔字形编码转换为向量元素;
创建所述向量元素的查询向量、关键向量、价值向量;
根据所述查询向量、关键向量计算所述向量元素的注意力得分;
根据所述价值向量和对所述注意力得分进行归一化后的得分,获得所述注意力编码。


4.如权利要求3所述的文本分类方法,其特征在于:创建所述向量元素的查询向量、关键向量、价值向量,包括:
将所述向量元素与预设第一权重相乘获得所述查询向量;
将所述向量元素与预设第二权重相乘获得所述关键向量;
将所述向量元素与预设第三权重相乘获得所述价值向量。


5.如权利要求1所述的文本分类方法,其特征在于,通过第三神经网络对所述特征向量进行运算并根据运算结果确定所述待分类文本的标签类型,包括:
根据所述特征向量、所述第三神...

【专利技术属性】
技术研发人员:赵茜周玥胡浩廖凤玲谢晓婷严彦昌杨金辉余梓玲
申请(专利权)人:广东博智林机器人有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1