一种文本分类方法、装置及介质制造方法及图纸

技术编号:24456312 阅读:17 留言:0更新日期:2020-06-10 15:39
本文公开了一种文本分类方法、装置及介质,该方法包括:根据字典确定目标文本的构成方式;根据构成方式对应的词向量生成方法生成目标文本的词向量;根据目标文本的词向量和样本映射集合对目标文本进行分类;其中,样本词映射集合包括多个子集合,每个子集合包括多个样本词与词向量的一一映射关系,不同子集合包含的样本词属于不同的类别,样本词映射集合中所有词向量的维度相同;字典是所述样本词映射集合中所有样本词的子集。本文基于字典和样本映射集合,将不同长度的目标文本映射到相同维度的向量空间上,实现表示层上的统一,使得不同长度的目标文本都可以通过同一个分类算法实现分类,可以有效提高分类的准确性。

A text classification method, device and medium

【技术实现步骤摘要】
一种文本分类方法、装置及介质
本公开涉及文本分类领域,尤其涉及一种文本分类方法、装置及介质。
技术介绍
目前的文本处理业务中经常需要设置大量规则文本对内容进行管理,规则文本包括关键词、短语、句子、正则表达式等。同时,对于这些规则文本需要维护对应的分类信息,用来表示规则文本过滤得到的数据所对应的类别归属,便于运营人员对数据进行后续处理,包括日志统计、数据报表、规则纠错、以及对不同类别的数据交由不同的数据处理通道进行处理等,规则文本分类的准确性将在很大程度上影响后续数据处理流程的效果,并进一步影响业务系统的运营效率。目前,规则表的分类可以通过人工分类和自动分类两种方法来实现。人工分类的方法,依赖于业务人员对规则表和类别体系的理解,并需要统一分类标准,针对规则表的更新以及类别体系的调整,需要及时对业务人员进行培训。在实际的业务运营中,经常是由多个业务人员同时进行维护,经常会出现不同业务人员对分类标准认识不一致导致分类错误的情况。而且,在业务运营过程中,通过用户反馈、日志跟踪、系统巡检等多种方式,发现需要过滤的数据后,会由运营人员对规则表进行人工更新,经过长时间积累后,规则文本一般规模都比较大,导致难以依赖人工来进行规则分类。自动分类的方法,一般是通过文本分析抽取规则表的文本特征,然后采用合适的分类算法来实现。针对短文本和长文本,需要采用不同的特征抽取方法。由于规则表组成结构比较复杂,包含关键词、短语、句子、正则表达式等多种形式的文本,较难用统一的方法来实现,不同长度的规则文本导致特征表示不一致,从而会影响分类的准确性。同时,传统分类方法中需要一定规模的人工标注数据,通过标注的训练数据来抽取基于词典的特征,然而由于规则表与长文本文章内容不同,词的分布非常稀疏,使得标注的训练数据难以覆盖到大多数词,从而当规则表中一旦出现新的关键词时,会导致未登录词情况发生,使得规则文本的特征表达失效,直接影响分类算法的准确性。相关技术中,对于未登录词,可以通过计算未登录词的上下文与每个类别的上下文之间的相似度,来确定未登录词所属的类别。这种方法需要依赖于同义词词典,并且要求同义词具有类别属性。而在业务中类别体系复杂,并没有相对应的现成可用的同义词词典。另外,相关技术中确定未登录词所属的类别时,所依据的上下文信息,在连续句子、文章等业务场景下适用,但不适用于规则文本,因为规则文本大多是关键词、短语片段,没有对应的上下文信息。
技术实现思路
为克服相关技术中存在的问题,本文提供一种文本分类方法、装置及介质。根据本文实施例的第一方面,提供了一种文本分类方法,包括:根据字典确定目标文本的构成方式;根据所述构成方式对应的词向量生成方法生成所述目标文本的词向量;根据所述目标文本的词向量和样本映射集合对所述目标文本进行分类;其中,所述样本词映射集合包括多个子集合,每个子集合包括多个样本词与词向量的一一映射关系,不同子集合包含的样本词属于不同的类别,所述样本词映射集合中所有词向量的维度相同;所述字典是所述样本词映射集合中所有样本词的子集。在另一实施例中,所述根据字典确定目标文本的构成方式,包括:确定所述目标文本是所述字典中一样本词时,确定所述目标文本的构成方式为第一方式;所述第一方式对应的词向量生成方法,包括:查询所述样本词映射集合中的一一映射关系确定所述目标文本对应的词向量。在另一实施例中,所述根据字典确定目标文本的构成方式,包括:确定所述目标文本不是所述字典中的样本词,在所述目标文本的长度大于或等于设定长度时,确定所述目标文本的构成方式为第二方式;所述第二方式对应的词向量生成方法,包括:对所述目标文本进行分词操作后获得至少一个有效组成词,从所述有效组成词中选择出属于所述字典的有效组成词,查询样本词映射集合中的一一映射关系确定选择出的有效组成词对应的词向量,根据每个选择出的有效组成词对应的词向量确定目标文本对应的词向量。在另一实施例中,所述根据字典确定目标文本的构成方式,包括:确定所述目标文本不是所述字典中的样本词,在所述目标文本的长度小于设定长度时,确定所述目标文本的构成方式为第三方式;所述第三方式对应的词向量生成方法,包括:对所述目标文本分别进行至少一种滑动窗口式拆分,不同的滑动窗口的窗长不同,从使用各滑动窗口式拆分后得到的单元词中选择出属于所述字典的单元词,查询所述样本词映射集合中的一一映射关系确定选择出的所有单元词对应的词向量,根据选择出的所有单元词对应的词向量确定所述目标文本对应的词向量。在另一实施例中,所述至少一种滑动窗口式拆分中使用的滑动窗口的长度是从1字符长度至M字符长度中的N种字符长度,M是大于1的整数,N小于或等于M。在另一实施例中,使用所述目标文本的词向量和样本映射集合对所述目标文本进行分类,包括:计算所述目标文本的词向量与所述样本映射集合中的词向量的相似度,根据所述相似度确定所述目标文本所属的类别。根据本文实施例的第二个方面,提供了一种文本分类装置,包括:第一确定模块,根据字典确定目标文本的构成方式;生成模块,用于根据所述构成方式对应的词向量生成方法生成所述目标文本的词向量;分类模块,用于根据所述目标文本的词向量和样本映射集合对所述目标文本进行分类;其中,所述样本词映射集合包括多个子集合,每个子集合包括多个样本词与词向量的一一映射关系,不同子集合包含的样本词属于不同的类别,所述样本词映射集合中所有词向量的维度相同;所述字典是所述样本词映射集合中所有样本词的子集。在一种实施方式中,所述第一确定模块,包括:第二确定模块,用于确定所述目标文本是所述字典中一样本词时,确定所述目标文本的构成方式为第一方式;所述生成模块包括:第一执行模块,用于根据所述第一方式对应的词向量生成方法生成所述目标文本的词向量;所述第一执行模块,包括:第一查询模块,用于查询所述样本词映射集合中的一一映射关系确定所述目标文本对应的词向量。在一种实施方式中,所述第一确定模块,包括:第三确定模块,用于确定所述目标文本不是所述字典中的样本词,在所述目标文本的长度大于或等于设定长度时,确定所述目标文本的构成方式为第二方式;所述生成模块包括:第二执行模块,用于根据所述第二方式对应的词向量生成方法生成所述目标文本的词向量;所述第二执行模块,包括:分词模块,用于对所述目标文本进行分词操作后获得至少一个有效组成词;第一选择模块,用于从所述有效组成词中选择出属于所述字典的有效组成词;第二查询模块,用于查询样本词映射集合中的一一映射关系确定选择出的有效组成词对应的词向量;第四确定模块,用于根据每个选择出的有效组成词对应的词向量确定目标文本对应的词向量。在一种实施方式中,所述第一确定模块,包括:第四确定模块,用于确定所述目标文本不是所述字典中的样本词,在所述目标文本的长度小于设定长度时,确本文档来自技高网
...

【技术保护点】
1.一种文本分类方法,其特征在于,包括:/n根据字典确定目标文本的构成方式;/n根据所述构成方式对应的词向量生成方法生成所述目标文本的词向量;/n根据所述目标文本的词向量和样本映射集合对所述目标文本进行分类;/n其中,所述样本词映射集合包括多个子集合,每个子集合包括多个样本词与词向量的一一映射关系,不同子集合包含的样本词属于不同的类别,所述样本词映射集合中所有词向量的维度相同;所述字典是所述样本词映射集合中所有样本词的子集。/n

【技术特征摘要】
1.一种文本分类方法,其特征在于,包括:
根据字典确定目标文本的构成方式;
根据所述构成方式对应的词向量生成方法生成所述目标文本的词向量;
根据所述目标文本的词向量和样本映射集合对所述目标文本进行分类;
其中,所述样本词映射集合包括多个子集合,每个子集合包括多个样本词与词向量的一一映射关系,不同子集合包含的样本词属于不同的类别,所述样本词映射集合中所有词向量的维度相同;所述字典是所述样本词映射集合中所有样本词的子集。


2.如权利要求1所述的文本分类方法,其特征在于,
所述根据字典确定目标文本的构成方式,包括:确定所述目标文本是所述字典中一样本词时,确定所述目标文本的构成方式为第一方式;
所述第一方式对应的词向量生成方法,包括:查询所述样本词映射集合中的一一映射关系确定所述目标文本对应的词向量。


3.如权利要求1所述的文本分类方法,其特征在于,
所述根据字典确定目标文本的构成方式,包括:确定所述目标文本不是所述字典中的样本词,在所述目标文本的长度大于或等于设定长度时,确定所述目标文本的构成方式为第二方式;
所述第二方式对应的词向量生成方法,包括:对所述目标文本进行分词操作后获得至少一个有效组成词,从所述有效组成词中选择出属于所述字典的有效组成词,查询样本词映射集合中的一一映射关系确定选择出的有效组成词对应的词向量,根据每个选择出的有效组成词对应的词向量确定目标文本对应的词向量。


4.如权利要求1所述的文本分类方法,其特征在于,
所述根据字典确定目标文本的构成方式,包括:确定所述目标文本不是所述字典中的样本词,在所述目标文本的长度小于设定长度时,确定所述目标文本的构成方式为第三方式;
所述第三方式对应的词向量生成方法,包括:对所述目标文本分别进行至少一种滑动窗口式拆分,不同的滑动窗口的窗长不同,从使用各滑动窗口式拆分后得到的单元词中选择出属于所述字典的单元词,查询所述样本词映射集合中的一一映射关系确定选择出的所有单元词对应的词向量,根据选择出的所有单元词对应的词向量确定所述目标文本对应的词向量。


5.如权利要求4所述的文本分类方法,其特征在于,
所述至少一种滑动窗口式拆分中使用的滑动窗口的长度是从1字符长度至M字符长度中的N种字符长度,M是大于1的整数,N小于或等于M。


6.如权利要求1所述的文本分类方法,其特征在于,
使用所述目标文本的词向量和样本映射集合对所述目标文本进行分类,包括:计算所述目标文本的词向量与所述样本映射集合中的词向量的相似度,根据所述相似度确定所述目标文本所属的类别。


7.一种文本分类装置,其特征在于,包括:
第一确定模块,根据字典确定目标文本的构成方式;
生成模块,用于根据所述构成方式对应的词向量生成方法生成所述目标文本的词向量;
分类模块,用于根据所述目标文本的词向量和样本映射集合对所述目标文本进行分类;
其中,所述样本词映射集合包括多个子集合,每个子集合包括多个样本词与词向量的一一映射关系,不同子集合包含的样本词属于不同的类别,所述样本词映射集合中所有词向量的维度相同;所述字典是所述样本词映射集合中所有样本词的子集。


8.如权利要求7所述的文本分类装置,其特征在于,

【专利技术属性】
技术研发人员:鲁骁孟二利王斌
申请(专利权)人:北京松果电子有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1