一种文本分类方法及相关装置制造方法及图纸

技术编号：20842296 阅读：19 留言：0更新日期：2019-04-13 08:43

本申请提供了一种文本分类方法及相关装置，所述方法包括：对目标文本的相邻字符进行分割，获得多个分割词；获得所述多个分割词的词向量；根据所述多个分割词的词向量，获得所述目标文本的文本向量；根据所述目标文本的文本向量，获得所述目标文本的分类信息。本申请实施例中通过对目标文本中的相邻字符进行分割即可实现文本分类，例如对目标文本每两个或是三个相邻字符进行分割，因此不需要对目标文本进行基于语义的分词处理，解决了因分词准确性较差导致的文本分类准确性降低的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本分类方法及相关装置
本申请涉及自然语言处理领域，尤其是涉及一种文本分类方法及相关装置。
技术介绍
文本分类是自然语言处理领域中一种常见的技术，用于根据目标文本的内容将目标文本归类到至少一个类别中。目前，在对目标文本进行文本分类时，常用的一种方式是根据目标文本的语义对目标文本进行分词处理，并根据分词处理的结果将目标文本归类到至少一个类别中。其中分词处理通常基于分词模型实现。显然，这种分类方式需要进行对目标文本进行基于语义的分词处理，因此文本分类的准确性依赖于分词准确性。然而，在一些情况下由于训练样本较少等原因，导致分词准确性较低。例如中文文本的分词模型通常采用的是有监督机器学习模型，因此训练样本是有限的；又例如对于特殊行业领域，很难找到适合的训练样本。因此，当训练样本较少时，或者其他一些原因导致分词的准确性较低时，会进一步影响文本分类的准确性。
技术实现思路
本申请解决的技术问题在于提供一种文本分类方法及相关装置，以实现不需要基于语义进行分词处理即可实现文本分类，解决了因分词准确性较差导致的文本分类准确性降低的问题。为此，本申请解决技术问题的技术方案是：本申请实施例提供了一种文本分类方法，包括：对目标文本的相邻字符进行分割，获得多个分割词；获得所述多个分割词的词向量；根据所述多个分割词的词向量，获得所述目标文本的文本向量；根据所述目标文本的文本向量，获得所述目标文本的分类信息。可选的，所述根据所述多个分割词的词向量，获得所述目标文本的文本向量，包括：对所述多个分割词的词向量进行加权求和计算，获得加权和；将所述加权和作为所述目标文本的文本向量。可选的，所述...

【技术保护点】
1.一种文本分类方法，其特征在于，包括：对目标文本的相邻字符进行分割，获得多个分割词；获得所述多个分割词的词向量；根据所述多个分割词的词向量，获得所述目标文本的文本向量；根据所述目标文本的文本向量，获得所述目标文本的分类信息。

【技术特征摘要】
1.一种文本分类方法，其特征在于，包括：对目标文本的相邻字符进行分割，获得多个分割词；获得所述多个分割词的词向量；根据所述多个分割词的词向量，获得所述目标文本的文本向量；根据所述目标文本的文本向量，获得所述目标文本的分类信息。2.根据权利要求1所述的方法，其特征在于，所述根据所述多个分割词的词向量，获得所述目标文本的文本向量，包括：对所述多个分割词的词向量进行加权求和计算，获得加权和；将所述加权和作为所述目标文本的文本向量。3.根据权利要求1所述的方法，其特征在于，所述对所述目标文本中的相邻字符进行分割，获得多个分割词，包括：对所述目标文本中每两个或者三个相邻字符进行分割，获得多个分割词。4.根据权利要求1所述的方法，其特征在于，所述目标文本包括中文文本；对目标文本的相邻字符进行分割之前，所述方法还包括：将所述目标文本中的中文文本，拆分成以偏旁为单位的若干个字符；对目标文本的相邻字符进行分割，获得多个分割词，包括：对所述以偏旁为单位的若干个字符的相邻字符进行分割，获得多个分割词。5.根据权利要求1所述的方法，其特征在于，根据所述目标文本的文本向量，获得所述目标文本的分类信息，包括：获得训练样本和所述训练样本对应的初始分类标记；对所述初始分类标记进行修正，获得修正分类标记；根据所述训练样本和所述修正分类标记，获得训练好的分类模型；将所述目标文本的文本向量输入至所述训练好的分类模型，获得所述训练好的分类模型输出的所述目标文本的分类信息。6.根据权利要求5所述的方法，其特征在于，对所述初始分类标记进行修正，包括：根据所述训练样本和所述初始分类标记，训练得到当前分类模型；循环执行修正过程；其中，所述修正过程包括：将所述训练样本输入至当...

【专利技术属性】
技术研发人员：赵耕弘，崔朝辉，赵立军，张霞，
申请(专利权)人：东软集团股份有限公司，
类型：发明
国别省市：辽宁,21

全部详细技术资料下载我是这个专利的主人