文本分类方法和装置制造方法及图纸

技术编号：13225535 阅读：78 留言：0更新日期：2016-05-13 10:15

本发明专利技术公开了一种文本分类方法和装置，其中，方法包括以下步骤：接收输入的文本数据，并将文本数据切分为多个分词；对多个分词进行归一化，并生成文本数据对应的归一化结果；以及将归一化结果转换为语义特征，并基于预设分类模型对语义特征进行分类。本发明专利技术实施例的文本分类方法和装置，通过接收输入的文本数据，并将文本数据切分为多个分词，对多个分词进行归一化，并生成文本数据对应的归一化结果，以及将归一化结果转换为语义特征，并基于预设分类模型对语义特征进行分类，只需对训练语料进行归一化，无需频繁增加训练语料对模型进行重新训练，降低了工作量，降低人工成本，并提升了模型训练效率，训练的模型稳定性高，鲁棒性好。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机
，尤其涉及一种文本分类方法和装置。
技术介绍
文本分类是指在预定的分类体系下，对文本进行分类标注的过程，能够为意图识别等提供数据基础。目前，文本分类方法可分为以下几个步骤:I)确定分类体系，主要根据需求确定分类的类别数和类别名称;2)收集训练数据，主要通过人工编辑或者网络爬虫等方法为每个分类类别收集相应的训练数据;3)对训练数据进行分词处理;4)模型训练，对获得的分词进行特征提取，然后进行模型训练;5)对输入的文本进行分类，基于预先训练好的模型对输入的文本进行分类。但是，上述文本分类方法主要存在以下几个缺陷:当模型中无法对当前文本进行分类时，需要根据当前文本重新训练模型，因此需要大量的高质量的训练语料进行模型训练，工作量大，人工成本高，训练的模型鲁棒性差，稳定性差。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本专利技术的一个目的在于提出一种文本分类方法，能够降低工作量，降低人工成本，并提升模型训练效率，训练的模型稳定性高，鲁棒性好。本专利技术的第二个目的在于提出一种文本分类装置。为了实现上...

【技术保护点】
一种文本分类方法，其特征在于，包括以下步骤：接收输入的文本数据，并将所述文本数据切分为多个分词；对所述多个分词进行归一化，并生成所述文本数据对应的归一化结果；以及将所述归一化结果转换为语义特征，并基于预设分类模型对所述语义特征进行分类。

【技术特征摘要】

【专利技术属性】
技术研发人员：赵建明，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人