一种文本分类方法和装置制造方法及图纸

技术编号：23764693 阅读：34 留言：0更新日期：2020-04-11 19:13

本公开提供了一种文本分类方法和装置，该文本分类方法包括：计算至少一个预构词表中每个预构词表的文本预待分类文本的相似度；判断计算得到的相似度是否大于预设阈值，若是，则将所述待分类文本归入相似度大于预设阈值的预构词表中；否则所述待分类文本不归入任何一个预构词表中。本公开解决了从杂乱无章的海量数据中，获取特定的两类或者多类词表需要大量人工进行逐条筛选的，节省了人力物力，有效地提高了工作效率，并且能有效地对各类词表进行构建，降低人工误差。

A text classification method and device

全部详细技术资料下载

【技术实现步骤摘要】
一种文本分类方法和装置
本公开涉及计算机领域，尤其涉及一种文本分类方法和装置。
技术介绍
在实际生产项目中，需要构建两类或者多类词表，在构建词表之前，通过网络爬虫得到的海量数据类型很乱，两类或者多类文本混在一起。现有的技术，是通过人工逐条筛选的方式，从海量文本中筛选出来想要的数据，分别加入两类或者多类词表，从而需要大量的人力物力，并且效率较低。
技术实现思路
为了解决或者至少缓解上述技术问题中的至少一个，本公开提供了一种文本分类方法和装置。第一方面，本公开提供了一种文本分类方法，该文本分类方法包括：计算至少一个预构词表中每个预构词表的文本预待分类文本的相似度；判断计算得到的相似度是否大于预设阈值，若是，则将所述待分类文本归入相似度大于预设阈值的预构词表中；否则所述待分类文本不归入任何一个预构词表中。可选地，每个所述预构词表中包含至少一个预先定义的属于同一类的文本。可选地，该文本分类方法还包括：将所述待分类文本归入相似度大于预设阈值的预构词表后更新该预构词表。...

【技术保护点】
1.一种文本分类方法，其特征在于，该文本分类方法包括：/n计算至少一个预构词表中每个预构词表的文本预待分类文本的相似度；/n判断计算得到的相似度是否大于预设阈值，若是，则将所述待分类文本归入相似度大于预设阈值的预构词表中；否则所述待分类文本不归入任何一个预构词表中。/n

【技术特征摘要】
1.一种文本分类方法，其特征在于，该文本分类方法包括：
计算至少一个预构词表中每个预构词表的文本预待分类文本的相似度；
判断计算得到的相似度是否大于预设阈值，若是，则将所述待分类文本归入相似度大于预设阈值的预构词表中；否则所述待分类文本不归入任何一个预构词表中。

2.根据权利要求1所述文本分类方法，其特征在于，每个所述预构词表中包含至少一个预先定义的属于同一类的文本。

3.根据权利要求2所述文本分类方法，其特征在于，该文本分类方法还包括：
将所述待分类文本归入相似度大于预设阈值的预构词表后更新该预构词表。

4.一种文本分类装置，其特征在于，该文本分类装置包括：计算模块和判断模块，其中，
计算模块，用于计算至少一个预构词表中每个预构词表的文本预待分类文本的相似度；
判断模块，用于判断计算...

【专利技术属性】
技术研发人员：孙宇浩，孙龙超，唐劭，张斌，龚平，
申请(专利权)人：北京亚信数据有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人