【技术实现步骤摘要】
一种文本分类方法和装置
本公开涉及计算机领域,尤其涉及一种文本分类方法和装置。
技术介绍
在实际生产项目中,需要构建两类或者多类词表,在构建词表之前,通过网络爬虫得到的海量数据类型很乱,两类或者多类文本混在一起。现有的技术,是通过人工逐条筛选的方式,从海量文本中筛选出来想要的数据,分别加入两类或者多类词表,从而需要大量的人力物力,并且效率较低。
技术实现思路
为了解决或者至少缓解上述技术问题中的至少一个,本公开提供了一种文本分类方法和装置。第一方面,本公开提供了一种文本分类方法,该文本分类方法包括:计算至少一个预构词表中每个预构词表的文本预待分类文本的相似度;判断计算得到的相似度是否大于预设阈值,若是,则将所述待分类文本归入相似度大于预设阈值的预构词表中;否则所述待分类文本不归入任何一个预构词表中。可选地,每个所述预构词表中包含至少一个预先定义的属于同一类的文本。可选地,该文本分类方法还包括:将所述待分类文本归入相似度大于预设阈值的预构词表后更新该预构词表。 ...
【技术保护点】
1.一种文本分类方法,其特征在于,该文本分类方法包括:/n计算至少一个预构词表中每个预构词表的文本预待分类文本的相似度;/n判断计算得到的相似度是否大于预设阈值,若是,则将所述待分类文本归入相似度大于预设阈值的预构词表中;否则所述待分类文本不归入任何一个预构词表中。/n
【技术特征摘要】
1.一种文本分类方法,其特征在于,该文本分类方法包括:
计算至少一个预构词表中每个预构词表的文本预待分类文本的相似度;
判断计算得到的相似度是否大于预设阈值,若是,则将所述待分类文本归入相似度大于预设阈值的预构词表中;否则所述待分类文本不归入任何一个预构词表中。
2.根据权利要求1所述文本分类方法,其特征在于,每个所述预构词表中包含至少一个预先定义的属于同一类的文本。
3.根据权利要求2所述文本分类方法,其特征在于,该文本分类方法还包括:
将所述待分类文本归入相似度大于预设阈值的预构词表后更新该预构词表。
4.一种文本分类装置,其特征在于,该文本分类装置包括:计算模块和判断模块,其中,
计算模块,用于计算至少一个预构词表中每个预构词表的文本预待分类文本的相似度;
判断模块,用于判断计算...
【专利技术属性】
技术研发人员:孙宇浩,孙龙超,唐劭,张斌,龚平,
申请(专利权)人:北京亚信数据有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。