基于人工智能处理的文本分类方法和装置制造方法及图纸

技术编号:21060150 阅读:45 留言:0更新日期:2019-05-08 06:57
本公开的实施例公开了一种基于人工智能处理的文本分类方法,该方法包括:使用文本分类模型对未标注类别的第一文本集中的每个文本进行分类,以确定所述第一文本集中的每个文本的置信度,其中,所述文本分类模型基于已标注类别的历史文本集来生成;基于所述第一文本集中的每个文本的置信度,从所述第一文本集中确定一个或多个文本,并对所述一个或多个文本标注类别;当标注后的所述一个或多个文本中包括与所述历史文本集中的类别不同的新类别的文本时,利用标注后的所述一个或多个文本来更新所述历史文本集。利用本公开的实施例的方法可以自动发现新的文本类别,并提高文本分类模型的分类准确度。

Text Classification Method and Device Based on Artificial Intelligence Processing

【技术实现步骤摘要】
基于人工智能处理的文本分类方法和装置
本公开内容属于信息处理
,尤其涉及一种基于人工智能处理的文本分类方法、装置以及一种相应的计算机可读存储介质。
技术介绍
人工智能(ArtificialIntelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。文本分类是指采用自然语言处理(NLP)技术对文本(样本)集按照一定的分类体系或标准进行自动分类标记。文本分类可以被广泛地应用于各种领域,诸如正负舆情监控、智能客服、分辨垃圾邮件、电影评论情感识别以及任何可分类的任务等。传统的文本分类方法包括两个过程:1、基于大量已标注类别的样本,利用机器学习方法来训练出模型;2、利用模型对未标注类别的样本进行分类。然而,这种方法是建立在类别固定的基础上,当出现新的样本不属于预先给定的任何一种类别时,模型的分类表现就会变差。
技术实现思路
本公开的实施例提供了一种基于人工智能处理的文本分类方法、装置以及一种相应的计算机可读存储介质,以至少部分地解决上述及其他潜在的问题。本公开的实施例的第一方面提出了一种基于人工智能处理的文本分类方法,本文档来自技高网...

【技术保护点】
1.一种基于人工智能处理的文本分类方法,其特征在于,包括以下步骤:A.使用文本分类模型对未标注类别的第一文本集中的每个文本进行分类,以确定所述第一文本集中的每个文本的置信度,其中,所述文本分类模型基于已标注类别的历史文本集来生成;B.基于所述第一文本集中的每个文本的置信度,从所述第一文本集中确定一个或多个文本,并对所述一个或多个文本标注类别;C.当标注后的所述一个或多个文本中包括与所述历史文本集中的类别不同的新类别的文本时,利用标注后的所述一个或多个文本来更新所述历史文本集;以及D.利用经更新的历史文本集来生成新的文本分类模型以用于对所述第一文本集中未标注的其他文本进行分类。

【技术特征摘要】
1.一种基于人工智能处理的文本分类方法,其特征在于,包括以下步骤:A.使用文本分类模型对未标注类别的第一文本集中的每个文本进行分类,以确定所述第一文本集中的每个文本的置信度,其中,所述文本分类模型基于已标注类别的历史文本集来生成;B.基于所述第一文本集中的每个文本的置信度,从所述第一文本集中确定一个或多个文本,并对所述一个或多个文本标注类别;C.当标注后的所述一个或多个文本中包括与所述历史文本集中的类别不同的新类别的文本时,利用标注后的所述一个或多个文本来更新所述历史文本集;以及D.利用经更新的历史文本集来生成新的文本分类模型以用于对所述第一文本集中未标注的其他文本进行分类。2.根据权利要求1所述的方法,其特征在于,所述历史文本集包括不同类别的多个子集,所述多个子集中的每个子集包括相同类别的文本。3.根据权利要求1所述的文本分类方法,其特征在于,步骤B中基于所述第一文本集中的每个文本的置信度,从所述第一文本集中确定一个或多个文本包括:生成与所述历史文本集中的类别相对应的置信度阈值;以及基于所述置信度阈值,从所述第二文本集中选择所述一个或多个文本。4.根据权利要求3所述的文本分类方法,其特征在于,进一步包括:基于所述每个文本的分类结果,调整所述置信度阈值。5.根据权利要求4所述的文本分类方法,其特征在于,基于所述每个文本的分类结果,调整所述置信度阈值包括:基于所述第一文本集中的每个文本的分类结果,计算不同类别的文本比例;以及基于所述不同类别的文本的比例,调整所述置信度阈值。6.根据权利要求1所述的文本分类方法,其特征在于,步骤C.当标注后的所述一个或多个文本中包括与所述历史文本集中的类别不同的新类别的文本时,利用标注后的所述一个或多个文本来更新所述历史文本集包括:将标注后的所述一个或多个文本添加到所述历史文本集。7.根据权利要求6所述的文本分类方法,其特征在于,将标注后的所述一个或多个文本添加到所述历史文本集包括:基于所述新类别的文本的数量,计算所述一个或多个文本中的每个文本与所述新类别的文本的相似度;基于所述相似度,确定所述一个或多个文本中的至少一个文本,并对所述至少一个文本重新标注类别;以及将包括重新标注的所述至少一个文本的所述一个或多个文本添加到所述历史文本集。8.一种基于人工智能处理的文本分类装置,其特征在于,包括:处理器;以及存储器,其用于存储指令,当所述指令被执行时使得所述处理器执行以下步骤:A.使用文...

【专利技术属性】
技术研发人员:李晖熊荣正张雨薇
申请(专利权)人:上海点融信息科技有限责任公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1