确定文本类别的方法及装置制造方法及图纸

技术编号:22295504 阅读:21 留言:0更新日期:2019-10-15 04:39
本说明书实施例提供了一种确定文本类别的方法及装置,该方法包括:获取目标文本集;其中,该目标文本集中包括多个未进行类别标注的目标文本和多个已进行类别标注的目标文本;确定上述目标文本集中的每个字词所对应的目标文本子集;其中,一个字词对应一个目标文本子集,且目标文本子集中的每个目标文本均包含字词;针对每个目标文本子集,计算目标文本子集中任意两个目标文本之间的文本相似度值;基于各个文本相似度值和多个已进行类别标注的目标文本,按照设定的文本分类算法,确定目标文本集中的各个目标文本所对应的类别。

Method and Device for Determining Text Categories

【技术实现步骤摘要】
确定文本类别的方法及装置
本申请涉及数据处理
,尤其涉及一种确定文本类别的方法及装置。
技术介绍
随着信息技术的快速发展,越来越多的领域开始使用机器胜任一些通常需要人类智能才能完成的复杂工作,即越来越多的领域开始应用人工智能。各领域为了实现人工智能的应用,一般需要进行相应模型的训练,在进行模型训练时需要使用大量的样本数据,并且还需要根据实际需求对样本数据进行标注,例如,若是样本数据为文本,所训练的模型为分类模型,则需要标注文本的类别等等。但是,一般在训练模型时,则需要对大量的样本进行标注,因此,有必要提出一种技术方案,以实现快速、准确的对样本进行标注。
技术实现思路
本说明书实施例的目的是提供一种确定文本类别的方法及装置,在确定文本类别时,按照各个目标文本所包含的字词将所获取的目标文本集划分为多个目标文本子集,且每个目标文本子集所包含的目标文本具有至少一个共同的字词,这样每个目标文本子集中所包含的目标文本则为存在关联关系的目标文本,不同目标文本子集之间的目标文本则认为不存在关联关系,因此,在进行目标文本之间的文本相似度值的计算时,只需要计算各个目标文本子集内的目标文本之间的文本相似度值即可,对于不同目标文本子集之间的目标文本则不必再进行文本相似度值的计算,从而大大减少了文本相似度值的计算工作量,缩短了计算文本相似度值的耗时,进而缩短了确定文本类别的耗时,提高了确定文本类别的效率;并且,本说明书实施例所提供的方法可以通过机器自动实现,与通过人工对文本进行分类相比,准确性较高。为解决上述技术问题,本说明书实施例是这样实现的:本说明书实施例提供了一种确定文本类别的方法,包括:获取目标文本集;其中,所述目标文本集包括多个未进行类别标注的目标文本和多个已进行类别标注的目标文本;确定所述目标文本集中的每个字词所对应的目标文本子集;其中,一个字词对应一个目标文本子集,且所述目标文本子集中的每个目标文本均包含所述字词;针对每个所述目标文本子集,计算所述目标文本子集中任意两个目标文本之间的文本相似度值;基于各个所述文本相似度值和所述多个已进行类别标注的目标文本,按照设定的文本分类算法,确定所述目标文本集中的各个目标文本所对应的类别。本说明书实施例还提供了一种确定文本类别的装置,包括:获取模块,用于获取目标文本集;其中,所述目标文本集包括多个未进行类别标注的目标文本和多个已进行类别标注的目标文本;第一确定模块,用于确定所述目标文本集中的每个字词所对应的目标文本子集;其中,一个字词对应一个目标文本子集,且所述目标文本子集中的每个目标文本均包含所述字词;计算模块,用于针对每个所述目标文本子集,计算所述目标文本子集中任意两个目标文本之间的文本相似度值;第二确定模块,用于基于各个所述文本相似度值和所述多个已进行类别标注的目标文本,按照设定的文本分类算法,确定所述目标文本集中的各个目标文本所对应的类别。本说明书实施例还提供了一种确定文本类别的设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:获取目标文本集;其中,所述目标文本集包括多个未进行类别标注的目标文本和多个已进行类别标注的目标文本;确定所述目标文本集中的每个字词所对应的目标文本子集;其中,一个字词对应一个目标文本子集,且所述目标文本子集中的每个目标文本均包含所述字词;针对每个所述目标文本子集,计算所述目标文本子集中任意两个目标文本之间的文本相似度值;基于各个所述文本相似度值和所述多个已进行类别标注的目标文本,按照设定的文本分类算法,确定所述目标文本集中的各个目标文本所对应的类别。本说明书实施例还提供了一种存储介质,用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:获取目标文本集;其中,所述目标文本集包括多个未进行类别标注的目标文本和多个已进行类别标注的目标文本;确定所述目标文本集中的每个字词所对应的目标文本子集;其中,一个字词对应一个目标文本子集,且所述目标文本子集中的每个目标文本均包含所述字词;针对每个所述目标文本子集,计算所述目标文本子集中任意两个目标文本之间的文本相似度值;基于各个所述文本相似度值和所述多个已进行类别标注的目标文本,按照设定的文本分类算法,确定所述目标文本集中的各个目标文本所对应的类别。本实施例中的技术方案,在确定文本类别时,按照各个目标文本所包含的字词将所获取的目标文本集划分为多个目标文本子集,且每个目标文本子集所包含的目标文本具有至少一个共同的字词,这样每个目标文本子集中所包含的目标文本则为存在关联关系的目标文本,不同目标文本子集之间的目标文本则认为不存在关联关系,因此,在进行目标文本之间的文本相似度值的计算时,只需要计算各个目标文本子集内的目标文本之间的文本相似度值即可,对于不同目标文本子集之间的目标文本则不必再进行文本相似度值的计算,从而大大减少了文本相似度值的计算工作量,缩短了计算文本相似度值的耗时,进而缩短了确定文本类别的耗时,提高了确定文本类别的效率;并且,本说明书实施例所提供的方法可以通过机器自动实现,与通过人工对文本进行分类相比,准确性较高。附图说明为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本说明书实施例提供的确定文本类别的方法的方法流程图之一;图2为本说明书实施例提供的确定文本类别的方法中,目标文本1所对应的相似目标文本的示意图;图3为本说明书实施例提供的确定文本类别的方法的方法流程图之二;图4为本说明书实施例提供的确定文本类别的方法的方法流程图之三;图5为本说明书实施例提供的确定文本类别的方法的方法流程图之四;图6为本说明书实施例提供的确定文本类别的方法的方法流程图之五;图7为本说明书实施例提供的确定文本类别的装置的模块组成示意图;图8为本说明书实施例提供的确定文本类别的设备的结构示意图。具体实施方式为了使本
的人员更好地理解本申请中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。本说明书实施例的思想在于,依据目标文本集中各个目标文本所包含的字词,将包含有至少一个相同字词的目标文本划分到同一个目标文本子集中,在计算各个目标文本之间的文本相似度值时,只需要计算各目标文本子集内的目标文本之间的文本相似度值即可,避免了计算毫无关联的目标文本之间的文本相似度值,减少了计算文本相似度值的工作量,从而缩短了确定文本类别的耗时,提高了确定文本类别的效率。基于此,本说明书实施例提供了一种确定文本类别的方法、装置、设备及存储介质,下述将一一详细进行介绍。本说明书实施例所提供的方法的执行主体为一种确定文本类别的装置,该装置可以为安装在计算机、电脑等智能设备上的装置,也可以为安装在服务器上的装置。图1为本说明书实施例本文档来自技高网
...

【技术保护点】
1.一种确定文本类别的方法,所述方法包括:获取目标文本集;其中,所述目标文本集包括多个未进行类别标注的目标文本和多个已进行类别标注的目标文本;确定所述目标文本集中的每个字词所对应的目标文本子集;其中,一个字词对应一个目标文本子集,且所述目标文本子集中的每个目标文本均包含所述字词;针对每个所述目标文本子集,计算所述目标文本子集中任意两个目标文本之间的文本相似度值;基于各个所述文本相似度值和所述多个已进行类别标注的目标文本,按照设定的文本分类算法,确定所述目标文本集中的各个目标文本所对应的类别。

【技术特征摘要】
1.一种确定文本类别的方法,所述方法包括:获取目标文本集;其中,所述目标文本集包括多个未进行类别标注的目标文本和多个已进行类别标注的目标文本;确定所述目标文本集中的每个字词所对应的目标文本子集;其中,一个字词对应一个目标文本子集,且所述目标文本子集中的每个目标文本均包含所述字词;针对每个所述目标文本子集,计算所述目标文本子集中任意两个目标文本之间的文本相似度值;基于各个所述文本相似度值和所述多个已进行类别标注的目标文本,按照设定的文本分类算法,确定所述目标文本集中的各个目标文本所对应的类别。2.如权利要求1所述的方法,所述基于各个所述文本相似度值和所述多个已进行类别标注的目标文本,按照设定的文本分类算法,确定所述目标文本集中的各个目标文本所对应的类别,包括:基于各个所述文本相似度值和所述多个已进行类别标注的目标文本,按照设定的文本分类算法,确定所述多个未进行类别标注的目标文本中的每个所述目标文本所对应的类别;以及,基于各个所述文本相似度值和所述多个已进行类别标注的目标文本,按照设定的文本分类算法,更新所述多个已进行类别标注的目标文本中的每个所述目标文本所对应的类别。3.如权利要求1或2所述的方法,所述基于各个所述文本相似度值和所述多个已进行类别标注的目标文本,按照设定的文本分类算法,确定所述目标文本集中的各个目标文本所对应的类别,包括:针对所述目标文本集中的每个所述目标文本,基于各个所述文本相似度值,确定所述目标文本所对应的至少一个相似目标文本;根据所述目标文本所对应的所述相似目标文本中已进行类别标注的相似目标文本,使用k最近邻KNN分类算法,确定所述目标文本所对应的类别或者对所述目标文本当前所对应的类别进行更新。4.如权利要求3所述的方法,所述针对所述目标文本集中的每个所述目标文本,基于各个所述文本相似度值,确定所述目标文本所对应的至少一个相似目标文本,包括:针对所述目标文本集中的每个所述目标文本,从所述目标文本与其他目标文本的所述文本相似度值中筛选满足设定条件的文本相似度值;其中,所述设定条件包括文本相似度值大于或等于设定阈值,或者,按照所数值从大到小排在前N;其中,N为正整数;基于筛选后得到的文本相似度值,确定所述目标文本所对应的相似目标文本。5.如权利要求1所述的方法,所述针对每个所述目标文本子集,计算所述目标文本子集中任意两个目标文本之间的文本相似度值之前,所述方法还包括:删除与场景无关的所述字词所对应的目标文本子集;和/或,将包含的目标文本的数量大于或等于设定数量的所述目标文本子集拆分成至少两个目标文本子集;其中,所拆分成的每个目标文本子集中的目标文本均包含除拆分前的所述目标文本子集所对应的字词之外的至少一个其他共同字词。6.如权利要求1所述的方法,所述确定所述目标文本集中的每个字词所对应的目标文本子集之前,所述方法还包括:对所述目标文本集中的各个目标文本进行预处理;其中,所述预处理包括以下处理中的至少一种:删除所述目标文本中的停用词和无意义字词、删除所述目标文本中的附加描述信息、删除所述目标文本中的特殊字符、统一所述目标文本中的字符编码。7.一种确定文本类别的装置,包括:获取模块,用于获取目标文本集;其中,所述目标文本集包括多个未进行类别标注的目标文本和多个已进行类别标注的目标文本;第一确定模块,用于确定所述目标文本集中的每个字词所对应的目标文本子集;其中,一个字词对应一个目标文本子集,且所述目标文本子集中的每个目标文本均包含所述字词;计算模块,用于针对每个所述目标文本子集,计算所述目标文本子集中任意两个目标文本之间的文本相似度值;第二确定模块...

【专利技术属性】
技术研发人员:张洪
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1