【技术实现步骤摘要】
文本数据标注方法、装置、电子设备和存储介质
本公开的实施例涉及自然语言处理
,具体涉及文本数据标注方法、装置、电子设备和存储介质。
技术介绍
在自然语言处理(NLP,NaturalLanguageProcessing)中一个很重的分支是文本分类。而为了实现自动文本分类,通常需要基于大量文本数据和相应的人工标注的文本分类标记预先训练分类模型。人工对文本数据进行标注分类的过程,需要专业的业务人员对海量的数据按照指定规则进行人工标注,浪费大量的人力物力财力。
技术实现思路
本公开的实施例提出了文本数据标注方法、装置、电子设备和存储介质。第一方面,本公开的实施例提供了一种文本数据标注方法,该方法包括:用待标注文本数据集合中每个待标注文本数据对应的文本特征向量生成待分类特征向量集合;基于上述待分类特征向量集合进行聚类,得到至少一个待分类特征向量子集合;对于每个上述待分类特征向量子集合,执行以下标注操作:基于该待分类特征向量子集合中待分类特征向量对应的待标注文本数据进行主题提取,得到与该待分类特征向量子集合对应的文本主题;将该待分类特征向量子集合中待分类特征向量对应的待标注文本数据的主题类别标注为该待分类特征向量子集合对应的文本主题。在一些可选的实施方式中,上述基于上述待分类特征向量集合进行聚类,得到至少一个待分类特征向量子集合,包括:基于上述待分类特征向量集合进行密度聚类,得到密度聚类结果,上述密度聚类结果包括M个密度聚类簇和N个噪声聚类簇,每个密度聚类簇和噪声聚类簇均包括至少 ...
【技术保护点】
1.一种文本数据标注方法,包括:/n用待标注文本数据集合中每个待标注文本数据对应的文本特征向量生成待分类特征向量集合;/n基于所述待分类特征向量集合进行聚类,得到至少一个待分类特征向量子集合;/n对于每个所述待分类特征向量子集合,执行以下标注操作:基于该待分类特征向量子集合中待分类特征向量对应的待标注文本数据进行主题提取,得到与该待分类特征向量子集合对应的文本主题;将该待分类特征向量子集合中待分类特征向量对应的待标注文本数据的主题类别标注为该待分类特征向量子集合对应的文本主题。/n
【技术特征摘要】
1.一种文本数据标注方法,包括:
用待标注文本数据集合中每个待标注文本数据对应的文本特征向量生成待分类特征向量集合;
基于所述待分类特征向量集合进行聚类,得到至少一个待分类特征向量子集合;
对于每个所述待分类特征向量子集合,执行以下标注操作:基于该待分类特征向量子集合中待分类特征向量对应的待标注文本数据进行主题提取,得到与该待分类特征向量子集合对应的文本主题;将该待分类特征向量子集合中待分类特征向量对应的待标注文本数据的主题类别标注为该待分类特征向量子集合对应的文本主题。
2.根据权利要求1所述的方法,其中,所述基于所述待分类特征向量集合进行聚类,得到至少一个待分类特征向量子集合,包括:
基于所述待分类特征向量集合进行密度聚类,得到密度聚类结果,所述密度聚类结果包括M个密度聚类簇和N个噪声聚类簇,每个密度聚类簇和噪声聚类簇均包括至少一个待分类特征向量,所述M和N为自然数;
基于所述M个密度聚类簇中的待分类特征向量进行距离聚类,得到D个距离聚类簇,每个距离聚类簇包括至少一个待分类特征向量,所述D为自然数;
将所述N个噪声聚类簇和所述D个距离聚类簇确定为所述至少一个待分类特征向量子集合。
3.根据权利要求2所述的方法,其中,在基于所述M个密度聚类簇中的待分类特征向量进行距离聚类,得到D个距离聚类簇之后,所述方法还包括:
将所述N个噪声聚类簇中的每个待分类特征向量标记为单一类别;
对于所述D个距离聚类簇中的每个待分类特征向量,根据该待分类特征向量与各所述距离聚类簇的质心的距离,将该待分类特征向量标记为单一类别或非单一类别。
4.根据权利要求3所述的方法,其中,所述基于该待分类特征向量子集合中待分类特征向量对应的待标注文本数据进行主题提取,得到与该待分类特征向量子集合对应的文本主题,包括:
基于该待分类特征向量子集合中标记为单一类别的待分类特征向量对应的待标注文本数据进行主题提取,得到与该待分类特征向量子集合对应的文本主题。
5.根据权利要求3或4所述的方法,其中,所述根据该待分类特征向量与各所述距离聚类簇的质心的距离,将该待分类特征向量标记为单一类别或非单一类别,包括:
确定该待分类特征向量与各所述距离聚类簇的质心的距离的最大值和平均值;
响应于确定所确定的最大值与平均值的差值大于预设距离差值阈值,将该待分类特征向量标记为单一类别;
响应于确定所确定的最大值与平均值的差值不大于所述预设距离差值阈值,将该待分类文本向量标记为...
【专利技术属性】
技术研发人员:吴雨霏,
申请(专利权)人:中信百信银行股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。