文本数据标注方法、装置、电子设备和存储介质制造方法及图纸

技术编号:29254207 阅读:14 留言:0更新日期:2021-07-13 17:24
本公开提供一种文本数据标注方法、装置、电子设备和存储介质,通过首先用待标注文本数据集合中每个待标注文本数据对应的文本特征向量生成待分类特征向量集合;再基于待分类特征向量集合进行聚类,得到至少一个待分类特征向量子集合;最后,对于每个待分类特征向量子集合,执行标注操作,标注操作包括基于该待分类特征向量子集合中待分类特征向量对应的待标注文本数据进行主题提取,得到与该待分类特征向量子集合对应的文本主题;将该待分类特征向量子集合中待分类特征向量对应的待标注文本数据的主题类别标注为该待分类特征向量子集合对应的文本主题,降低了数据标注的人力、物力和财力。

【技术实现步骤摘要】
文本数据标注方法、装置、电子设备和存储介质
本公开的实施例涉及自然语言处理
,具体涉及文本数据标注方法、装置、电子设备和存储介质。
技术介绍
在自然语言处理(NLP,NaturalLanguageProcessing)中一个很重的分支是文本分类。而为了实现自动文本分类,通常需要基于大量文本数据和相应的人工标注的文本分类标记预先训练分类模型。人工对文本数据进行标注分类的过程,需要专业的业务人员对海量的数据按照指定规则进行人工标注,浪费大量的人力物力财力。
技术实现思路
本公开的实施例提出了文本数据标注方法、装置、电子设备和存储介质。第一方面,本公开的实施例提供了一种文本数据标注方法,该方法包括:用待标注文本数据集合中每个待标注文本数据对应的文本特征向量生成待分类特征向量集合;基于上述待分类特征向量集合进行聚类,得到至少一个待分类特征向量子集合;对于每个上述待分类特征向量子集合,执行以下标注操作:基于该待分类特征向量子集合中待分类特征向量对应的待标注文本数据进行主题提取,得到与该待分类特征向量子集合对应的文本主题;将该待分类特征向量子集合中待分类特征向量对应的待标注文本数据的主题类别标注为该待分类特征向量子集合对应的文本主题。在一些可选的实施方式中,上述基于上述待分类特征向量集合进行聚类,得到至少一个待分类特征向量子集合,包括:基于上述待分类特征向量集合进行密度聚类,得到密度聚类结果,上述密度聚类结果包括M个密度聚类簇和N个噪声聚类簇,每个密度聚类簇和噪声聚类簇均包括至少一个待分类特征向量,上述M和N为自然数;基于上述M个密度聚类簇中的待分类特征向量进行距离聚类,得到D个距离聚类簇,每个距离聚类簇包括至少一个待分类特征向量,上述D为自然数;将上述N个噪声聚类簇和上述D个距离聚类簇确定为上述至少一个待分类特征向量子集合。在一些可选的实施方式中,在基于上述M个密度聚类簇中的待分类特征向量进行距离聚类,得到D个距离聚类簇之后,上述方法还包括:将上述N个噪声聚类簇中的每个待分类特征向量标记为单一类别;对于上述D个距离聚类簇中的每个待分类特征向量,根据该待分类特征向量与各上述距离聚类簇的质心的距离,将该待分类特征向量标记为单一类别或非单一类别。在一些可选的实施方式中,上述基于该待分类特征向量子集合中待分类特征向量对应的待标注文本数据进行主题提取,得到与该待分类特征向量子集合对应的文本主题,包括:基于该待分类特征向量子集合中标记为单一类别的待分类特征向量对应的待标注文本数据进行主题提取,得到与该待分类特征向量子集合对应的文本主题。在一些可选的实施方式中,上述根据该待分类特征向量与各上述距离聚类簇的质心的距离,将该待分类特征向量标记为单一类别或非单一类别,包括:确定该待分类特征向量与各上述距离聚类簇的质心的距离的最大值和平均值;响应于确定所确定的最大值与平均值的差值大于预设距离差值阈值,将该待分类特征向量标记为单一类别;响应于确定所确定的最大值与平均值的差值不大于上述预设距离差值阈值,将该待分类文本向量标记为非单一类别。在一些可选的实施方式中,上述对于每个上述待分类特征向量子集合,将该待分类特征向量子集合中待分类特征向量对应的待标注文本数据的主题类别标注为该待分类特征向量子集合对应的文本主题,包括:对于每个上述噪声聚类簇,将该噪声聚类簇中每个待分类特征向量对应的待标注文本数据的主题类别标注为该噪声聚类簇对应的文本主题;对于每个上述距离聚类簇,将该距离聚类簇中被标记为单一类别的待分类特征向量对应的待标注文本数据的主题类别标注为该距离聚类簇对应的文本主题;对于每个上述距离聚类簇,将该距离聚类簇中被标记为非单一类别的待分类特征向量,执行以下多类别标注操作:根据该待分类特征向量与各上述距离聚类簇的质心的距离,从各上述距离聚类簇中选取至少两个与该待分类特征向量相关的相关距离聚类簇;将该待分类特征向量对应的待标注文本数据的主题类别标注为所确定的相关距离聚类簇对应的文本主题。在一些可选的实施方式中,上述基于该待分类特征向量子集合中待分类特征向量对应的待标注文本数据进行主题提取,得到与该待分类特征向量子集合对应的文本主题,包括:基于该待分类特征向量子集合中待分类特征向量对应的待标注文本数据进行关键词提取,得到至少一个主题关键词;按照预设业务主题规则,基于上述至少一个主题关键词和相应的词性生成与该待分类特征向量子集合对应的文本主题。第二方面,本公开的实施例提供了一种文本数据标注装置,该装置包括:向量生成单元,被配置成用待标注文本数据集合中每个待标注文本数据对应的文本特征向量生成待分类特征向量集合;聚类单元,被配置成基于上述待分类特征向量集合进行聚类,得到至少一个待分类特征向量子集合;标注单元,被配置成对于每个上述待分类特征向量子集合,执行以下标注操作:基于该待分类特征向量子集合中待分类特征向量对应的待标注文本数据进行主题提取,得到与该待分类特征向量子集合对应的文本主题;将该待分类特征向量子集合中待分类特征向量对应的待标注文本数据的主题类别标注为该待分类特征向量子集合对应的文本主题。在一些可选的实施方式中,上述聚类单元,包括:密度聚类模块,被配置成基于上述待分类特征向量集合进行密度聚类,得到密度聚类结果,上述密度聚类结果包括M个密度聚类簇和N个噪声聚类簇,每个密度聚类簇和噪声聚类簇均包括至少一个待分类特征向量,上述M和N为自然数;距离聚类模块,被配置成基于上述M个密度聚类簇中的待分类特征向量进行距离聚类,得到D个距离聚类簇,每个距离聚类簇包括至少一个待分类特征向量,上述D为自然数;确定模块,被配置成将上述N个噪声聚类簇和上述D个距离聚类簇确定为上述至少一个待分类特征向量子集合。在一些可选的实施方式中,上述装置还包括:类别标记单元,被配置成在基于上述M个密度聚类簇中的待分类特征向量进行距离聚类,得到D个距离聚类簇之后:将上述N个噪声聚类簇中的每个待分类特征向量标记为单一类别;以及对于上述D个距离聚类簇中的每个待分类特征向量,根据该待分类特征向量与各上述距离聚类簇的质心的距离,将该待分类特征向量标记为单一类别或非单一类别。在一些可选的实施方式中,上述基于该待分类特征向量子集合中待分类特征向量对应的待标注文本数据进行主题提取,得到与该待分类特征向量子集合对应的文本主题,包括:基于该待分类特征向量子集合中标记为单一类别的待分类特征向量对应的待标注文本数据进行主题提取,得到与该待分类特征向量子集合对应的文本主题。在一些可选的实施方式中,上述根据该待分类特征向量与各上述距离聚类簇的质心的距离,将该待分类特征向量标记为单一类别或非单一类别,包括:确定该待分类特征向量与各上述距离聚类簇的质心的距离的最大值和平均值;响应于确定所确定的最大值与平均值的差值大于预设距离差值阈值,将该待分类特征向量标记为单一类别;<本文档来自技高网...

【技术保护点】
1.一种文本数据标注方法,包括:/n用待标注文本数据集合中每个待标注文本数据对应的文本特征向量生成待分类特征向量集合;/n基于所述待分类特征向量集合进行聚类,得到至少一个待分类特征向量子集合;/n对于每个所述待分类特征向量子集合,执行以下标注操作:基于该待分类特征向量子集合中待分类特征向量对应的待标注文本数据进行主题提取,得到与该待分类特征向量子集合对应的文本主题;将该待分类特征向量子集合中待分类特征向量对应的待标注文本数据的主题类别标注为该待分类特征向量子集合对应的文本主题。/n

【技术特征摘要】
1.一种文本数据标注方法,包括:
用待标注文本数据集合中每个待标注文本数据对应的文本特征向量生成待分类特征向量集合;
基于所述待分类特征向量集合进行聚类,得到至少一个待分类特征向量子集合;
对于每个所述待分类特征向量子集合,执行以下标注操作:基于该待分类特征向量子集合中待分类特征向量对应的待标注文本数据进行主题提取,得到与该待分类特征向量子集合对应的文本主题;将该待分类特征向量子集合中待分类特征向量对应的待标注文本数据的主题类别标注为该待分类特征向量子集合对应的文本主题。


2.根据权利要求1所述的方法,其中,所述基于所述待分类特征向量集合进行聚类,得到至少一个待分类特征向量子集合,包括:
基于所述待分类特征向量集合进行密度聚类,得到密度聚类结果,所述密度聚类结果包括M个密度聚类簇和N个噪声聚类簇,每个密度聚类簇和噪声聚类簇均包括至少一个待分类特征向量,所述M和N为自然数;
基于所述M个密度聚类簇中的待分类特征向量进行距离聚类,得到D个距离聚类簇,每个距离聚类簇包括至少一个待分类特征向量,所述D为自然数;
将所述N个噪声聚类簇和所述D个距离聚类簇确定为所述至少一个待分类特征向量子集合。


3.根据权利要求2所述的方法,其中,在基于所述M个密度聚类簇中的待分类特征向量进行距离聚类,得到D个距离聚类簇之后,所述方法还包括:
将所述N个噪声聚类簇中的每个待分类特征向量标记为单一类别;
对于所述D个距离聚类簇中的每个待分类特征向量,根据该待分类特征向量与各所述距离聚类簇的质心的距离,将该待分类特征向量标记为单一类别或非单一类别。


4.根据权利要求3所述的方法,其中,所述基于该待分类特征向量子集合中待分类特征向量对应的待标注文本数据进行主题提取,得到与该待分类特征向量子集合对应的文本主题,包括:
基于该待分类特征向量子集合中标记为单一类别的待分类特征向量对应的待标注文本数据进行主题提取,得到与该待分类特征向量子集合对应的文本主题。


5.根据权利要求3或4所述的方法,其中,所述根据该待分类特征向量与各所述距离聚类簇的质心的距离,将该待分类特征向量标记为单一类别或非单一类别,包括:
确定该待分类特征向量与各所述距离聚类簇的质心的距离的最大值和平均值;
响应于确定所确定的最大值与平均值的差值大于预设距离差值阈值,将该待分类特征向量标记为单一类别;
响应于确定所确定的最大值与平均值的差值不大于所述预设距离差值阈值,将该待分类文本向量标记为...

【专利技术属性】
技术研发人员:吴雨霏
申请(专利权)人:中信百信银行股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1