【技术实现步骤摘要】
一种文本标注方法及软件产品
[0001]本申请涉及数据标注领域,特别涉及一种文本标注方法及软件产品。
技术介绍
[0002]目前,对于使用算法模型进行文本分类的任务,一般都需要大量的训练数据进行训练,而训练数据由一段文本及其标签组成,给文本打上标签的过程称为数据标注。
[0003]现有技术的数据标注主要由人工完成,耗时费力,而且人工大量重复工作的情况下,标注出错的概率也比较高。
[0004]因此,现有技术仍有待改进。
技术实现思路
[0005]鉴于上述现有技术的不足之处,本申请的目的在于提供一种文本标注方法及软件产品,旨在提高数据标注的效率。
[0006]为了达到上述目的,本申请采取了以下技术方案:
[0007]第一方面,本申请提供了一种文本标注方法,应用于终端设备,所述方法包括:
[0008]获取多个待标注文本,将所述多个待标注文本转换为多个第一句嵌入,得到第一句嵌入组,其中,所述第一句嵌入为所述待标注文本的K维向量,K为正整数;
[0009]获取多个分类标签 ...
【技术保护点】
【技术特征摘要】
1.一种文本标注方法,其特征在于,应用于终端设备,所述方法包括:获取多个待标注文本,将所述多个待标注文本转换为多个第一句嵌入,得到第一句嵌入组,其中,所述第一句嵌入为所述待标注文本的K维向量,K为正整数;获取多个分类标签,一一对应获取每个所述分类标签的多个中心文本,所述中心文本为所述分类标签的预设标注文本;从预设句嵌入组中一一对应搜索出所述多个中心文本的多个第二句嵌入,得到多个第二句嵌入组,其中,所述多个第二句嵌入组与所述多个分类标签一一对应,所述第二句嵌入为所述中心文本的K维向量,K为正整数;分别计算出每个所述第二句嵌入组中多个第二句嵌入之间的第一平均向量,得到第一平均向量组,所述第一平均向量组包括多个第一平均向量,所述多个第一平均向量与所述多个第二句嵌入组一一对应;计算所述每个第一句嵌入与所述多个第一平均向量之间的向量距离,得到多个第一向量距离组,所述多个第一向量距离组与所述多个第一句嵌入一一对应,每个第一向量距离组包括对应的第一句嵌入与所述多个第一平均向量之间的多个向量距离;根据所述多个第一向量距离组将所述多个待标注文本重新排列组合到第一分组;将所述第一分组中的所述多个待标注文本与所述分类标签按一一对应关系进行关联。2.根据权利要求1所述的方法,其特征在于,所述将所述待标注文本组中的多个待标注文本转换为多个第一句嵌入,得到第一句嵌入组,包括:将所述待标注文本组输入到预训练语言模型中,通过所述预训练语言模型将所述待标注文本组中的每个待标注文本转换为第一句嵌入,得到第一句嵌入组。3.根据权利要求2所述的方法,其特征在于,所述将所述分类标签组中的多个分类标签与多个中心文本进行关联,包括:为所述多个分类标签中的每个分类标签均设置多个中心文本;将每个所述分类标签与对应的多个中心文本进行关联。4.根据权利要求1
‑
3任一项所述的方法,其特征在于,所述将所述第一分组与所述分类标签按一一对应关系进行关联,包括:将所述第一分组与所...
【专利技术属性】
技术研发人员:刘镇熙,
申请(专利权)人:深圳思为科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。