用于标注数据的方法和装置制造方法及图纸

技术编号：22594711 阅读：48 留言：0更新日期：2019-11-20 11:05

本公开的实施例公开了用于标注数据的方法和装置。该方法的一具体实施方式包括：响应于接收到待标注的数据，查询聚类不同且第一相似度最高的预定数目个数据；对预定数目个数据与待标注的数据进行第二相似度的计算；将预定数目个数据中与待标注的数据的第二相似度超过预定的聚类阈值的数据放入到数据集合；若数据集合不为空，且数据集合中不存在与待标注的数据的第二相似度大于预定的数据合并阈值的数据，则使用数据集合中的与待标注的数据的第二相似度最高的数据对应的聚类作为待标注的数据的聚类，将待标注的数据插入预定数据库中，其中，数据合并阈值大于聚类阈值。该实施方式能够提高云计算速度，提升标注工作的效率和效果。

Methods and devices for labeling data

Embodiments of the present disclosure disclose methods and devices for labeling data. An embodiment of the method includes: querying a predetermined number of data with different clustering and the highest first similarity in response to receiving the data to be labeled; calculating the second similarity between the predetermined number of data and the data to be labeled; putting the data whose second similarity between the predetermined number of data and the data to be labeled exceeds the predetermined clustering threshold into the data set If the data set is not empty, and there is no data in the data set whose second similarity with the data to be labeled is greater than the predetermined data merging threshold, then the clustering corresponding to the data with the highest second similarity in the data set is used as the clustering of the data to be labeled, and the data to be labeled is inserted into the predetermined database, where the data merging threshold The value is greater than the clustering threshold. The implementation mode can improve the speed of cloud computing and the efficiency and effect of annotation work.

全部详细技术资料下载

【技术实现步骤摘要】
用于标注数据的方法和装置
本公开的实施例涉及计算机
，具体涉及用于标注数据的方法和装置。
技术介绍
随着人工智能技术的迅猛发展，智能客服系统被大规模应用，逐渐代替传统的人工客服系统。为了提升智能客服系统的准确率和召回率，需要对智能客服系统产生的对话数据进行及时标注，当智能客服系统处理的请求越多时，产生的对话数据就越多，标注人员需要对大量相同或相似的问题进行重复的标注，这降低了标注人员的工作效率，也降低了标注操作的及时性。现有的标注系统，要么是对对话的明细数据进行标注，这种方式，没有对相同或相似的数据进行聚类处理，导致了数据重复标注的问题；要么是对标注数据进行离线聚类计算，由于计算时间久，导致数据无法及时标注。
技术实现思路
本公开的实施例提出了用于标注数据的方法和装置。第一方面，本公开的实施例提供了一种用于标注数据的方法，包括：响应于接收到待标注的数据，查询聚类不同且第一相似度最高的预定数目个数据；对预定数目个数据与待标注的数据进行第二相似度的计算；将预定数目个数据中与待标注的数据的...

【技术保护点】
1.一种用于标注数据的方法，包括：/n响应于接收到待标注的数据，查询聚类不同且第一相似度最高的预定数目个数据；/n对所述预定数目个数据与所述待标注的数据进行第二相似度的计算；/n将所述预定数目个数据中与所述待标注的数据的第二相似度超过预定的聚类阈值的数据放入到数据集合；/n若所述数据集合不为空，且所述数据集合中不存在与所述待标注的数据的第二相似度大于预定的数据合并阈值的数据，则使用所述数据集合中的与所述待标注的数据的第二相似度最高的数据对应的聚类作为所述待标注的数据的聚类，将所述待标注的数据插入预定数据库中，其中，所述数据合并阈值大于所述聚类阈值。/n

【技术特征摘要】
1.一种用于标注数据的方法，包括：
响应于接收到待标注的数据，查询聚类不同且第一相似度最高的预定数目个数据；
对所述预定数目个数据与所述待标注的数据进行第二相似度的计算；
将所述预定数目个数据中与所述待标注的数据的第二相似度超过预定的聚类阈值的数据放入到数据集合；
若所述数据集合不为空，且所述数据集合中不存在与所述待标注的数据的第二相似度大于预定的数据合并阈值的数据，则使用所述数据集合中的与所述待标注的数据的第二相似度最高的数据对应的聚类作为所述待标注的数据的聚类，将所述待标注的数据插入预定数据库中，其中，所述数据合并阈值大于所述聚类阈值。

2.根据权利要求1所述的方法，其中，所述方法还包括：
若所述数据集合为空，则为所述待标注的数据生成新的聚类，将所述待标注的数据插入预定数据库中。

3.根据权利要求1所述的方法，其中，所述方法还包括：
若所述数据集合中存在与所述待标注的数据的第二相似度大于预定的数据合并阈值的数据，则对所述数据集合中与所述待标注的数据最相似的数据进行计数加1。

4.根据权利要求1所述的方法，其中，在将所述预定数目个数据中与所述待标注的数据的第二相似度超过预定的聚类阈值的数据放入到数据集合之后，所述方法还包括：
计算所述数据集合中任意两个数据的第二相似度；
基于第二相似度合并所述数据集合中的数据。

5.根据权利要求4所述的方法，其中，所述基于第二相似度合并所述数据集合中的数据，包括：
将第二相似度大于预定的数据合并阈值的数据进行数据合并。

6.根据权利要求4所述的方法，其中，所述基于第二相似度合并所述数据集合中的数据，包括：
将第二相似度在预定的聚类阈值和预定的数据合并阈值之间的数据进行聚类的合并。

7.根据权利要求1-6之一所述的方法，其中，所述方法还包括：
按照聚类标识对应的数据总量降序展示数据。

8.一种用于标注数据的装置，包括：
查询单元，被配置成响应于接收到待标注的数据，查询聚类不同且第一相似度最高的预定数目个数据；
计算单元，被配置成对所述预定数目个数据与所述待标注的数据进行第二相似度的计算；
聚集单...

【专利技术属性】
技术研发人员：李晓东，罗雪峰，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人