【技术实现步骤摘要】
标签准确度的计算方法和装置
[0001]本专利技术涉及数据匹配领域,具体而言,涉及一种标签准确度的计算方法和装置。
技术介绍
[0002]题库是互联网+教育场景必不可少的资源,而在构建题库的过程中必不可少会出现一部分题目和关联的章节或知识点标签关系错误的数据。在实际教育平板的业务中,教师根据章节或者知识点筛选使用的题目,但存在题目和标签不匹配的问题,有些题目会甚至存在超纲风险,从而降低了教师使用题库的体验。另外,学生在使用个性化做题功能时,如果题目和标签关系存在错误,易降低为学生推送的题目精准性,降低学生对知识点或章节巩固练习的效果。
[0003]目前,可通过人工检查的方式校验题目和章节或者知识点的正确性,但题库的数据量通常达到百万级甚至千万级,而题目和章节及知识点的关系数据则更多,如果单纯的依靠人工来校准题目和章节及知识点的关联数据,会耗费大量的人力成本。另外,在实际题库构建过程中,题目和章节或知识点标签关系的错误率不高,因此对于每一条题目,从多数题目标签中找到错误的时间消耗也较高。
[0004]针对上述的 ...
【技术保护点】
【技术特征摘要】
1.一种标签准确度的计算方法,其特征在于,包括:获取待处理文本以及与所述待处理文本对应的第一标签;确定与所述待处理文本对应的相似文本以及所述相似文本对应的第二标签;根据所述待处理文本和所述相似文本确定第一加权距离;根据所述第一标签与所述第二标签确定第二加权距离;根据所述第一加权距离和所述第二加权距离确定所述第一标签的准确度,其中,所述准确度表征了所述第一标签与所述第二标签之间的相似度。2.根据权利要求1所述的方法,其特征在于,确定与所述待处理文本对应的相似文本以及所述相似文本对应的第二标签,包括:获取所述待处理文本的第一文本向量和所述第一标签的第一标签向量;获取预设数据库中所存储的多个预设文本对应的预设特征向量;根据所述预设特征向量与所述第一文本向量确定每个预设文本与所述待处理文本之间的第一相似度;按照所述第一相似度的大小顺序从所述预设数据库中获取第一数量的第一目标预设文本,并确定与所述第一目标预设文本对应的第一预设标签;确定所述第一目标预设文本为所述相似文本,并确定所述第一预设标签为所述第二标签。3.根据权利要求2所述的方法,其特征在于,获取所述待处理文本的第一文本向量和所述第一标签的第一标签向量,包括:去除所述待处理文本和所述第一标签中的无效信息,得到处理后的待处理文本和处理后的第一标签;基于预设词向量模型对所述处理后的待处理文本进行特征提取,得到所述第一文本向量;基于所述预设词向量模型对所述处理后的第一标签进行特征提取,得到所述第一标签向量。4.根据权利要求2所述的方法,其特征在于,根据所述待处理文本和所述相似文本确定第一加权距离,包括:计算所述第一目标预设文本与所述待处理文本之间的第二相似度;从所述第一数量的第一目标预设文本获取所述第二相似度大于预设相似度的第二目标预设文本,并确定所述第二目标预设文本对应的第二文本向量;从所述预设数据库中获取与所述第二目标预设文本对应的第二预设标签,并确定所述第二预设标签对应的第二标签向量;对所述第一文本向量和所述第一标签向量进行第一集联操作,得到第一集联特征向量,其中,所述第一集联操作包括:按照第一预设顺序对所述第一文本向量和所述第一标签向量进行拼接操作,所述第一集联特征向量的维数为所述第一文本向量的维数与所述第一标签向量的维数之和;对所述第二文本向量和所述第二标签向量进行第二集联操作,得到第二集联特征向量,其中,所述第二集联操作包括:按照第二预设顺序对所述第二文本向量和所述第二标签向量进行拼接操作,所述第二集联特征向量的维数为所述第二文本向量的维数与所述第二
标签向量的维数之和;根据所述第一集联特征向量以及所述...
【专利技术属性】
技术研发人员:李智,
申请(专利权)人:广州视源电子科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。