文本标记方法、装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号:33634057 阅读:12 留言:0更新日期:2022-06-02 01:43
本申请实施例提供了一种文本标记方法、装置、电子设备及计算机可读存储介质,涉及计算机技术领域。该方法包括:获取待标记文本,然后将待标记文本输入至标签预测模型,得到至少一个第一标签和第一标签的置信度值,进而当第一标签的置信度值低于预设阈值时,显示标签选择界面,响应于触发针对第一标签的标签选择指令,将标签选择指令对应的第一标签作为目标标签,并采用目标标签对待标记文本进行标记。本申请实施例实现了通过预设的标签预测模型确定待标记文本可能的第一标签,缩小标签的选择范围,从而降低人工工作量并提升标记的效率和准确率。准确率。准确率。

【技术实现步骤摘要】
文本标记方法、装置、电子设备及计算机可读存储介质


[0001]本申请涉及计算机
,具体而言,本申请涉及一种文本标记方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]随着互联网技术的发展,越来越多的人热衷于在公开社交平台上发布文本内容,以此来分享自己的生活爱好。目前,公开社交平台上的文本内容种类繁多,而不同的用户对不同种类的文本内容的喜好程度也不尽相同,因此为文本内容添加标签显得格外重要。一方面,可以知道用户发布文本内容的偏好,使得用户发布的文本内容更容易被发现,更有可能被大众分享;另一方面,可以通过对标签进行分析,来对用户做出更好的个性化推荐,满足用户浏览文本内容的需求。
[0003]目前人工为文本内容添加标签的方式存在标记速度慢的问题,针对当日发布的文本内容很难进行全部标记,并且耗费大量人力,除此之外,人工为文本内容添加的标签不够客观,容易受到标记人员自身对文本内容理解的影响,准确率较低。

技术实现思路

[0004]本申请实施例的目的旨在能解决目前为公开社交平台上发布的文本内容添加标签的方式效率和准确率较低的问题。
[0005]根据本申请实施例的一个方面,提供了一种文本标记方法,该方法包括:
[0006]获取待标记文本,将待标记文本输入至标签预测模型,得到至少一个第一标签和第一标签的置信度值;其中,标签预测模型为根据深度双向语言表征模型BERT训练得到的;标签预测模型用于计算针对待标记文本的多个候选标签的置信度值,并根据置信度值的大小排列顺序确定第一标签
[0007]当第一标签的置信度值低于预设阈值时,显示标签选择界面;标签选择界面包括针对第一标签的选择控件;
[0008]响应于触发针对第一标签的标签选择指令,将标签选择指令对应的第一标签作为目标标签,并采用目标标签对待标记文本进行标记。
[0009]可选地,方法还包括:
[0010]当第一标签的置信度值不低于预设阈值时,将第一标签作为目标标签,并采用目标标签对待标记文本进行标记。
[0011]可选地,获取待标记文本,包括:
[0012]按照待标记文本的关注度顺序从预设的文本数据库中获取待标记文本;其中,文本数据库为根据待标记文本在预设时间段内的关注度进行排序得到的。
[0013]可选地,将待标记文本输入至标签预测模型,得到至少一个第一标签和第一标签的置信度值,包括:
[0014]将待标记文本输入至标签预测模型,提取待标记文本的语义信息;
[0015]根据语义信息计算多个候选标签的置信度值,并按照置信度值的大小排列顺序,确定其中至少一个以及至多三个候选标签作为第一标签;置信度值用于表示待标记文本与候选标签之间的关联性程度。
[0016]可选地,方法还包括:
[0017]将标记后的文本进行去重处理后,作为样本文本存储至文本数据库。
[0018]可选地,标签预测模型的训练步骤,包括:
[0019]获取训练样本集;训练样本集包括从文本数据库中获取的多个样本文本、各个样本文本分别对应的至少一个样本标签以及各个样本标签的样本置信度值;
[0020]将训练样本集输入至初始预测模型,得到初始预测模型输出的与各个样本文本分别对应的至少一个初始标签和各个初始标签的置信度值;其中,初始预测模型包括BCEWithLogitsLoss损失函数;
[0021]根据初始标签、样本标签、初始标签的置信度值以及样本标签的样本置信度值,确定BCEWithLogitsLoss损失函数的损失值,基于损失值对初始预测模型进行迭代训练,直至损失值满足训练结束条件时,停止训练并将训练结束时的初始预测模型确定为标签预测模型。
[0022]根据本申请实施例的另一个方面,提供了一种文本标记装置,该装置包括:
[0023]输入模块,用于获取待标记文本,将待标记文本输入至标签预测模型,得到至少一个第一标签和第一标签的置信度值;其中,标签预测模型为根据深度双向语言表征模型BERT训练得到的;标签预测模型用于计算针对待标记文本的多个候选标签的置信度值,并根据置信度值的大小排列顺序确定第一标签;
[0024]显示模块,用于当第一标签的置信度值低于预设阈值时,显示标签选择界面;标签选择界面包括针对第一标签的选择控件;
[0025]第一标记模块,用于响应于触发针对第一标签的标签选择指令,将标签选择指令对应的第一标签作为目标标签,并采用目标标签对待标记文本进行标记。
[0026]可选地,装置还包括:
[0027]第二标记模块,用于当第一标签的置信度值不低于预设阈值时,将第一标签作为目标标签,并采用目标标签对待标记文本进行标记。
[0028]可选地,输入模块包括:
[0029]按照待标记文本的关注度顺序从预设的文本数据库中获取待标记文本;其中,文本数据库为根据待标记文本在预设时间段内的关注度进行排序得到的。
[0030]可选地,输入模块还包括:
[0031]将待标记文本输入至标签预测模型,提取待标记文本的语义信息;
[0032]根据语义信息计算多个候选标签的置信度值,并按照置信度值的大小排列顺序,确定其中至少一个以及至多三个候选标签作为第一标签;置信度值用于表示待标记文本与候选标签之间的关联性程度。
[0033]可选地,装置还包括:
[0034]存储模块,用于将标记后的文本进行去重处理后,作为样本文本存储至文本数据库。
[0035]可选地,装置还包括:
[0036]获取训练样本集;训练样本集包括从文本数据库中获取的多个样本文本、各个样本文本分别对应的至少一个样本标签以及各个样本标签的样本置信度值;
[0037]将训练样本集输入至初始预测模型,得到初始预测模型输出的与各个样本文本分别对应的至少一个初始标签和各个初始标签的置信度值;其中,初始预测模型包括BCEWithLogitsLoss损失函数;
[0038]根据初始标签、样本标签、初始标签的置信度值以及样本标签的样本置信度值,确定BCEWithLogitsLoss损失函数的损失值,基于损失值对初始预测模型进行迭代训练,直至损失值满足训练结束条件时,停止训练并将训练结束时的初始预测模型确定为标签预测模型。
[0039]根据本申请实施例的另一个方面,提供了一种电子设备,该电子设备包括存储器、处理器及存储在存储器上的计算机程序,处理器执行计算机程序以实现上述任一个方面的文本标记方法的步骤。
[0040]根据本申请实施例的再一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一个方面的文本标记方法的步骤。
[0041]本申请实施例提供的技术方案带来的有益效果是:
[0042]将待标记文本输入至标签预测模型,确定待标记文本可能的第一标签,使得标记人员可以在第一标签的基础上选择对待标记文本进行标记的目标标签,缩小标签的选择范围,不仅降低了本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本标记方法,其特征在于,包括:获取待标记文本,将所述待标记文本输入至标签预测模型,得到至少一个第一标签和所述第一标签的置信度值;其中,所述标签预测模型为根据深度双向语言表征模型BERT训练得到的;所述标签预测模型用于计算针对所述待标记文本的多个候选标签的置信度值,并根据所述置信度值的大小排列顺序确定所述第一标签;当所述第一标签的置信度值低于预设阈值时,显示标签选择界面;所述标签选择界面包括针对所述第一标签的选择控件;响应于触发针对所述第一标签的标签选择指令,将所述标签选择指令对应的第一标签作为目标标签,并采用所述目标标签对所述待标记文本进行标记。2.根据权利要求1所述的文本标记方法,其特征在于,所述方法还包括:当所述第一标签的置信度值不低于预设阈值时,将所述第一标签作为目标标签,并采用所述目标标签对所述待标记文本进行标记。3.根据权利要求2所述的文本标记方法,其特征在于,所述获取待标记文本,包括:按照所述待标记文本的关注度顺序从预设的文本数据库中获取所述待标记文本;其中,所述文本数据库为根据所述待标记文本在预设时间段内的关注度进行排序得到的。4.根据权利要求3所述的文本标记方法,其特征在于,所述将所述待标记文本输入至标签预测模型,得到至少一个第一标签和所述第一标签的置信度值,包括:将所述待标记文本输入至标签预测模型,提取所述待标记文本的语义信息;根据所述语义信息计算所述多个候选标签的置信度值,并按照所述置信度值的大小排列顺序,确定其中至少一个以及至多三个候选标签作为第一标签;所述置信度值用于表示所述待标记文本与所述候选标签之间的关联性程度。5.根据权利要求2所述的文本标记方法,其特征在于,所述方法还包括:将标记后的文本进行去重处理后,作为样本文本存储至文本数据库。6.根据权利要求4所述的文本标记方法,其特征在于,所述标签预测模型的训练步骤,包括:获取训练样本集;所述训练样本集包括从所述文本数据库中获取的多个样本文本、各个样本文本分别对应的至少一个样本标签以及各个样本标签的样本置...

【专利技术属性】
技术研发人员:王珍珠张文华
申请(专利权)人:北京淘友天下科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1