一种半自动意图标注方法、计算机设备及存储介质技术

技术编号:37564927 阅读:9 留言:0更新日期:2023-05-15 07:45
本发明专利技术公开一种半自动意图标注方法、计算机设备及存储介质,方法包括:获取语料数据并采用词频分析与自定义配置相结合的方式完成所述语料数据的清洗;以及构建自研NLU模型,使用百度NLU模型与所述自研NLU模型对清洗后的所述语料数据进行识别,并根据识别结果判断是否创建标注任务,若判断结果为是则创建标注任务并完成数据标注。利用本发明专利技术的方法、计算机设备及存储介质,使得标注人员可以根据不同的标注需求,完成标注操作,极大提高意图标注效率。率。率。

【技术实现步骤摘要】
一种半自动意图标注方法、计算机设备及存储介质


[0001]本专利技术涉及一种半自动意图标注方法、计算机设备及存储介质。

技术介绍

[0002]专利CN202110669198.2公开了一种意图标注方法、装置和电子设备。该专利包括:获取待标注数据;根据待标注数据创建意图标注任务,分配意图标注任务给标注终端;获取标注终端通过意图标注任务对待标注数据添加的标注记录,获取与意图标注任务相对应的其他标注终端的标注记录;根据各个标注终端的标注记录并结合最终结果判定策略得到待标注数据的标注结果。该专利通过交叉标注以及最终结果判定策略等方式提高标注意图的效率和准确度,产生最终的已标注好的标注数据,该数据用于机器人的自然语言处理模型训练,提升机器人的催收、摧毁率等,同时能够实时监控标注人员的工作状态及工作效率等。
[0003]该专利的流程属于行业通用流程:数据采集

创建标注任务

完成任务标注。
[0004]作为现有技术,上述专利存在一些技术问题。
[0005]第一个问题在于,上述专利直接对数据语料进行标注,导致模型精度难以提升。原因在于,用户语料中通常存在无用词和特殊符号,且无用词和特殊符号在语料库中所占比例巨大,若直接对数据语料进行标注,由于无用词和特殊符号影响因子大,权重占比高,会导致模型无法正常输出。
[0006]第二个问题在于,fasttext模型的局限性。原因在于,由于fasttext网络模型只有三层,结构相对简单。当采用大量数据进行训练时,容易产生模型过拟合现象,导致训练集精度高,验证集精度低的情况。

技术实现思路

[0007]为了解决上述问题,本专利技术提供一种半自动意图标注方法、计算机设备及存储介质。具体地说,针对第一个问题,本专利技术以词频分析为依托,采用用户自定义设置无用词个数的方式,自动填充无用词字典,完成数据清洗,提高模型准确率。针对第二个问题,本专利技术采用半自动构建模型结构的方式,通过变量N的设置,扩充网络结构,使得模型按顺序进行模型训练并自动保存最佳结果和模型结构。
[0008]作为现有技术的上述专利着重点在于如何设计判定策略,避免人为因素的干扰。而本专利技术则在各个环节进行了创新优化,核心点在于保证标注精度的前提下,如何减轻标注人员的工作量。
[0009]一种半自动意图标注方法,所述方法包括:
[0010]获取语料数据并采用词频分析与自定义配置相结合的方式完成所述语料数据的清洗;以及
[0011]构建自研NLU模型,使用百度NLU模型与所述自研NLU模型对清洗后的所述语料数据进行识别,并根据识别结果判断是否创建标注任务,若判断结果为是则创建标注任务并
完成数据标注。
[0012]在所述方法中,获取所述语料数据的步骤可以包括:
[0013]用户根据账号密码完成登录操作;以及
[0014]从数据集市通过接口读取数据。
[0015]在所述方法中,所述账号密码可以采用MD5+字符串拼接的方式进行存储。
[0016]在所述方法中,创建所述标注任务的步骤可以包括:
[0017]如果所述百度NLU模型与所述自研NLU模型的识别结果不一致,则创建所述标注任务;
[0018]如果所述百度NLU模型与所述自研NLU模型的识别结果一致,则判断所述识别结果是否大于设定的置信度阈值;以及
[0019]如果所述识别结果不大于所述置信度阈值,则创建所述标注任务。
[0020]在所述方法中,构建所述自研NLU模型的步骤可以包括:
[0021]通过小数据量生成基版模型,通过所述基版模型对各类别数据进行识别,挑选出每种类别靠前的预定数量的数据,采用同义词和人工添加的方式组建同义词表,通过同义词替换的方式完成数据的增广,生成最终的训练数据集;
[0022]利用改进的fasttext模型进行训练,所述改进的fasttext模型包括多个隐藏层;以及
[0023]将语料扩增为多条同义语料,对多条同义语料进行识别,最终选取识别次数最多的意图作为结果输出。
[0024]一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器中存储的计算机程序时,所述处理器执行所述方法。
[0025]一种计算机可读存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序被处理器执行时,所述处理器执行所述方法。
[0026]利用本专利技术的半自动意图标注方法、计算机设备及存储介质,使得标注人员可以根据不同的标注需求,完成标注操作,极大提高意图标注效率。
附图说明
[0027]下面将参考附图描述本专利技术的具体实施方式,这些实施方式是示例性的,而非限制性的。
[0028]图1是根据本专利技术实施例的方法的流程图;
[0029]图2是根据本专利技术实施例的登录界面的示意图;
[0030]图3是根据本专利技术实施例的导入数据界面的示意图;
[0031]图4是百度NLU分类流程图;
[0032]图5是根据本专利技术实施例的创建任务的流程图;
[0033]图6是原始网络结构的示意图;
[0034]图7是根据本专利技术实施例的改进后的网络结构的示意图;和
[0035]图8是根据本专利技术实施例的计算机设备的示意图。
具体实施方式
[0036]为了提高人机交互体验,提升联通客服文本机器人意图识别准确率,设计了一种半自动意图标注方法、计算机设备及存储介质。该方法采用MD5+字符串拼接的方式对账号密码进行存储,提高系统安全等级。此外,采用词频分析与自定义配置相结合的方式完成用户语料的清洗,并自研了NLU意图识别模型,通过自研NLU模型与百度NLU模型相对比的方式,创建意图任务,使得标注人员可以根据不同的标注需求,完成标注操作,极大提高意图标注效率。
[0037]图1是根据本专利技术实施例的方法的流程图。在本专利技术的该实施例中,一种半自动意图标注方法包括如下步骤:
[0038]S1:获取语料数据并采用词频分析与自定义配置相结合的方式完成所述语料数据的清洗;以及
[0039]S2:构建自研NLU模型,使用百度NLU模型与所述自研NLU模型对清洗后的所述语料数据进行识别,并根据识别结果判断是否创建标注任务,若判断结果为是则创建标注任务并完成数据标注。
[0040]在一个实施例中,本专利技术的具体实现步骤包括:
[0041]步骤一、用户根据账号密码完成登录操作,登录界面如图2所示。
[0042]本专利技术不同于现有技术之处在于账号密码存储方式。业内通常采用将用户密码明文保存到数据库中,或者采用MD5加密的方式进行数据库存储。但无论明文存储还是MD5加密存储,都可以被计算机从业者获取信息,导致用户信息泄漏。本专利技术在数据库存储时采用MD5+字符串拼接的方式进行存储,其中字符串的具体数值仅限于特定人员所知,极大提升了数据安全等级。
[0043]步骤二、导本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种半自动意图标注方法,所述方法包括:获取语料数据并采用词频分析与自定义配置相结合的方式完成所述语料数据的清洗;以及构建自研NLU模型,使用百度NLU模型与所述自研NLU模型对清洗后的所述语料数据进行识别,并根据识别结果判断是否创建标注任务,若判断结果为是则创建标注任务并完成数据标注。2.根据权利要求1所述的方法,其中,获取所述语料数据的步骤包括:用户根据账号密码完成登录操作;以及从数据集市通过接口读取数据。3.根据权利要求2所述的方法,其中,所述账号密码采用MD5+字符串拼接的方式进行存储。4.根据权利要求1所述的方法,其中,创建所述标注任务的步骤包括:如果所述百度NLU模型与所述自研NLU模型的识别结果不一致,则创建所述标注任务;如果所述百度NLU模型与所述自研NLU模型的识别结果一致,则判断所述识别结果是否大于设定的置信度阈值;以及如果所述识别结果不大于所述置信度阈值,则创建所述标注任务。5....

【专利技术属性】
技术研发人员:何鑫王涛徐波
申请(专利权)人:中国联合网络通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1