【技术实现步骤摘要】
一种文本标注提取方法
[0001]本专利技术涉及人工智能(artificial intelligence,AI)领域,尤其涉及一种文本标注提取方法。
技术介绍
[0002]目前人工智能迅速发展,很多场景都需要标注员来标注数据获得大量有标签的数据,通过有标签的数据来训练模型,以提高人机交互的体验。通过标注员来标注数据(人工给数据打标签)是获取有标签数据的重要手段。通过模型预测对数据进行自动标注,标注员只需审核及修改部分数据可大大提高标注数据的效率。然而模型预测数据的标签则需预先有大量有标签数据训练模型,显然这有悖于需要标注员标注数据从而获得大量有标签数据。
[0003]传统的槽位提取基于机器学习的方法在数据量较少的情况下,提取槽位是较为困难的同时用于标注数据的模型的标签体系在训练模型时就已经固定,即标注的标签固定,如新增标签或标签发生变化,则需重新训练模型。
[0004]模型重训练需要一定耗时,同时如果训练数据新增或删改,用于自动标注数据的模型也要随之调整。
技术实现思路
[0005]本专利技术 ...
【技术保护点】
【技术特征摘要】
1.一种文本标注提取方法,其特征在于,包括:服务器接收电子设备发送第一标注请求;响应于所述第一标注请求,所述服务器启动动态标注服务,其中,所述动态标注服务对应有第一动态标注模型,所述第一动态标注模型是通过带有第一标签的样本文本序列训练的;所述服务器接收所述电子设备发送的第一文本序列以及所述第一文本序列对应的第一标注信息,其中,所述第一文本序列包括第一文本信息和第二标签,所述第一标注信息用于指示所述第一文本序列中带有所述第二标签的属性的文字在所述第一文本序列中的位置,所述第一标签和所述第二标签不同;所述服务器获取第二文本序列;当所述第一文本序列的数量大于第一阈值时,所述服务器通过所述第一动态标注模型,基于所述第一文本序列和所述第一标注信息,确定出所述第二文本序列的第二标注信息,所述第二标注信息用于指示所述第二文本序列中带有所述第二标签的属性的文字在所述第二文本序列中的位置;所述服务器基于所述第二标注信息,提取出所述第二文本序列中带有所述第二标签的属性的文字。2.根据权利要求1所述的方法,其特征在于,所述服务器通过所述第一动态标注模型,根据所述第一文本序列和所述第一标注信息,确定出所述第二文本序列的第二标注信息,具体包括:所述服务器基于所述第一文本序列和所述第一标注信息,确定出所述第一文本序列中的带有所述第二标签属性的文字与不带有所述第二标签的属性的文字之间的转移概率,所述带有所述第二标签的属性的文字包括带有所述第二标签的属性的起始字和带有所述第二标签的属性的延续字;所述服务器基于所述第一文本序列和所述第一标注信息,确定出所述第二文本序列中每一个字与带有所述第二标签的属性的文字和不带有所述第二标签的属性的文字之间发射概率;所述服务器根据所述转移概率和所述发射概率,标注出所述第二文本序列的所述第二标注信息。3.根据权利要求2所述的方法,其特征在于,所述服务器基于所述第一文本序列和所述第一标注信息,确定出所述第一文本序列中的带有所述第二标签属性的文字与不带有所述第二标签的属性的文字之间的转移概率,具体包括:所述服务器基于所述第一文本序列和所述第一标注信息,确定出所述第一文本序列中的不带有所述第二标签属性的文字与不带有所述第二标签的属性的文字之间的第一转移次数、所述第一文本序列中的不带有所述第二标签属性的文字与带有所述第二标签的属性的起始字之间的第二转移次数、所述第一文本序列中的不带有所述第二标签属性的文字与带有所述第二标签的属性的延续字之间的第三转移次数、所述第一文本序列中带有所述第二标签属性的起始字与不带有所述第二标签的属性的文字之间的第四转移次数、所述第一文本序列中带有所述第二标签属性的起始字与带有所述第二标签的属性的起始字之间的第五转移次数、所述第一文本序列中带有所述第二标签属性的起始字与带有所述第二标签
的属性的延续字之间的第六转移次数、所述第一文本序列中带有所述第二标签属性的延续字与不带有所述第二标签的属性的文字之间的第七转移次数、所述第一文本序列中带有所述第二标签属性的延续字与带有所述第二标签的属性的起始字之间的第八转移次数、所述第一文本序列中带有所述第二标签属性的延续字与带有所述第二标签的属性的延续字之间的第九转移次数;所述服务器根据拉普拉斯平滑常数对所述第一转移次数、所述第二转移次数、所述第三转移次数、所述第四转移次数、所述第五转移次数、所述第六转移次数、所述第七转移次数、所述第八转移次数、所述第九转移次数去平滑观测值;所述服务器根据去平滑观测值后的第一转移次数、去平滑观测值后的第二转移次数、去平滑观测值后的第三转移次数、去平滑观测值后的第四转移次数、去平滑观测值后的第五转移次数、去平滑观测值后的第六转移次数、去平滑观测值后的第七转移次数、去平滑观测值后的第八转移次数、去平滑观测值后的第九转移次数确定出所述第一文本序列中的带有所述第二标签属性的文字与不带有所述第二标签的属性的文字之间的转移概率。4.根据权利要求2所述的方法,其特征在于,所述服务器基于所述第一文本序列和所述第一标注信息,确定出所述第二文本序列中每一个字与带有所述第二标签的属性的文字和不带有所述第二标签的属性的文字之间发射概率,具体包括:所述服务器根据所述第一文本信息得到上文向量;所述服务器根据所述第二文本序列得到下文向量;所述服务器根据所述下文向量和所述第一标注信息,确定出标签的表示;所述服务器计算所述上文向量与所述标签的表示的向量距离;所述服务器对所述向量距离做归一化,确定出所述第二文本序列中每一个字与带有所述第二标签的属性的文字和不带有所述第二标签的属性的文字之间发射概率。5.根据权利要求2所述的方法,其特征在于,所述服务器根据所述转移概率和所述发射概率,标注出所述第二文本序列的所述第二标注信息,具体包括:所述服务器根据维特比算法对所述第二文本序列进行维特比求解,得到所述第二文本序列中的最优求解路径;其中,在所述最优求解路径中,所述第二文本序列列中的每一个字与带有所述第二标签的属性的文字和不带有所述第二标签的属性的文字之间发射概率值最大;所述服务器基于所述最优求解路径标注出所述第二文本序列的所述第二标注信息。6.根据权利要求1-5任一项所述的方法,其特征在于,所述方法还包括:所述服务器获取到第三文本序列;所述服务器通过所述第一动态标注模型,基于所述第一文本序列、所述第一标注信息、所述二文本序列和所述第二标注信息,确定出所述第三文本序列的第三标注信息,所述第三标注信息用于指示所述第三文本序列中带有所述第二标签的属性的文字在所述第三文本序列中的位置;所述服务器基于所述第三标注信息,提取出所述第三文本序列中带有所述第二标签的属性的文字。7.根据权利要求1-6任一项所述的方法,其特征在...
【专利技术属性】
技术研发人员:茅佳峰,侯宇泰,张晴,刘畅,车万翔,刘挺,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。