实体词注释方法及其装置、设备、介质、产品制造方法及图纸

技术编号:35269438 阅读:20 留言:0更新日期:2022-10-19 10:37
本申请涉及实体词注释方法及其装置、设备、介质、产品,所述方法包括:获取目标文本,所述目标文本包含多个实体词;根据所述目标文本中各个实体词的标注类型确定相对应的标签对,所述标签对包括开始标签和结束标签;基于目标文本中的每个单字设置前缀标识和后缀标识为所述目标文本注释各个所述的实体词,获得注释文本,使每个标签对中的开始标签和结束标签分别成为相应的实体词的首字的前缀标识和尾字的后缀标识。本申请细化了对目标文本插入标识进行注释的操作粒度,使得标识的插入过程具有更高的灵活度,从而降低算法复杂度,提升文本注释效率,有望取得广泛的技术收益。有望取得广泛的技术收益。有望取得广泛的技术收益。

【技术实现步骤摘要】
实体词注释方法及其装置、设备、介质、产品


[0001]本申请涉及文本信息
,尤其涉及一种实体词注释方法及其相应的装置、计算机设备、计算机可读存储介质,以及计算机程序产品。

技术介绍

[0002]为文本注释实体词的需求,广泛存在于多种应用场景中,例如,直播间中对用户输入的发言信息的文本内容中的实体词进行显性提示,或者,将电商平台中根据用户发言信息中包含的实体词智能化转换为订单数据等。这些示例性的场景所采用的技术,本质上是依赖于对文本内容中的实体词进行识别后的注释操作,以便根据注释结果执行相应的预设业务逻辑。
[0003]具体而言,在文本内容识别场景中,经常对文本进行实体词信息提取,比如关键字、电话、人名、地名等。识别成功后会获取实体词的位置,然后在实体词前后插入另外的控制标识加以注释,用于指示相应的实体词的数据类型或者指示对应的控制方式等。
[0004]为实现对文本中实体词的注释,常见的做法是直接确定原文本中应插入控制标识的位置,按插入位置将原文本拆分成多个子串,在插入位置处插入控制标识,再将各个子串重构成一句文本。但对于一个位置的多次插入多个控制标识,或者同一实体词的两个控制标识具有包含关系时,以子串为单位的处理方式,其处理复杂度会增加,产生不必要的处理开销。
[0005]鉴于实体词注释具有普遍性,更为高效地注释方式将能获得更为广泛的收益,因而,本申请人对文本中实体词的注释方式做出改进。

技术实现思路

[0006]本申请的目的在于解决上述问题而提供一种实体词注释方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品、
[0007]适应本申请的各个目的,采用如下技术方案:
[0008]一个方面,适应本申请的目的之一而提供一种实体词注释方法,包括:
[0009]获取目标文本,所述目标文本包含多个实体词;
[0010]根据所述目标文本中各个实体词的标注类型确定相对应的标签对,所述标签对包括开始标签和结束标签;
[0011]基于目标文本中的每个单字设置前缀标识和后缀标识为所述目标文本注释各个所述的实体词,获得注释文本,使每个标签对中的开始标签和结束标签分别成为相应的实体词的首字的前缀标识和尾字的后缀标识。
[0012]可选的,根据所述目标文本中各个实体词的标注类型确定相对应的标签对,包括:
[0013]对所述目标文本进行词嵌入,构造出所述目标文本的编码向量;
[0014]采用序列标注模型对所述编码向量进行序列标注,获得序列标注信息,所述序列标注信息包含与目标文本中各个实体词相对应映射的各个标注类型;
[0015]获取所述序列标注信息中各个标注类型相对应的标签对,建立标签对与实体词之间的映射关系数据。
[0016]可选的,基于目标文本中的每个单字设置前缀标识和后缀标识为所述目标文本注释各个所述的实体词,获得注释文本,包括:
[0017]构造所述目标文本中各个单字相对应的结构体,将该单字及其在目标文本中的排列序号存储于结构体中,在结构体中建立前缀标识链表和后缀标识链表;
[0018]根据各个实体词与其标签对的映射关系数据,确定每个实体词的首字所在的结构体,将该实体词的标签对中的开始标签追加到所述首字的前缀标识链表中,所述前缀标识链表实现为堆栈;
[0019]根据各个实体词与其标签对的映射关系数据,确定每个实体词的尾字所在的结构体,将该实体词的标签对中的结束标签追加到所述尾字的后缀标识链表中,所述后缀标识链表实现为队列;
[0020]根据所述各个单字的排列序号对各个单字进行重组,使每个标签对中的开始标签和结束标签分别成为相应的实体词的首字的前缀标识和尾字的后缀标识,获得注释文本。
[0021]可选的,根据所述各个单字的排列序号对各个单字进行重组,包括:
[0022]将各个单字的结构体的前缀标识链表中的各个开始标签逐一出栈自先到后排列构造为前缀标识串,拼接于相应的单字的前缀位置;
[0023]将各个单字的结构体的前缀标识链表中的各个开始标签逐一出列自先到后排列构造为后缀标识串,拼接于相应的单字的后缀位置;
[0024]将每个单字的前缀标识、该单字、该单字的后缀标识组合构造为该单字对应的扩展字符串;
[0025]按照各个单字在结构体中的排列序号有序拼接各个单字的扩展字符串,获得注释文本。
[0026]可选的,获取目标文本,所述目标文本包含多个实体词,包括:
[0027]响应用户发言事件,获取用户在直播间中对应该事件提交的发言信息;
[0028]将所述发言信息输入预设的文本分类模型进行类型识别,判断其是否为目标类型,将属于目标类型的发言信息识别为目标文本,其中,属于目标类型的发言信息中包含有商品名称、商品型号、送货地址、联系电话中任意一项或任意多项实体词。
[0029]可选的,基于目标文本中的每个单字设置前缀标识和后缀标识为所述目标文本注释各个所述的实体词,获得注释文本之后,包括:
[0030]解析所述注释文本,获得各个标签对相对应的实体词,根据所述实体词的标签对确定相应的实体词的数据类型;
[0031]将各个所述的实体词对应其数据类型赋值给商品订单的消息体中相应数据类型的变量;
[0032]根据所述消息体生成相应的商品订单页面,其中包含根据所述变量输出的实体词。
[0033]可选的,基于目标文本中的每个单字设置前缀标识和后缀标识为所述目标文本注释各个所述的实体词,获得注释文本之后,包括:
[0034]解析所述注释文本,获得各个标签对相对应的实体词,根据所述实体词的标签对
确定相应的实体词的数据类型;
[0035]根据各个实体词相对应的数据类型,对相应的实体词进行文本格式化处理,使注释文本中的各个标签对转义为其相应实体词的显示样式,使注释文本成为格式化文本;
[0036]将所述格式化文本作为对话内容输出至终端设备的图形用户界面中显示。
[0037]另一方面,适应本申请的目的之一而提供一种实体词注释装置,包括:文本获取模块、标签对确定模块,以及实体词注释模块,其中,所述文本获取模块,用于获取目标文本,所述目标文本包含多个实体词;所述标签对确定模块,用于根据所述目标文本中各个实体词的标注类型确定相对应的标签对,所述标签对包括开始标签和结束标签;所述实体词注释模块,用于基于目标文本中的每个单字设置前缀标识和后缀标识为所述目标文本注释各个所述的实体词,获得注释文本,使每个标签对中的开始标签和结束标签分别成为相应的实体词的首字的前缀标识和尾字的后缀标识。
[0038]可选的,所述标签对确定模块,包括:文本编码单元,用于对所述目标文本进行词嵌入,构造出所述目标文本的编码向量;序列标注单元,用于采用序列标注模型对所述编码向量进行序列标注,获得序列标注信息,所述序列标注信息包含与目标文本中各个实体词相对应映射的各个标注类型;映射处理单元,用于获取所述序列标注信息中各个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实体词注释方法,其特征在于,包括:获取目标文本,所述目标文本包含多个实体词;根据所述目标文本中各个实体词的标注类型确定相对应的标签对,所述标签对包括开始标签和结束标签;基于目标文本中的每个单字设置前缀标识和后缀标识为所述目标文本注释各个所述的实体词,获得注释文本,使每个标签对中的开始标签和结束标签分别成为相应的实体词的首字的前缀标识和尾字的后缀标识。2.根据权利要求1所述的实体词注释方法,其特征在于,根据所述目标文本中各个实体词的标注类型确定相对应的标签对,包括:对所述目标文本进行词嵌入,构造出所述目标文本的编码向量;采用序列标注模型对所述编码向量进行序列标注,获得序列标注信息,所述序列标注信息包含与目标文本中各个实体词相对应映射的各个标注类型;获取所述序列标注信息中各个标注类型相对应的标签对,建立标签对与实体词之间的映射关系数据。3.根据权利要求1所述的实体词注释方法,其特征在于,基于目标文本中的每个单字设置前缀标识和后缀标识为所述目标文本注释各个所述的实体词,获得注释文本,包括:构造所述目标文本中各个单字相对应的结构体,将该单字及其在目标文本中的排列序号存储于结构体中,在结构体中建立前缀标识链表和后缀标识链表;根据各个实体词与其标签对的映射关系数据,确定每个实体词的首字所在的结构体,将该实体词的标签对中的开始标签追加到所述首字的前缀标识链表中,所述前缀标识链表实现为堆栈;根据各个实体词与其标签对的映射关系数据,确定每个实体词的尾字所在的结构体,将该实体词的标签对中的结束标签追加到所述尾字的后缀标识链表中,所述后缀标识链表实现为队列;根据所述各个单字的排列序号对各个单字进行重组,使每个标签对中的开始标签和结束标签分别成为相应的实体词的首字的前缀标识和尾字的后缀标识,获得注释文本。4.根据权利要求3所述的实体词注释方法,其特征在于,根据所述各个单字的排列序号对各个单字进行重组,包括:将各个单字的结构体的前缀标识链表中的各个开始标签逐一出栈自先到后排列构造为前缀标识串,拼接于相应的单字的前缀位置;将各个单字的结构体的前缀标识链表中的各个开始标签逐一出列自先到后排列构造为后缀标识串,拼接于相应的单字的后缀位置;将每个单字的前缀标识、该单字、该单字的后缀标识组合构造为该单字对应的扩展字符串;按照各个单字在结构体中的排列序号有序拼接各个单字的扩展字符串,获得注释文本。5.根据权利要求1所...

【专利技术属性】
技术研发人员:杨鹏
申请(专利权)人:广州华多网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1