数据结构化方法、装置、设备、存储介质及程序产品制造方法及图纸

技术编号:38232983 阅读:8 留言:0更新日期:2023-07-25 18:00
本申请关于一种数据结构化方法、装置、设备、存储介质及程序产品,涉及数据处理技术领域。该方法包括:获取用以描述目标用户的问答内容的问答数据;基于问答数据进行候选实体召回,获得至少两个候选实体;从至少两个候选实体中,获取核心动作实体;核心动作实体用以指示问答数据中的核心动词;基于核心动作实体,从至少两个候选实体中,获取目标实体;该目标实体用以指示与核心动作实体存在动宾关系的实体;基于核心动作实体,以及目标实体,生成问答数据的语义表达式;该语义表达式用以指示结构化后的问答数据。通过上述方法,可以将离散的问答内容转化为可以表征实体之间的依赖关系的,结构化的语义表达式,提高了数据结构化的效果。的效果。的效果。

【技术实现步骤摘要】
数据结构化方法、装置、设备、存储介质及程序产品


[0001]本申请涉及数据处理
,特别涉及数据结构化方法、装置、设备、存储介质及程序产品。

技术介绍

[0002]随着人工智能的发展,智能客服已成为解决用户问题的重要的可选择途径;其中,智能客服可以通过智能对话系统来实现;该智能对话系统中的语义理解模块可以将用户的问答内容转化为结构化的,有利于数据分析以及挖掘的数据形式。
[0003]在相关技术中,为实现对问答内容的结构化,相关人员通常设置语义理解模块,基于领域、意图、槽位的语义理解方法,对组成问答内容的各个实体进行归类,以实现问答内容的结构化。
[0004]然而,基于上述数据结构化的方法获得的结构化结果,是一种平面结构的结果。对于包含的实体较多的问答内容,该问答内容对应的结构化结果仅能体现各个实体所属的类目,比如领域、意图、槽位等,使得结构化结果所能表示的内容较为单一,结构化效果较差。

技术实现思路

[0005]本申请实施例提供了一种数据结构化方法、装置、设备、存储介质及程序产品,可以提高数据结构化的效果,该技术方案如下。
[0006]一方面,提供了一种数据结构化方法,所述方法包括:
[0007]获取问答数据,所述问答数据用以描述目标用户的问答内容;
[0008]基于所述问答数据进行候选实体召回,获得至少两个候选实体;所述候选实体是目标领域下发生的指定类型事件的命名实体;
[0009]从至少两个所述候选实体中,获取核心动作实体;所述核心动作实体用以指示所述问答数据中的核心动词;
[0010]基于所述核心动作实体,从至少两个所述候选实体中,获取目标实体;所述目标实体包括与所述核心动作实体存在动宾关系的实体;
[0011]基于所述核心动作实体,以及所述目标实体,生成所述问答数据的语义表达式;所述语义表达式用以指示结构化后的所述问答数据。
[0012]另一方面,提供了一种数据结构化装置,所述装置包括:
[0013]数据获取模块,用于获取问答数据,所述问答数据用以描述目标用户的问答内容;
[0014]候选实体获取模块,用于基于所述问答数据进行候选实体召回,获得至少两个候选实体;所述候选实体是目标领域下发生的指定类型事件的命名实体;
[0015]核心动作实体获取模块,用于从至少两个所述候选实体中,获取核心动作实体;所述核心动作实体用以指示所述问答数据中的核心动词;
[0016]目标实体获取模块,用于基于所述核心动作实体,从至少两个所述候选实体中,获取目标实体;所述目标实体包括与所述核心动作实体存在动宾关系的实体;
[0017]生成模块,用于基于所述核心动作实体,以及所述目标实体,生成所述问答数据的语义表达式;所述语义表达式用以指示结构化后的所述问答数据。
[0018]在一种可能的实现方式中,所述问答数据包括由至少两个实体词组成的实体词序列;所述候选实体获取模块,包括:
[0019]位置标签获取子模块,用于获取至少两个所述实体词中的每个所述实体词的位置标签,所述位置标签用以指示所述实体词是否处于一个实体的开始位置,以及所述实体词是否处于一个实体的结束位置;
[0020]候选实体确定子模块,用于基于每个所述实体词的所述位置标签,确定至少两个所述候选实体。
[0021]在一种可能的实现方式中,所述位置标签获取子模块,用于将所述实体词序列输入到标签预测模型中,获得所述标签预测模型输出的每个所述实体词各自的所述位置标签;
[0022]其中,所述标签预测模型是基于第一样本实体词序列,以及所述第一样本实体词序列中的样本实体词各自对应的样本位置标签训练获得的;所述样本位置标签包括样本开始标签和样本结束标签;所述样本开始标签用以指示样本实体词是否处于一个实体的开始位置;所述样本结束标签用以指示所述样本实体词是否处于一个实体的结束位置。
[0023]在一种可能的实现方式中,所述核心动作实体获取模块,包括:
[0024]信息获取子模块,用于获取至少两个所述候选实体各自的实体表示信息;
[0025]核心动作实体获取子模块,用于基于至少两个所述候选实体各自的实体表示信息,从至少两个所述候选实体中获取所述核心动作实体。
[0026]在一种可能的实现方式中,所述核心动作实体获取子模块,包括:
[0027]向量获取单元,用于获取目标候选实体中的开始实体词的语义向量,以及结束实体词的语义向量;所述开始实体词包括所述目标候选实体的开始位置的所述实体词,所述结束实体词包括所述目标候选实体的结束位置的所述实体词;所述目标候选实体是至少两个所述候选实体中的任意一个;
[0028]矩阵获取单元,用于基于所述目标候选实体的实体长度,查询所述实体长度的嵌入矩阵;所述实体长度用以指示所述目标候选实体中所述开始实体词与所述结束实体词之间的实体词数量;
[0029]核心动作实体获取单元,用于基于所述开始实体词的语义向量,所述结束实体词的语义向量,以及所述实体长度的所述嵌入矩阵,构建所述目标候选实体的所述实体表示信息。
[0030]在一种可能的实现方式中,所述核心动作实体获取单元,用于将实体表示信息输入到实体分类模型中,以获得所述实体分类模型输出的所述候选实体的分类结果;所述候选实体的分类结果用以指示所述候选实体是否为所述核心动作实体;
[0031]其中,所述实体分类模型是基于第二样本实体词序列中各个实体的样本实体表示信息,以及所述第二样本实体词序列中的各个实体的第一实体分类标签训练获得的;所述第一实体分类标签包括核心动作实体标签以及非核心动作实体标签。
[0032]在一种可能的实现方式中,所述目标实体获取模块,包括:
[0033]标志插入子模块,用于基于至少两个所述候选实体,以及所述核心动作实体,在所
述问答数据中插入实体识别标志;所述实体识别标志用以指示所述问答数据中的各个所述候选实体的边界;所述实体识别标志包括开始标志以及结束标志;
[0034]编码子模块,用于对插入所述实体识别标志后的所述问答数据进行编码,获得编码结果;
[0035]向量获取子模块,用于从所述编码结果中,获取所述核心动作实体的所述开始标志的编码向量,以及候选目标实体的所述开始标志的编码向量;所述候选目标实体是至少两个所述候选实体中,除所述核心动作实体之外的其他实体;
[0036]向量拼接子模块,用于将所述核心动作实体的所述开始标志的编码向量,与每个所述候选目标实体的所述开始标志的输出编码分别进行拼接,获得每个所述候选目标实体对应的拼接向量;
[0037]目标实体确定子模块,用于基于每个所述候选目标实体对应的所述拼接向量,从所述候选目标实体中,确定所述目标实体。
[0038]在一种可能的实现方式中,所述目标实体确定子模块,用于将每个所述候选目标实体对应的所述拼接向量输入到关系识别模型中,获得所述关系识别模型输出的所述候选目标实体的识别结果本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据结构化方法,其特征在于,所述方法包括:获取问答数据,所述问答数据用以描述目标用户的问答内容;基于所述问答数据进行候选实体召回,获得至少两个候选实体;所述候选实体是目标领域下发生的指定类型事件的命名实体;从至少两个所述候选实体中,获取核心动作实体;所述核心动作实体用以指示所述问答数据中的核心动词;基于所述核心动作实体,从至少两个所述候选实体中,获取目标实体;所述目标实体包括与所述核心动作实体存在动宾关系的实体;基于所述核心动作实体,以及所述目标实体,生成所述问答数据的语义表达式;所述语义表达式用以指示结构化后的所述问答数据。2.根据权利要求1所述的方法,其特征在于,所述问答数据包括由至少两个实体词组成的实体词序列;所述基于所述问答数据进行候选实体召回,获得至少两个候选实体包括:获取至少两个所述实体词中的每个所述实体词的位置标签,所述位置标签用以指示所述实体词是否处于一个实体的开始位置,以及所述实体词是否处于一个实体的结束位置;基于每个所述实体词的所述位置标签,确定至少两个所述候选实体。3.根据权利要求2所述的方法,其特征在于,所述获取至少两个所述实体词中的每个所述实体的位置标签,包括:将所述实体词序列输入到标签预测模型中,获得所述标签预测模型输出的每个所述实体词各自的所述位置标签;其中,所述标签预测模型是基于第一样本实体词序列,以及所述第一样本实体词序列中的样本实体词各自对应的样本位置标签训练获得的;所述样本位置标签包括样本开始标签和样本结束标签;所述样本开始标签用以指示样本实体词是否处于一个实体的开始位置;所述样本结束标签用以指示所述样本实体词是否处于一个实体的结束位置。4.根据权利要求2所述的方法,其特征在于,所述从至少两个所述候选实体中,获取核心动作实体,包括:获取至少两个所述候选实体各自的实体表示信息;基于至少两个所述候选实体各自的实体表示信息,从至少两个所述候选实体中获取所述核心动作实体。5.根据权利要求4所述的方法,其特征在于,所述获取至少两个所述候选实体各自的实体表示信息,包括:获取目标候选实体中的开始实体词的语义向量,以及结束实体词的语义向量;所述开始实体词包括所述目标候选实体的开始位置的所述实体词,所述结束实体词包括所述目标候选实体的结束位置的所述实体词;所述目标候选实体是至少两个所述候选实体中的任意一个;基于所述目标候选实体的实体长度,查询所述目标候选实体的嵌入矩阵;所述实体长度用以指示所述目标候选实体中所述开始实体词与所述结束实体词之间的实体词数量;基于所述开始实体词的语义向量,所述结束实体词的语义向量,以及所述嵌入矩阵,构建所述目标候选实体的所述实体表示信息。6.根据权利要求5所述的方法,其特征在于,所述基于至少两个所述候选实体各自的实
体表示信息,从至少两个所述候选实体中获取所述核心动作实体,包括:将所述实体表示信息输入到实体分类模型中,以获得所述实体分类模型输出的所述候选实体的分类结果;所述候选实体的分类结果用以指示所述候选实体是否为所述核心动作实体;其中,所述实体分类模型是基于第二样本实体词序列中各个实体的样本实体表示信息,以及所述第二样本实体词序列中的各个实体的第一实体分类标签训练获得的;所述第一实体分类标签包括核心动作实体标签以及非核心动作实体标签。7.根据权利要求1所述的方法,其特征在于,所述基于所述核心动作实体,从至少两个所述候选实体中,获取目标实体,包括:基于至少两个所述候选实体,以及所述核心动作实体,在所述问答数据中插入实体识别标志;所述实体识别标志用以指示所述问答数据中的各个所述候选实体的边界;所述实体识别标志包括开始标志以及结束标志;对插入所述实体识别标志后的所述问答数据进行编码,获得编码结果;从所述编码结果中,...

【专利技术属性】
技术研发人员:周志洋邵纪春
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1