问答信息处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:39064780 阅读:12 留言:0更新日期:2023-10-12 19:57
本申请提供一种问答信息处理方法、装置、电子设备及存储介质,方法包括:将问题文本数据输入至预先训练得到的目标语言模型中进行编码,得到问题文本数据对应的至少一个词向量;根据问题文本数据对应的各词向量以及预设数据库的数据表中存储的各词向量,确定问题文本数据对应的目标数据表中的至少一个目标字段、各目标字段的目标字段值以及各目标字段的变量名称;根据问题文本数据对应的目标数据表中的各目标字段的目标字段值以及各目标字段的变量名称,生成针对目标数据表的查询语句;执行查询语句,得到并输出问题文本数据对应的答案数据。可以根据数据库中的词向量更好的匹配用户多样的问题文本数据,提升问答效率。提升问答效率。提升问答效率。

【技术实现步骤摘要】
问答信息处理方法、装置、电子设备及存储介质


[0001]本申请涉及数据处理领域,具体而言,涉及一种问答信息处理方法、装置、电子设备及存储介质。

技术介绍

[0002]企业内部问答系统主要是针对企业内部人员使用的问答系统,主要是为企业员工日常对公司相关数据的提问提供一个方便入口。
[0003]现有技术中,企业内部数据问答主要是通过人工在软件后台预先设置问题和配套的答案,通过点击相关问答的卡片连接,返回每个问题预设的答案。
[0004]但是,现有方法中若不按照设置的问题库中的问题模板进行提问,则不能正确的返回答案,同时,企业的相关数据是动态变化的,因此就需要及时的更新问题库中的问题以及配套的答案,否则会导致不能返回问题的答案,这会造成问答系统的维护成本过高。

技术实现思路

[0005]本申请的目的在于,针对上述现有技术中的不足,提供一种问答信息处理方法、装置、电子设备及存储介质,提高问答的效率。
[0006]为实现上述目的,本申请实施例采用的技术方案如下:
[0007]第一方面,本申请实施例提供了一种问答信息处理方法,所述方法包括:
[0008]获取用户输入的问题文本数据;
[0009]将所述问题文本数据输入至预先训练得到的目标语言模型中进行编码,得到所述问题文本数据对应的至少一个词向量;
[0010]根据所述问题文本数据对应的各词向量以及预设数据库的数据表中存储的各词向量,确定所述问题文本数据对应的目标数据表中的至少一个目标字段、各目标字段的目标字段值以及各目标字段的变量名称,其中,所述预设数据库中包括:第一数据表、第二数据表以及第三数据表,所述第一数据表用于记录各原始数据表中的字段名称以及字段名称对应的词向量,所述第二数据表用于记录各原始数据表中的各字段、各字段对应的字段值以及各字段值对应的词向量,所述第三数据表用于记录各原始数据表中的各字段以及各字段对应的变量名称,所述目标数据表为所述原始数据表中的一个数据表;
[0011]根据所述问题文本数据对应的目标数据表中的各目标字段的目标字段值以及各目标字段的变量名称,生成针对所述目标数据表的查询语句;
[0012]执行所述查询语句,得到并输出所述问题文本数据对应的答案数据。
[0013]可选的,所述根据所述问题文本数据对应的各词向量以及预设数据库的数据表中存储的各词向量,确定所述问题文本数据对应的目标数据表中的至少一个目标字段、各目标字段的目标字段值以及各目标字段的变量名称,包括:
[0014]将所述问题文本数据对应的各词向量分别与所述第一数据表中的各词向量进行匹配,得到各原始数据表中各字段对应的匹配结果;
[0015]根据各原始数据表中各字段对应的匹配结果,确定所述目标数据表以及所述目标数据表中的至少一个所述目标字段;
[0016]将所述问题文本数据对应的各词向量分别与所述第二数据表中的所述目标数据表的各所述目标字段的各字段值对应的词向量进行匹配,确定各所述目标字段的目标字段值;
[0017]从所述第三数据表中查找各所述目标字段的变量名称。
[0018]可选的,所述根据各原始数据表中各字段对应的匹配结果,确定所述目标数据表以及所述目标数据表中的至少一个所述目标字段,包括:
[0019]根据各原始数据表中各字段对应的匹配结果,确定至少一个所述目标字段;
[0020]根据至少一个所述目标字段在各原始数据表中对应的匹配结果,确定所述目标数据表。
[0021]可选的,所述将所述问题文本数据对应的各词向量分别与所述第二数据表中的所述目标数据表的各所述目标字段对应的各词向量进行匹配,确定各所述目标字段的目标字段值,包括:
[0022]从所述第二数据表中筛选出所述目标数据表的各所述目标字段对应的数据行;
[0023]将所述问题文本数据对应的各词向量与各所述数据行中的词向量分别进行匹配,根据匹配结果得到各所述目标字段的目标字段值。
[0024]可选的,所述根据所述问题文本数据对应的目标数据表中的各目标字段的目标字段值以及各目标字段的变量名称,生成针对所述目标数据表的查询语句,包括:
[0025]若所述第二数据表中存在与所述问题文本数据对应的词向量的匹配结果满足预设条件的目标数据行,则将所述目标数据行中的字段值以及目标字段的变量名称作为查询语句中的查询参数;
[0026]若未从所述第二数据表中筛选出所述目标数据表的目标字段对应的数据行,则将所述目标字段的变量名称作为查询语句中的查询参数。
[0027]可选的,所述将所述问题文本数据输入至预先训练得到的目标语言模型中进行编码之前,包括:
[0028]获取多个样本数据,将各所述样本数据转换为预设格式的数据,得到转换后的各样本数据;
[0029]对所述转换后的各样本数据进行掩码操作,得到掩码后的各样本数据;
[0030]基于掩码后的各样本数据对初始训练模型进行训练,得到所述目标语言模型。
[0031]可选的,所述根据所述问题文本数据对应的各词向量以及预设数据库的数据表中存储的各词向量,确定所述问题文本数据对应的目标数据表中的至少一个目标字段、各目标字段的目标字段值以及各目标字段的变量名称之前,包括:
[0032]将各原始数据表中的各字段输入至所述目标语言模型中,得到各字段的词向量,并将各原始数据表中的各字段以及各字段对应的词向量保存至所述第一数据表中;
[0033]将各原始数据表中的各字段对应的字段值输入至目标语言模型中,得到各字段值的词向量,并将各原始数据表中的各字段、各字段对应的字段值以及各字段值对应的词向量保存至第二数据表中;
[0034]将各原始数据表中的各字段以及各字段对应的变量名称保存至所述第三数据表
中。
[0035]第二方面,本申请实施例还提供了一种问答信息处理装置,所述装置包括:
[0036]获取模块,用于获取用户输入的问题文本数据;
[0037]编码模块,用于将所述问题文本数据输入至预先训练得到的目标语言模型中进行编码,得到所述问题文本数据对应的至少一个词向量;
[0038]确定模块,用于根据所述问题文本数据对应的各词向量以及预设数据库的数据表中存储的各词向量,确定所述问题文本数据对应的目标数据表中的至少一个目标字段、各目标字段的目标字段值以及各目标字段的变量名称,其中,所述预设数据库中包括:第一数据表、第二数据表以及第三数据表,所述第一数据表用于记录各原始数据表中的字段名称以及字段名称对应的词向量,所述第二数据表用于记录各原始数据表中的各字段、各字段对应的字段值以及各字段值对应的词向量,所述第三数据表用于记录各原始数据表中的各字段以及各字段对应的变量名称,所述目标数据表为所述原始数据表中的一个数据表;
[0039]生成模块,用于根据所述问题文本数据对应的目标数据表中的各目标字段的目标字段值以及各目标字段的变量名称,生成针对所述目标数据表的查询语句;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种问答信息处理方法,其特征在于,所述方法包括:获取用户输入的问题文本数据;将所述问题文本数据输入至预先训练得到的目标语言模型中进行编码,得到所述问题文本数据对应的至少一个词向量;根据所述问题文本数据对应的各词向量以及预设数据库的数据表中存储的各词向量,确定所述问题文本数据对应的目标数据表中的至少一个目标字段、各目标字段的目标字段值以及各目标字段的变量名称,其中,所述预设数据库中包括:第一数据表、第二数据表以及第三数据表,所述第一数据表用于记录各原始数据表中的字段名称以及字段名称对应的词向量,所述第二数据表用于记录各原始数据表中的各字段、各字段对应的字段值以及各字段值对应的词向量,所述第三数据表用于记录各原始数据表中的各字段以及各字段对应的变量名称,所述目标数据表为所述原始数据表中的一个数据表;根据所述问题文本数据对应的目标数据表中的各目标字段的目标字段值以及各目标字段的变量名称,生成针对所述目标数据表的查询语句;执行所述查询语句,得到并输出所述问题文本数据对应的答案数据。2.根据权利要求1所述的问答信息处理方法,其特征在于,所述根据所述问题文本数据对应的各词向量以及预设数据库的数据表中存储的各词向量,确定所述问题文本数据对应的目标数据表中的至少一个目标字段、各目标字段的目标字段值以及各目标字段的变量名称,包括:将所述问题文本数据对应的各词向量分别与所述第一数据表中的各词向量进行匹配,得到各原始数据表中各字段对应的匹配结果;根据各原始数据表中各字段对应的匹配结果,确定所述目标数据表以及所述目标数据表中的至少一个所述目标字段;将所述问题文本数据对应的各词向量分别与所述第二数据表中的所述目标数据表的各所述目标字段的各字段值对应的词向量进行匹配,确定各所述目标字段的目标字段值;从所述第三数据表中查找各所述目标字段的变量名称。3.根据权利要求2所述的问答信息处理方法,其特征在于,所述根据各原始数据表中各字段对应的匹配结果,确定所述目标数据表以及所述目标数据表中的至少一个所述目标字段,包括:根据各原始数据表中各字段对应的匹配结果,确定至少一个所述目标字段;根据至少一个所述目标字段在各原始数据表中对应的匹配结果,确定所述目标数据表。4.根据权利要求2所述的问答信息处理方法,其特征在于,所述将所述问题文本数据对应的各词向量分别与所述第二数据表中的所述目标数据表的各所述目标字段对应的各词向量进行匹配,确定各所述目标字段的目标字段值,包括:从所述第二数据表中筛选出所述目标数据表的各所述目标字段对应的数据行;将所述问题文本数据对应的各词向量与各所述数据行中的词向量分别进行匹配,根据匹配结果得到各所述目标字段的目标字段值。5.根据权利要求4所述的问答信息处理方法,其特征在于,所述根据所述问题文本数据对应的目标数据表中的各目标字段的目标字段值以及各目标字段的变量名称,生成针对所
述目标数据表的查询语句,包括:若所述第二数据表中存在与所述问题文本数据对应的词向量的匹配结果满足预设条件的目标数据行,则将...

【专利技术属性】
技术研发人员:李鸣肖云曾泽基岳志鹏
申请(专利权)人:未来电视有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1