一种问答对生成方法、装置、电子设备及计算机存储介质制造方法及图纸

技术编号:35053041 阅读:16 留言:0更新日期:2022-09-28 10:56
本发明专利技术实施例提供了一种问答对生成方法、装置、电子设备及计算机存储介质。根据本发明专利技术实施例提供的问答对生成方案,从文档中获取文档片段,进而基于预先训练好的第一模型和所述文档片段从所述文档中得到对应的问题文本,然后采用预先训练好的第二模型根据所述问题文本从所述文档中得到对应于所述问题文本的答案文本,在这种先获取问题再寻找答案的方式中,基于第一模型可以实现从文档中自动的挖掘出大量的问题文本,同时基于深度学习的第二模型提高了预测得到的答案文本和生成的问题文本的匹配程度。本的匹配程度。本的匹配程度。

【技术实现步骤摘要】
一种问答对生成方法、装置、电子设备及计算机存储介质


[0001]本专利技术实施例涉及计算机
,尤其涉及一种问答对生成方法、装置、电子设备及计算机存储介质。

技术介绍

[0002]问答对(question

answer pair)广泛应用于机器学习领域中,诸如机器阅读理解、智能问答,知识库配置、数据增广等等。但是目前高质量的质量问答对往往高度依赖于人工标注,花费较高。而采用现有的基于算法的问答对的自动生成方法通常会导致生成的问题不连贯,以及答案和问题之间的相关度较低。
[0003]基于此,需要一种更准确的问答对生成方案。

技术实现思路

[0004]有鉴于此,本专利技术实施例提供一种问答对生成方案,以至少部分解决上述问题。
[0005]根据本专利技术实施例的第一方面,提供了一种问答对生成方法,包括:
[0006]获取文档,从所述文档中获取文档片段;
[0007]根据预先训练得到的第一模型、所述文档和所述文档片段,生成对应于所述文档片段的问题文本;
[0008]根据预先训练得到的第二模型、所述文档和所述问题文本,从所述文档中获取对应于所述问题文本的答案文本;
[0009]建立所述问题文本和所述答案文本的关联关系,生成对应于所述文档片段的问答对。
[0010]根据本专利技术实施例的第二方面,提供了一种问答对生成装置,所述装置包括:
[0011]获取模块,获取文档,从所述文档中获取文档片段;
[0012]问题文本生成模块,根据预先训练得到的第一模型、所述文档和所述文档片段,生成对应于所述文档片段的问题文本;
[0013]答案文本生成模块,根据预先训练得到的第二模型、所述文档和所述问题文本,从所述文档中获取对应于所述问题文本的答案文本;
[0014]问答对生成模块,建立所述问题文本和所述答案文本的关联关系,生成对应于所述文档片段的问答对。
[0015]根据本专利技术实施例的第三方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第一方面所述的问答对生成方法对应的操作。
[0016]根据本专利技术实施例的第四方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的问答对生成方法。
[0017]根据本专利技术实施例提供的问答对生成方案,从文档中获取文档片段,进而基于预
先训练好的第一模型和所述文档片段从所述文档中得到对应的问题文本,然后采用预先训练好的第二模型根据所述问题文本从所述文档中得到对应于所述问题文本的答案文本。在这种先获取问题再寻找答案的方式中,基于第一模型可以实现从文档中自动的挖掘出大量的问题文本,同时基于深度学习的第二模型提高了预测得到的答案文本和生成的问题文本的匹配程度,从而实现自动化的从文档中产生准确匹配的问答对。
附图说明
[0018]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0019]图1a为当前方案从文档中生成问答对时所涉及的流程示意框图;
[0020]图1b为本申请实施例所提供的一种问答对生成方法的框架示意图;
[0021]图2为本申请实施例所提供的一种问答对生成方法的流程示意图;
[0022]图3为本申请实施例所提供的一种文档分割的示意图;
[0023]图4为本申请实施例所提供的一种第一模型中编码和解码的框架示意图;
[0024]图5为本申请实施例所提供的一种基于问题文本和文档生成答案文本的示意图;
[0025]图6为本申请实施例所提供的一种问答对生成装置的结构示意图;
[0026]图7为本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
[0027]为了使本领域的人员更好地理解本专利技术实施例中的技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术实施例一部分实施例,而不是全部的实施例。基于本专利技术实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本专利技术实施例保护的范围。
[0028]当前从文档中得到问答对的方式要么是人工抽取;要么是采用先抽取出关键词作为答案(answer),然后基于预训练模型从文档中找出与答案匹配的问题(question)。如图1a所示,图1a为当前方案从文档中生成问答对时所涉及的流程示意框图。
[0029]在图1a这种方案下,由于是先提取出答案,那么就很容易抽取到一些特别细节的信息,例如,如果文档本身是介绍芍药花的药用价值的情形时,“芍药花功效:养血活血,缓急止疼,柔肝安脾,疏肝养颜,去黄斑,常喝能面色红润,有制菌作用,能缓解由于胃肠蠕动亢进而引起的腹部疼,能治疗血瘀引起的疼经。芍药不仅是名花,而且根可供药用。根据分析,芍药根含有芍药甙和安息香酸,用途因种而异”。此时,得到的关键词可能就包含有“芍药甙”、“安息香酸”等等这些无效的关键词。这些无效的关键词其实和文档本身的目的(即用户可能想要进行询问的问题)并无太大关系。
[0030]换言之,在图1a这种方案下,第一步进行关键词抽取时就可能存在诸如(1)抽取不出来;(2)抽取出来的关键词太宽泛;(3)抽取的关键词没有意义等多种意外情况,进而导致后续生成的问题和答案匹配度不高。
[0031]基于此,本申请实施例提供一种问答对生方案。如图1b所示,图1b为本申请实施例
所提供的一种问答对生成方法的框架示意图。具体而言,即首先对文档进行划分,并基于文档片段生成问题,然后基于该问题从文档中生成对应的答案。
[0032]如图2所示,图2为本申请实施例所提供的一种问答对生成方法的流程示意图,所述方法包括:
[0033]S201,获取文档,从所述文档中获取文档片段。
[0034]其中,文档可以是任意的包含多个字符的文档。
[0035]文档片段可以是文档中的部分内容,需要说明的是文档片段中所中包含的内容应当是是文档中连续的字符。
[0036]在一种实施方式中,获取文档片段的方式可以采用关键词抽取模型,从文档中抽取得到部分的关键词和/或关键句,将抽取得到的关键词和/或关键句确定为文档片段。
[0037]在另一种实施方式中,还可以采用可调整的滑窗和滑动步长对文档进行分割,而得到多个文档片段。滑窗具有可调整窗口长度。其中,滑动步长用于指示划分得到的相邻的两个文档片段的间隔,即一个文档片段的首字符与相邻的另一个文档片段的首字符之间的长度,包括但不限于字符数;而窗口长度则用于指示划分得到任意的文档片段的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种问答对生成方法,包括:获取文档,从所述文档中获取文档片段;根据预先训练得到的第一模型、所述文档和所述文档片段,生成对应于所述文档片段的问题文本;根据预先训练得到的第二模型、所述文档和所述问题文本,从所述文档中获取对应于所述问题文本的答案文本;建立所述问题文本和所述答案文本的关联关系,生成对应于所述文档片段的问答对。2.如权利要求1所述的方法,其中,从文档中获取文档片段,包括:从所述文档中抽取关键词和/或关键句,将抽取得到的关键词和/或关键句确定为文档片段;和/或,采用可调整的滑窗和滑动步长对所述文档进行滑动分割处理,得到多个文档片段。3.如权利要求2所述的方法,其中,采用可调整的滑窗和滑动步长对所述文档进行滑动分割处理时,所述滑动步长小于所述滑窗的窗口长度。4.如权利要求1所述的方法,其中,根据预先训练得到的第一模型、所述文档和所述文档片段,生成对应于所述文档片段的问题文本,包括:依序拼接所述文档、预设连接字符和所述文档片段,生成第一拼接文本;将所述第一拼接文本作为所述第一模型的第一输入,生成对应的第一输出,将所述第一输出确定为对应于所述文档片段的问题文本;相应的,根据预先训练得到的第二模型、所述文档和所述问题文本,从所述文档中获取对应于所述问题文本的答案文本,包括:依序拼接所述问题文本、预设连接字符和所述文档,生成第二拼接文本;将所述第二拼接文本作为所述第二模型的第二输入,生成对应的第二输出,根据所述第二输出确定对应于所述问题文本的答案文本。5.如权利要求4所述的方法,其中,将所述第二拼接文本作为所述第二模型的第二输入,生成对应的第二输出,包...

【专利技术属性】
技术研发人员:崔少波祖新星包鑫彤赵中州张佶陈海青
申请(专利权)人:阿里巴巴新加坡控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1