问题生成方法、装置及存储介质制造方法及图纸

技术编号:21060125 阅读:35 留言:0更新日期:2019-05-08 06:56
本发明专利技术实施例提出一种问题生成方法、装置及计算机可读存储介质。其中问题生成方法包括:根据文本结构识别待处理文档的文本类型;选择与所述文本类型对应的生成模型,所述生成模型包括显式问题生成模型、结构化和半结构化问题生成模型和自然语言问题生成模型中的至少一种;利用选择的所述生成模型针对所述待处理文档生成问题。本发明专利技术实施例针对不同的文本类型的特点,对于整篇文档而言,或者对整篇文档的各部分文本而言,都选择最适用的生成模型,提高了生成问题的准确率。

Problem Generation Method, Device and Storage Media

【技术实现步骤摘要】
问题生成方法、装置及存储介质
本专利技术涉及信息
,尤其涉及一种问题生成方法、装置及计算机可读存储介质。
技术介绍
FAQ(FrequentlyAskedQuestions,问答系统)是当前网络上提供在线帮助的主要手段,通过事先组织好一些可能的常问的问答对,发布在网页上为用户提供咨询服务。现有技术的FAQ实现方式主要包括以下几种:(1)通用问答系统,基于检索或者基于知识的问答服务。(2)定制化检索,对文档内容分段分词创建索引;或者,通过文档结构化或人工筛选的方法从而得到问答对。(3)基于词匹配或同义词匹配的问题检索。现有技术的缺陷主要包括以下几个方面:(1)基于检索或者基于知识的通用问答系统不能解决定制化的需求。(2)对于通过对文档内容创建索引实现问答的方式,首先并非所有的内容都是问答内容,因此通篇存储会造成存储空间的浪费;其次是这种方式生成问题的准确率低,因为词命中不意味着当前内容是答案;还有无法判断答案边界和无法形成可视化FAQ文档。所谓可视化是指将对文本内容深度的阅读理解,从而提取出若干问答对,方便用户查找问题检索答案。现在的技术无法对篇章深度理解或者对文本生成好的问题。(3)基于同义词匹配或词匹配的问题检索的泛化能力差且召回率低。
技术实现思路
本专利技术实施例提供一种问题生成方法、装置及计算机可读存储介质,以至少解决现有技术中的一个或多个技术问题。第一方面,本专利技术实施例提供了一种问题生成方法,包括:根据文本结构识别待处理文档的文本类型;选择与所述文本类型对应的生成模型,所述生成模型包括显式问题生成模型、结构化和半结构化问题生成模型和自然语言问题生成模型中的至少一种;利用选择的所述生成模型针对所述待处理文档生成问题。在一种实施方式中,根据文本结构识别待处理文档的文本类型,包括:识别所述待处理文档的文本结构中是否有问答结构;选择与所述文本类型对应的生成模型,包括:若所述待处理文档的文本结构中有问答结构,则将所述显式问题生成模型作为与所述文本类型对应的生成模型;利用选择的所述生成模型针对所述待处理文档生成问题,包括:利用所述显式问题生成模型针对所述待处理文档生成问题。在一种实施方式中,利用所述显式问题生成模型针对所述待处理文档生成问题,包括:判断所述问答结构中的问题部分和对应的回答部分是否匹配,将匹配成功的所述问答结构对应的部分文本作为候选文本筛选出来;利用第一循环神经网络模型,对筛选出的所述候选文本进行分类,以从所述候选文本中识别出显式问题;将所述显式问题作为针对所述待处理文档生成的问题。在一种实施方式中,根据文本结构识别待处理文档的文本类型,包括:识别所述待处理文档的文本结构中是否有标题结构,所述标题结构包括标题或表格;选择与所述文本类型对应的生成模型,包括:若所述待处理文档的文本结构中有标题结构,则将所述结构化和半结构化问题生成模型作为与所述文本类型对应的生成模型;利用选择的所述生成模型针对所述待处理文档生成问题,包括:利用所述结构化和半结构化问题生成模型针对所述待处理文档生成问题。在一种实施方式中,利用所述结构化和半结构化问题生成模型针对所述待处理文档生成问题,包括:在所述待处理文档的文本结构中有标题的情况下,获取与所述标题相关的属性复述;根据所述属性复述生成问题。在一种实施方式中,获取与所述标题相关的属性复述,包括:获取与所述标题相关的搜索点击展现日志;对所述搜索点击展现日志进行数据挖掘,得到与所述标题相关的属性复述;将所述属性复述存入属性复述表中。在一种实施方式中,根据所述属性复述生成问题,包括:根据所述属性复述,利用第一编码器-解码器模型生成问题;或者,从所述属性复述表中查询与所述标题相关的属性复述,并根据查询到的所述属性复述生成问题。在一种实施方式中,根据文本结构识别待处理文档的文本类型,包括:识别所述待处理文档的文本结构中是否有问答结构和标题结构,所述标题结构包括标题或表格;选择与所述文本类型对应的生成模型,包括:若所述待处理文档的文本结构中没有问答结构且没有标题结构,则将所述自然语言问题生成模型作为与所述文本类型对应的生成模型;利用选择的所述生成模型针对所述待处理文档生成问题,包括:利用所述自然语言问题生成模型针对所述待处理文档生成问题。在一种实施方式中,利用所述自然语言问题生成模型针对所述待处理文档生成问题,包括:利用第二循环神经网络模型,从所述待处理文档中筛选出目标句子,所述目标句子包括语义完整的句子;利用第三循环神经网络模型,从所述目标句子中选择候选答案片段;根据所述候选答案片段,利用第二编码器-解码器模型生成问题。在一种实施方式中,所述方法还包括:针对生成的所述问题进行答案边界定位。在一种实施方式中,针对生成的所述问题进行答案边界定位,包括:利用双向注意流网络预测所述问题对应的答案片段的起止位置;利用学习排序模型将所述答案片段排序,根据排序结果对所述问题进行答案边界定位,其中,所述学习排序模型的特征包括所述答案片段的起止位置。第二方面,本专利技术实施例提供了一种问题生成装置,包括:文本类型识别单元,用于根据文本结构识别待处理文档的文本类型;生成模型选择单元,用于选择与所述文本类型对应的生成模型,所述生成模型包括显式问题生成模型、结构化和半结构化问题生成模型和自然语言问题生成模型中的至少一种;问题生成单元,用于利用选择的所述生成模型针对所述待处理文档生成问题。在一种实施方式中,所述文本类型识别单元包括第一识别子单元,所述第一识别子单元用于:识别所述待处理文档的文本结构中是否有问答结构;所述生成模型选择单元包括第一选择子单元,所述第一选择子单元用于:若所述待处理文档的文本结构中有问答结构,则将所述显式问题生成模型作为与所述文本类型对应的生成模型;所述问题生成单元包括第一生成子单元,所述第一生成子单元用于:利用所述显式问题生成模型针对所述待处理文档生成问题。在一种实施方式中,所述第一生成子单元还用于:判断所述问答结构中的问题部分和对应的回答部分是否匹配,将匹配成功的所述问答结构对应的部分文本作为候选文本筛选出来;利用第一循环神经网络模型,对筛选出的所述候选文本进行分类,以从所述候选文本中识别出显式问题;将所述显式问题作为针对所述待处理文档生成的问题。在一种实施方式中,所述文本类型识别单元包括第二识别子单元,所述第二识别子单元用于:识别所述待处理文档的文本结构中是否有标题结构,所述标题结构包括标题或表格;所述生成模型选择单元包括第二选择子单元,所述第二选择子单元用于:若所述待处理文档的文本结构中有标题结构,则将所述结构化和半结构化问题生成模型作为与所述文本类型对应的生成模型;所述问题生成单元包括第二生成子单元,所述第二生成子单元用于:利用所述结构化和半结构化问题生成模型针对所述待处理文档生成问题。在一种实施方式中,所述第二生成子单元包括:复述获取子单元,用于在所述待处理文档的文本结构中有标题的情况下,获取与所述标题相关的属性复述;复述问题生成子单元,用于根据所述属性复述生成问题。在一种实施方式中,所述复述获取子单元还用于:获取与所述标题相关的搜索点击展现日志;对所述搜索点击展现日志进行数据挖掘,得到与所述标题相关的属性复述;将所述属性复述存入属性复述表中。在一种实施方式中,本文档来自技高网...

【技术保护点】
1.一种问题生成方法,其特征在于,包括:根据文本结构识别待处理文档的文本类型;选择与所述文本类型对应的生成模型,所述生成模型包括显式问题生成模型、结构化和半结构化问题生成模型和自然语言问题生成模型中的至少一种;利用选择的所述生成模型针对所述待处理文档生成问题。

【技术特征摘要】
1.一种问题生成方法,其特征在于,包括:根据文本结构识别待处理文档的文本类型;选择与所述文本类型对应的生成模型,所述生成模型包括显式问题生成模型、结构化和半结构化问题生成模型和自然语言问题生成模型中的至少一种;利用选择的所述生成模型针对所述待处理文档生成问题。2.根据权利要求1所述的方法,其特征在于,根据文本结构识别待处理文档的文本类型,包括:识别所述待处理文档的文本结构中是否有问答结构;选择与所述文本类型对应的生成模型,包括:若所述待处理文档的文本结构中有问答结构,则将所述显式问题生成模型作为与所述文本类型对应的生成模型;利用选择的所述生成模型针对所述待处理文档生成问题,包括:利用所述显式问题生成模型针对所述待处理文档生成问题。3.根据权利要求2所述的方法,其特征在于,利用所述显式问题生成模型针对所述待处理文档生成问题,包括:判断所述问答结构中的问题部分和对应的回答部分是否匹配,将匹配成功的所述问答结构对应的部分文本作为候选文本筛选出来;利用第一循环神经网络模型,对筛选出的所述候选文本进行分类,以从所述候选文本中识别出显式问题;将所述显式问题作为针对所述待处理文档生成的问题。4.根据权利要求1所述的方法,其特征在于,根据文本结构识别待处理文档的文本类型,包括:识别所述待处理文档的文本结构中是否有标题结构,所述标题结构包括标题或表格;选择与所述文本类型对应的生成模型,包括:若所述待处理文档的文本结构中有标题结构,则将所述结构化和半结构化问题生成模型作为与所述文本类型对应的生成模型;利用选择的所述生成模型针对所述待处理文档生成问题,包括:利用所述结构化和半结构化问题生成模型针对所述待处理文档生成问题。5.根据权利要求4所述的方法,其特征在于,利用所述结构化和半结构化问题生成模型针对所述待处理文档生成问题,包括:在所述待处理文档的文本结构中有标题的情况下,获取与所述标题相关的属性复述;根据所述属性复述生成问题。6.根据权利要求5所述的方法,其特征在于,获取与所述标题相关的属性复述,包括:获取与所述标题相关的搜索点击展现日志;对所述搜索点击展现日志进行数据挖掘,得到与所述标题相关的属性复述;将所述属性复述存入属性复述表中。7.根据权利要求6所述的方法,其特征在于,根据所述属性复述生成问题,包括:根据所述属性复述,利用第一编码器-解码器模型生成问题;或者,从所述属性复述表中查询与所述标题相关的属性复述,并根据查询到的所述属性复述生成问题。8.根据权利要求1所述的方法,其特征在于,根据文本结构识别待处理文档的文本类型,包括:识别所述待处理文档的文本结构中是否有问答结构和标题结构,所述标题结构包括标题或表格;选择与所述文本类型对应的生成模型,包括:若所述待处理文档的文本结构中没有问答结构且没有标题结构,则将所述自然语言问题生成模型作为与所述文本类型对应的生成模型;利用选择的所述生成模型针对所述待处理文档生成问题,包括:利用所述自然语言问题生成模型针对所述待处理文档生成问题。9.根据权利要求8所述的方法,其特征在于,利用所述自然语言问题生成模型针对所述待处理文档生成问题,包括:利用第二循环神经网络模型,从所述待处理文档中筛选出目标句子,所述目标句子包括语义完整的句子;利用第三循环神经网络模型,从所述目标句子中选择候选答案片段;根据所述候选答案片段,利用第二编码器-解码器模型生成问题。10.根据权利要求1-9中任一项所述的方法,其特征在于,还包括:针对生成的所述问题进行答案边界定位。11.根据权利要求10所述的方法,其特征在于,针对生成的所述问题进行答案边界定位,包括:利用双向注意流网络预测所述问题对应的答案片段的起止位置;利用学习排序模型将所述答案片段排序,根据排序结果对所述问题进行答案边界定位,其中,所述学习排序模型的特征包括所述答案片段的起止位置。12.一种问题生成装置,其特征在于,包括:文本类型识别单元,用于根据文本结构识别待处理文档的文本类型;生成模型选择单元,用于选择与所述文本类型对应的生成模型,所述生成模型包括显式问题生成模型、结构化和半结构化问题生成模型和自然语言问题生成模型中的至...

【专利技术属性】
技术研发人员:孙兴武刘璟
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1