基于文档的问题生成方法、装置及服务器制造方法及图纸

技术编号:36602701 阅读:19 留言:0更新日期:2023-02-04 18:19
本申请提供一种基于文档的问题生成方法、装置及服务器,涉及文档处理技术,该方法包括:获取待分析文档;其中,待分析文档包括多级标题,多级标题之间存在层级关系。根据待分析文档中的多级标题的层级关系,对待分析文档进行语义解析处理,得到每一层级下的语义信息。根据每一层级下的语义信息,生成待分析文档的语义关联图。根据预设的问题生成模型对语义关联图进行问题预测,得到待分析文档的目标问题信息。本申请的方法,提高了目标问题信息的语义准确性,解决了生成问题的语义准确性较差的技术问题。术问题。术问题。

【技术实现步骤摘要】
基于文档的问题生成方法、装置及服务器


[0001]本申请涉及文档处理技术,尤其涉及一种基于文档的问题生成方法、装置及服务器。

技术介绍

[0002]目前,为了更好的实现问答交互,需要根据文档和文档的问题之间的对应关系得到问题生成模型。
[0003]现有技术中,通常是基于制定的问题模板,对较短的文档进行训练,得到用于预测文档问题的问题生成模型,并根据问题生成模型生成较短文档的问题。
[0004]然而现有技术中,由于只能根据问题生成模型生成较短文档的问题,对于较长的答案,则无法生成准确的问题,导致生成问题的语义准确性较差。

技术实现思路

[0005]本申请提供一种基于文档的问题生成方法、装置及服务器,用以解决生成问题的语义准确性较差的技术问题。
[0006]第一方面,本申请提供一种基于文档的问题生成方法,包括:
[0007]获取待分析文档;其中,所述待分析文档包括多级标题,多级标题之间存在层级关系;
[0008]根据所述待分析文档中的所述多级标题的层级关系,对所述待分析文档进行语义解析处理,得到每一层级下的语义信息;
[0009]根据每一层级下的语义信息,生成所述待分析文档的语义关联图;
[0010]根据预设的问题生成模型对所述语义关联图进行问题预测,得到所述待分析文档的目标问题信息;其中,所述问题生成模型是根据多个预设的问题

答案对数据训练得到的,所述问题

答案对数据中的答案为文档。
[0011]进一步地,所述根据所述待分析文档中的所述多级标题的层级关系,对所述待分析文档进行语义解析处理,得到每一层级下的语义信息,包括:
[0012]根据所述待分析文档的多级标题的层级关系,对所述待分析文档进行切分,得到每一层级下的文本块;其中,所述文本块包含该文本块所属的层级的标题和所属标题下的正文内容;
[0013]对每一层级下的文本块进行语义解析处理,得到每一层级下的文本块的语义信息。
[0014]进一步地,所述对每一层级下的文本块进行语义解析处理,得到每一层级下的文本块的语义信息,包括:
[0015]对每一层级下的文本块中的所述标题进行分词,确定得到的每一分词的词性标签和命名实体标签;
[0016]确定所述词性标签为名词的分词和/或命名实体标签为核心词,并构成标题核心
词集合;
[0017]在所述正文内容中,过滤出包含所述核心词的句子集合;
[0018]对所述句子集合中的包含所述核心词的句子进行语义解析处理,得到每一层级下的文本块的语义信息;其中,所述语义信息包括所述句子中的分词的词性标签、命名实体标签、解析的包含分词的原文本、以及依存句法关系。
[0019]进一步地,所述根据每一层级下的语义信息,生成所述待分析文档的语义关联图,包括:
[0020]根据每一层级下的语义信息,在每一层级下的所述正文内容中,确定所述核心词所在句子中的其他实体标签、核心词所在句子中的与该核心词存在依存句法关系的依存分词、核心词所在句子中的其他分词;
[0021]将所述标题核心词集合的核心词均作为根节点并根据在标题中的出现顺序进行有向连接,将所述命名实体标签、所述其他实体标签、以及所述依存分词均作为一级节点,边关系指向核心词,将与所述命名实体标签和/或所述其他实体标签存在依存句法关系的其他分词、与所述依存分词存在依存句法关系的其他分词均作为二级节点,生成所述待分析文档的语义关联图。
[0022]进一步地,所述方法还包括:
[0023]获取多个文档;
[0024]对每一所述文档进行切分处理和语义解析处理,得到所述文档的语义信息;并根据所述文档的语义信息,生成所述文档的语义关联图;
[0025]根据与每一所述文档对应的预设的问题,确定问题

答案对数据;并根据所述问题

答案对数据以及所述语义关联图,对初始模型进行问题生成训练,生成问题生成模型。
[0026]第二方面,本申请提供一种基于文档的问题生成装置,包括:
[0027]第一获取单元,用于获取待分析文档;其中,所述待分析文档包括多级标题,多级标题之间存在层级关系;
[0028]解析单元,用于根据所述待分析文档中的所述多级标题的层级关系,对所述待分析文档进行语义解析处理,得到每一层级下的语义信息;
[0029]第一生成单元,用于根据每一层级下的语义信息,生成所述待分析文档的语义关联图;
[0030]预测单元,用于根据预设的问题生成模型对所述语义关联图进行问题预测,得到所述待分析文档的目标问题信息;其中,所述问题生成模型是根据多个预设的问题

答案对数据训练得到的,所述问题

答案对数据中的答案为文档。
[0031]进一步地,所述解析单元,包括:
[0032]切分模块,用于根据所述待分析文档的多级标题的层级关系,对所述待分析文档进行切分,得到每一层级下的文本块;其中,所述文本块包含该文本块所属的层级的标题和所属标题下的正文内容;
[0033]解析模块,用于对每一层级下的文本块进行语义解析处理,得到每一层级下的文本块的语义信息。
[0034]进一步地,所述解析模块,包括:
[0035]分词子模块,用于对每一层级下的文本块中的所述标题进行分词,确定得到的每
一分词的词性标签和命名实体标签;
[0036]确定子模块,用于确定所述词性标签为名词的分词和/或命名实体标签为核心词,并构成标题核心词集合;
[0037]过滤子模块,用于在所述正文内容中,过滤出包含所述核心词的句子集合;
[0038]解析子模块,用于对所述句子集合中的包含所述核心词的句子进行语义解析处理,得到每一层级下的文本块的语义信息;其中,所述语义信息包括所述句子中的分词的词性标签、命名实体标签、解析的包含分词的原文本、以及依存句法关系。
[0039]进一步地,所述第一生成单元,包括:
[0040]确定模块,用于根据每一层级下的语义信息,在每一层级下的所述正文内容中,确定所述核心词所在句子中的其他实体标签、核心词所在句子中的与该核心词存在依存句法关系的依存分词、核心词所在句子中的其他分词;
[0041]生成模块,用于将所述标题核心词集合的核心词均作为根节点并根据在标题中的出现顺序进行有向连接,将所述命名实体标签、所述其他实体标签、以及所述依存分词均作为一级节点,边关系指向核心词,将与所述命名实体标签和/或所述其他实体标签存在依存句法关系的其他分词、与所述依存分词存在依存句法关系的其他分词均作为二级节点,生成所述待分析文档的语义关联图。
[0042]进一步地,所述装置还包括:
[0043]第二获取单元,用于获取多个文档;
[0044]第二生成单元,用于对每一所述文档进行切分处理和语义解析处理,得到所述文档的语义信息;并根据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于文档的问题生成方法,其特征在于,包括:获取待分析文档;其中,所述待分析文档包括多级标题,多级标题之间存在层级关系;根据所述待分析文档中的所述多级标题的层级关系,对所述待分析文档进行语义解析处理,得到每一层级下的语义信息;根据每一层级下的语义信息,生成所述待分析文档的语义关联图;根据预设的问题生成模型对所述语义关联图进行问题预测,得到所述待分析文档的目标问题信息;其中,所述问题生成模型是根据多个预设的问题

答案对数据训练得到的,所述问题

答案对数据中的答案为文档。2.根据权利要求1所述的方法,其特征在于,所述根据所述待分析文档中的所述多级标题的层级关系,对所述待分析文档进行语义解析处理,得到每一层级下的语义信息,包括:根据所述待分析文档的多级标题的层级关系,对所述待分析文档进行切分,得到每一层级下的文本块;其中,所述文本块包含该文本块所属的层级的标题和所属标题下的正文内容;对每一层级下的文本块进行语义解析处理,得到每一层级下的文本块的语义信息。3.根据权利要求2所述的方法,其特征在于,所述对每一层级下的文本块进行语义解析处理,得到每一层级下的文本块的语义信息,包括:对每一层级下的文本块中的所述标题进行分词,确定得到的每一分词的词性标签和命名实体标签;确定所述词性标签为名词的分词和/或命名实体标签为核心词,并构成标题核心词集合;在所述正文内容中,过滤出包含所述核心词的句子集合;对所述句子集合中的包含所述核心词的句子进行语义解析处理,得到每一层级下的文本块的语义信息;其中,所述语义信息包括所述句子中的分词的词性标签、命名实体标签、解析的包含分词的原文本、以及依存句法关系。4.根据权利要求3所述的方法,其特征在于,所述根据每一层级下的语义信息,生成所述待分析文档的语义关联图,包括:根据每一层级下的语义信息,在每一层级下的所述正文内容中,确定所述核心词所在句子中的其他实体标签、核心词所在句子中的与该核心词存在依存句法关系的依存分词、核心词所在句子中的其他分词;将所述标题核心词集合的核心词均作为根节点并根据在标题中的出现顺序进行有向连接,将所述命名实体标签、所述其他实体标签、以及所述依存分词均作为一级节点,边关系指向核心词,将与所述命名实体标签和/或所述其他实体标签存在依存句法关系的其他分词、与所述依存分词存在依存句法关系的其他分词均作为二级节点,生成所述待分析文档的语义关联图。5.根据权利要求1

4任一项所述的方法,其特征在于,所述方法还包括:获取多个文档;对每一所述文档进行切分处理和语义解析处理,得到所述文档的语义信息;并根据所述文档的语义信息,生成所述文档的语义关联图;根据与每一所述文档对应的预设的问题,确定问题

答案对数据;并根据所述问题


案对数据以及所述语义关联图,对初始模型进行问题生成训练,生成问题生成模型。6.一种基于文档的问题生成装置,其特征在于,包括:第一获取单元,用于获取待分析文档;其中,所述待分析文档包括多级标题,多级标题之间存在层级关系;解析单元,用于根据所述待分析文档中的所述多级标题的层级关系,对所述待分析文档进行语义解析处理,得到每一层级下的语义信息;第一生成单元,用于根据每一层...

【专利技术属性】
技术研发人员:范晓东
申请(专利权)人:工银科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1