【技术实现步骤摘要】
问答对构建方法、装置、计算机设备和存储介质
[0001]本申请涉及自然语言处理
,特别是涉及一种问答对构建方法、装置、计算机设备和存储介质。
技术介绍
[0002]随着知识图谱和智能客服在各个行业的应用,使用信息抽取技术从文档中挖掘知识已经成为一个研究热点。其中,从文档中自动获得问答对一直是公认的难点,问答对指的是问题文本以及与该问题文本相匹配的答复文本,文档可以为产品说明书文档或条例文档等。在实际实施过程中,主要是通过抽取文档中的标题,从文档中自动获取问答对。
[0003]在相关技术中,主要是按照文档中段落的换行特征,将文档拆分为段落,确定拆分的段落中的标题,并确定标题下的正文段落,最后将标题作为问答对中的问题文本,而将标题下的正文段落作为问答对中的答复文本。由于标题与正文可能会出现在同一段落,而按照文档中段落的换行特征则无法识别该情形,这使得位于同一段落的标题与正文不能被构成问答对,从而导致问答对的构建存在内容缺失,进而还会影响后续自动回复的精准度。
技术实现思路
[0004]基于此,有必要 ...
【技术保护点】
【技术特征摘要】
1.一种问答对构建方法,其特征在于,所述方法包括:将文档拆分为段落;判断拆分得到的段落中是否存在标题与正文共存的段落;若存在标题与正文共存的段落,则将标题与正文共存的段落分别按照标题与正文切分为不同段落;根据所述文档中的所有段落,构建所述文档中的问答对。2.根据权利要求1所述的方法,其特征在于,所述将文档拆分为段落,包括:若所述文档为文本文件,则根据所述文档中的段落标识符,将所述文档拆分成段落;若所述文档为文本图像,则对所述文档进行字符识别,确定所述文档中每一字符的位置信息,根据每一字符的位置信息,确定所述文档中每一文本行的位置信息,根据每一文本行的位置信息,对不同的文本行进行组合,得到所述文档中的段落。3.根据权利要求1所述的方法,其特征在于,所述根据所述文档中的所有段落,构建所述文档中的问答对,包括:从所述所有段落中筛选出满足第一预设条件的段落,作为候选标题段落,所述第一预设条件用于衡量段落为标题段落的可能程度;根据所有候选标题段落,构建所述文档中的问答对。4.根据权利要求3所述的方法,其特征在于,所述第一预设条件包括以下条件中的至少一项,所述以下条件分别为:段落句长为第一预设阈值、段落总字数小于第二预设阈值、段落总标点数小于第三预设阈值以及段落格式满足预设格式。5.根据权利要求3或4所述的方法,其特征在于,所述根据所有候选标题段落,构建所述文档中的问答对,包括:从所述所有候选标题段落中确定标题段落;根据所述标题段落与框架模板,确定所述文档的层次化结构,所述层次化结构用于表征所述文档中层级标题之间的层级关系;根据所述层次化结构,构建所述文档中的问答对。6.根据权利要求5所述的方法,其特征在于,所述从所述所有候选标题段落中确定标题段落,包括:获取每一候选标题段落的语义关联分值,所述语义关联分值用于表征候选标题段落中的文本内容与候选标题段落的作用域中的文本内容之间的语义关联程度,所述作用域用于表征候选标题段落所覆盖的段落范围;从所述所有候选标题段落中选取语义关联分值满足第二预设条件的候选标题段落,作为标题段落。7.根据权利要求6所述的方法,其特征在于,所述语义关联分值包括以下分值中的至少一种,所述第二预设条件是由以下子条件所确定的;所述以下分值分别为:词共现分值、段落语义分值及语句语义分值;所述以下子条件包括:词共现分值大于第四预设阈值、段落语义分值大于第五预设阈值及语句语义分值大于第六预设阈值;其中,所述语义关联分值所包括的分值类型与所述第二预设条件中所包括的子条件相匹配。8.根据权利要求7所述的方法,其特征在于,所述语义关联分值包括词共现分值;相应
地,所述获取每一候选标题段落的语义关联分值,包括:对于任一候选标题段落,计算所述任一候选标题段落中每一分词与所述任一候选标题段落的作用域中每一分词之间的分词相似度;根据所述任一候选标题段落中每一分词对应的所有分词相似度,确定所述任一候选标题段落中每一分词的词共现分值;根据所述任一候选标题段落中每一分词的词共现分值,确定所述任一候选标题段落的词共现分值。9.根据权利要求8所述的方法,其特征在于,所述根据所述任一候选标题段落中每一分词的词共现分值,确定所述任一候选标题段落的词共现分值,包括:从所述任一候选标题段落中筛选出词共现分值大于第七预设阈值的分词;对筛选出的每一分词对应的词共现分值进行加和,得到总和值;计算所述总和值与所述任一候选标题段落中的总分词数之间的比值...
【专利技术属性】
技术研发人员:朱前威,谢春禾,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。