【技术实现步骤摘要】
文本处理方法及装置
[0001]本说明书实施例涉及计算机
,特别涉及文本处理方法。
技术介绍
[0002]随着计算机技术的不断发展,智能问答技术也在不断的提升;为了使智能问答技术更为完善,则需要获取大量的问答数据,从而可以基于问答数据完成智能问答的完善。
[0003]当前,获取问答对的方式主要为:在获取到的单个句子或对话流提取问答数据,即在结构化的包含问答内容的数据中提取问答数据,即在结构化的数据中确定问答数据;而无法在非结构化数据中提取问答数据,导致问答数据较少。
[0004]因此,如何在非结构化的文档数据中提取对应文档结构的问答数据,成为本领域技术人员亟待解决的技术问题。
技术实现思路
[0005]有鉴于此,本说明书实施例提供了文本处理方法。本说明书一个或者多个实施例同时涉及文本处理装置,一种采访文本处理方法,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的问句多样性低,问答句的提取不考虑文档结构等技术缺陷。
[0006]根据本说明书实施例的第一 ...
【技术保护点】
【技术特征摘要】
1.一种文本处理方法,包括:接收文本处理请求,根据所述文本处理请求确定待处理文本;解析所述待处理文本,获得至少一个文本元素,其中,文本元素基于所述待处理文本的文本结构划分获得;基于所述至少一个文本元素在所述待处理文本中确定至少一个答案文本;为所述至少一个答案文本生成对应的问题文本,并基于所述至少一个答案文本和对应的问题文本组成所述待处理文本对应的问答对。2.如权利要求1所述的方法,基于所述至少一个文本元素在所述待处理文本中确定至少一个答案文本,包括:确定文本标题,并对目标文本标题进行拼接获得标题链;获取所述标题链对应的文本块,并将所述文本块作为段落答案文本。3.如权利要求2所述的方法,为所述至少一个答案文本生成对应的问题文本,包括:将所述标题链输入问句生成模型;获取所述问句生成模型输出的所述段落答案文本对应的问题文本。4.如权利要求1所述的方法,基于所述至少一个文本元素在所述待处理文本中确定至少一个答案文本,包括:确定文本块,并确定所述文本块中的文本句子;在所述文本句子中筛选符合句子筛选条件的目标句子作为句子答案文本。5.如权利要求4所述的方法,为所述至少一个答案文本生成对应的问题文本,包括:将标题链、段落答案文本和句子答案文本输入问句生成模型;获取所述问句生成模型输出的所述句子答案文本对应的问题文本。6.如权利要求1所述的方法,基于所述至少一个文本元素在所述待处理文本中确定至少一个答案文本,包括:在文本块的文本句子中识别所述待处理文本对应的实体文本;根据实体筛选条件在所述实体文本筛选目标实体,作为片段答案文本。7.如权利要求6所述的方法,为所述至少一个答案文本生成对应的问题文本,包括:将标题链、段落答案文本和片段答案文本输入问句生成模型;获取所述问句生成模型输出的所述片段答案文本对应的问题文本。8.如权利要求1所述的方法,所述方法还包括:确定所述待处...
【专利技术属性】
技术研发人员:李晶阳,余海洋,黄非,李永彬,
申请(专利权)人:阿里巴巴中国有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。