文本处理方法、装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号:29675061 阅读:27 留言:0更新日期:2021-08-13 21:57
本申请实施例提供了一种文本处理方法、装置、电子设备及计算机可读存储介质,该方法包括:获取待处理文本对应的至少一个词序列,每一词序列对应于问题文本和一个段落文本;将各词序列输入训练好的文本处理模型,通过训练好的文本处理模型分别提取各词序列中各词的特征向量,并基于特征向量获取各词序列中各词的概率,概率包括对应的词为答案的起始词的第一概率、以及为答案的终止词的第二概率;基于各词序列中各词的第一概率和第二概率,确定出问题文本的答案。该方案文本处理模型既利用了段落文本中各词的特征向量也利用了问题文本中各词的特征向量,且输出的各词的概率具有可比性,保证了最终答案的准确性。

【技术实现步骤摘要】
文本处理方法、装置、电子设备及计算机可读存储介质
本申请涉及计算机
,具体而言,本申请涉及一种文本处理方法、装置、电子设备及计算机可读存储介质。
技术介绍
机器阅读理解(MachineReadingComprehension,MRC)是利用机器学习模型来做文本问题理解工作,是自然语言处理(NaturalLanguageProcessing,NLP)中一项基础的底层技术。它的基本任务是给出一个问题,以及一些文档,从这些文档里找出这个问题的答案。传统的MRC任务是“一问一答”形式,也就是一个问题对应一个段落。但是,在很多实际情况下,一个问题对应的并不只是一个段落。例如在开放域问答(OpenQA,OpenQuestionandAnswer)场景下,一个问题对应于多个段落。现有的机器阅读理解方法中的机器阅读理解模型是针对“一个问题对应一个段落”的场景设计的,利用现有机器阅读理解方法对“一个问题对应多个段落”的场景进行处理时,可能出现获取到的答案不准确的问题,因此有必要对现有方法提出改进。
技术实现思路
r>本申请的目的旨在本文档来自技高网...

【技术保护点】
1.一种文本处理方法,其特征在于,包括:/n获取待处理文本对应的至少一个词序列,所述待处理文本包括问题文本和对应的至少一个与问题文本相关的段落文本,每一词序列对应于所述问题文本和一个所述段落文本;/n将各词序列输入训练好的文本处理模型,通过所述训练好的文本处理模型分别提取各词序列中各词的特征向量,并基于所述特征向量获取各词序列中各词的概率,所述概率包括对应的词为答案的起始词的第一概率、以及为答案的终止词的第二概率;/n基于各词序列中各词的所述第一概率和所述第二概率,确定出问题文本的答案。/n

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:
获取待处理文本对应的至少一个词序列,所述待处理文本包括问题文本和对应的至少一个与问题文本相关的段落文本,每一词序列对应于所述问题文本和一个所述段落文本;
将各词序列输入训练好的文本处理模型,通过所述训练好的文本处理模型分别提取各词序列中各词的特征向量,并基于所述特征向量获取各词序列中各词的概率,所述概率包括对应的词为答案的起始词的第一概率、以及为答案的终止词的第二概率;
基于各词序列中各词的所述第一概率和所述第二概率,确定出问题文本的答案。


2.根据权利要求1所述的方法,其特征在于,所述获取待处理文本对应的至少一个词序列,包括:
将所述问题文本和所述至少一个段落文本分别进行分词处理,得到问题词序列和至少一个段落词序列;
将各段落词序列分别与所述问题词序列进行拼接,得到对应的词序列。


3.根据权利要求2所述的方法,其特征在于,将各段落词序列分别与所述问题词序列进行拼接,得到对应的词序列,包括:
将所述问题词序列拼接在各段落词序列之前,并在所述问题词序列之前、所述问题词序列与所述段落词序列之间以及所述段落词序列之后,添加第一指定字符,得到对应的词序列。


4.根据权利要求1所述的方法,其特征在于,所述训练好的文本处理模型通过如下方式训练得到:
获取预设数量的训练样本,并获取各训练样本对应的至少一个样本词序列,所述训练样本包括问题文本和对应的至少一个标注有答案的起始词和终止词的段落文本,每一样本词序列对应于所述问题文本和一个所述段落文本;
依次将各训练样本对应的至少一个样本词序列输入初始的文本处理模型,从所述文本处理模型的输出中获取各样本词序列中标注的答案的起始词的目标第一概率、以及终止词的目标第二概率,并基于所述目标第一概率和所述目标第二概率获取各训练样本对应的损失值;
分别基于各训练样本对应的损失值,调整所述文本处理模型的模型参数,当所述损失值满足预设条件时得到所述训练好的文本处理模型。


5.根据权利要求4所述的方法,其特征在于,所述获取预设数量的训练样本,包括:
获取预设数量的第一文本,并选取各第一文本中的特定实体作为答案;
将各第一文本中的实体替换为第二指定字符得到第二文本,并基于所述第二文本从预设段落库中检索得到至少一个段落文本;
利用所述答案对所述段落文本进行标注,得到标注有答案的起始词和终止词的段落文本;
将所述第二文本作为问题文本,并与对应的至少一个标注有答案的起始词和终止词的段落文本构成对应的训练样本。


6.根据权利要求4所述的方法,其特征在于,所述损失值指示各样本词序列对应的各目标第一概率值与各目标第二概率值之和的大小,且所述损失值越小,对应的各目标第一...

【专利技术属性】
技术研发人员:杨韬
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1