三元组样本的生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号:26171134 阅读:21 留言:0更新日期:2020-10-31 13:42
本申请公开了一种三元组样本的生成方法、装置、电子设备及存储介质,涉及基于人工智能的自然语言处理技术领域、以及深度学习技术领域。具体实现方案为:获取三元组样本中的段落文本;从段落文本中提取至少一个答案片段;基于段落文本和各答案片段,分别采用预先训练的问题生成模型生成相应的问题,以得到三元组样本。本申请中,由于预先训练的问题生成模型基于预训练的语义表示模型训练得到,该问题生成模型的准确性非常好,因而,采用该问题生成模型生成的(Q,P,A)三元组样本的准确性非常高。

【技术实现步骤摘要】
三元组样本的生成方法、装置、电子设备及存储介质
本申请涉及计算机
,尤其涉及基于人工智能的自然语言处理
、以及深度学习
,具体涉及一种三元组样本的生成方法、装置、电子设备及存储介质。
技术介绍
在自然语言处理(NaturalLanguageProcessing;NLP)中,问题生成技术指给定一个自然文本段落P,在段落P中找到某个可提问的答案片段A,并针对答案片段A进行提问,从而生成问题Q。利用问题生成技术,可以从海量的自然文本当中,以生成的方式得到大规模的(Q,P,A)三元组。这些三元组可为段落排序、阅读理解模型的训练提供大量的训练样本,节约人工标注样本的成本;同时也可以按照键值对(key-value;kv)检索的方式,支持搜索、问答系统。现有技术中的(Q,P,A)三元组的样本获取方法,主要利用循环神经网络(RecurrentNeuralNetwork;RNN)、长短期记忆(LongShort-TermMemory;LSTM)网络或者Transformer等传统sequence-to-sequence模型结构,本文档来自技高网...

【技术保护点】
1.一种三元组样本的生成方法,其中所述方法包括:/n获取三元组样本中的段落文本;/n从所述段落文本中提取至少一个答案片段;/n基于所述段落文本和各所述答案片段,分别采用预先训练的问题生成模型生成相应的问题,以得到所述三元组样本;所述预先训练的问题生成模型基于预训练的语义表示模型训练得到。/n

【技术特征摘要】
1.一种三元组样本的生成方法,其中所述方法包括:
获取三元组样本中的段落文本;
从所述段落文本中提取至少一个答案片段;
基于所述段落文本和各所述答案片段,分别采用预先训练的问题生成模型生成相应的问题,以得到所述三元组样本;所述预先训练的问题生成模型基于预训练的语义表示模型训练得到。


2.根据权利要求1所述的方法,其中,从所述段落文本中提取至少一个答案片段,包括:
根据预设的答案片段提取规则,从所述段落文本中提取所述至少一个答案片段。


3.根据权利要求1所述的方法,其中,从所述段落文本中提取至少一个答案片段,包括:
采用预先训练的答案选择模型,从所述段落文本中提取所述至少一个答案片段,所述答案选择模型基于预训练的语义表示模型训练得到。


4.根据权利要求3所述的方法,其中,采用预先训练的答案选择模型,从所述段落文本中提取所述至少一个答案片段,包括:
采用所述答案选择模型,预测所述段落文本中所有的候选答案片段能够作为答案片段的概率;
从所述所有的候选答案片段中选择概率最大的至少一个,作为所述至少一个答案片段。


5.根据权利要求1-4任一所述的方法,其中,基于所述段落文本和各所述答案片段,分别采用预先训练的问题生成模型生成相应的问题,包括:
对于各所述答案片段,采用所述问题生成模型基于所述答案片段和所述段落文本,在预设词库中解码,获取概率最大的词,作为所述问题的第一个词;
采用所述问题生成模型基于所述答案片段、所述段落文本以及所述问题中已经解码的前N个词,在所述预设词库中继续解码,获取概率最大的词,作为所述问题的第N+1个词;其中N大于或者等于1;
判断所述第N+1个词是否为结束符或者当前得到的N+1个词的总长度是否已经达到预设长度阈值;
若是,确定解码结束,将所述N+1个词按照解码顺序拼接,得到所述问题。


6.一种三元组样本的生成装置,其中所述装置包括:
获取模块,用于获取三元组样本中的段落文本;
答案提取模块,用于从所述段落文本中提取至少一个答案片段;
问题生成模块,用于基于所述...

【专利技术属性】
技术研发人员:李弘宇刘璟
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1