【技术实现步骤摘要】
三元组样本的生成方法、装置、电子设备及存储介质
本申请涉及计算机
,尤其涉及基于人工智能的自然语言处理
、以及深度学习
,具体涉及一种三元组样本的生成方法、装置、电子设备及存储介质。
技术介绍
在自然语言处理(NaturalLanguageProcessing;NLP)中,问题生成技术指给定一个自然文本段落P,在段落P中找到某个可提问的答案片段A,并针对答案片段A进行提问,从而生成问题Q。利用问题生成技术,可以从海量的自然文本当中,以生成的方式得到大规模的(Q,P,A)三元组。这些三元组可为段落排序、阅读理解模型的训练提供大量的训练样本,节约人工标注样本的成本;同时也可以按照键值对(key-value;kv)检索的方式,支持搜索、问答系统。现有技术中的(Q,P,A)三元组的样本获取方法,主要利用循环神经网络(RecurrentNeuralNetwork;RNN)、长短期记忆(LongShort-TermMemory;LSTM)网络或者Transformer等传统sequence-to-seq ...
【技术保护点】
1.一种三元组样本的生成方法,其中所述方法包括:/n获取三元组样本中的段落文本;/n从所述段落文本中提取至少一个答案片段;/n基于所述段落文本和各所述答案片段,分别采用预先训练的问题生成模型生成相应的问题,以得到所述三元组样本;所述预先训练的问题生成模型基于预训练的语义表示模型训练得到。/n
【技术特征摘要】
1.一种三元组样本的生成方法,其中所述方法包括:
获取三元组样本中的段落文本;
从所述段落文本中提取至少一个答案片段;
基于所述段落文本和各所述答案片段,分别采用预先训练的问题生成模型生成相应的问题,以得到所述三元组样本;所述预先训练的问题生成模型基于预训练的语义表示模型训练得到。
2.根据权利要求1所述的方法,其中,从所述段落文本中提取至少一个答案片段,包括:
根据预设的答案片段提取规则,从所述段落文本中提取所述至少一个答案片段。
3.根据权利要求1所述的方法,其中,从所述段落文本中提取至少一个答案片段,包括:
采用预先训练的答案选择模型,从所述段落文本中提取所述至少一个答案片段,所述答案选择模型基于预训练的语义表示模型训练得到。
4.根据权利要求3所述的方法,其中,采用预先训练的答案选择模型,从所述段落文本中提取所述至少一个答案片段,包括:
采用所述答案选择模型,预测所述段落文本中所有的候选答案片段能够作为答案片段的概率;
从所述所有的候选答案片段中选择概率最大的至少一个,作为所述至少一个答案片段。
5.根据权利要求1-4任一所述的方法,其中,基于所述段落文本和各所述答案片段,分别采用预先训练的问题生成模型生成相应的问题,包括:
对于各所述答案片段,采用所述问题生成模型基于所述答案片段和所述段落文本,在预设词库中解码,获取概率最大的词,作为所述问题的第一个词;
采用所述问题生成模型基于所述答案片段、所述段落文本以及所述问题中已经解码的前N个词,在所述预设词库中继续解码,获取概率最大的词,作为所述问题的第N+1个词;其中N大于或者等于1;
判断所述第N+1个词是否为结束符或者当前得到的N+1个词的总长度是否已经达到预设长度阈值;
若是,确定解码结束,将所述N+1个词按照解码顺序拼接,得到所述问题。
6.一种三元组样本的生成装置,其中所述装置包括:
获取模块,用于获取三元组样本中的段落文本;
答案提取模块,用于从所述段落文本中提取至少一个答案片段;
问题生成模块,用于基于所述...
【专利技术属性】
技术研发人员:李弘宇,刘璟,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。