三元组样本的生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号：26171134 阅读：21 留言：0更新日期：2020-10-31 13:42

本申请公开了一种三元组样本的生成方法、装置、电子设备及存储介质，涉及基于人工智能的自然语言处理技术领域、以及深度学习技术领域。具体实现方案为：获取三元组样本中的段落文本；从段落文本中提取至少一个答案片段；基于段落文本和各答案片段，分别采用预先训练的问题生成模型生成相应的问题，以得到三元组样本。本申请中，由于预先训练的问题生成模型基于预训练的语义表示模型训练得到，该问题生成模型的准确性非常好，因而，采用该问题生成模型生成的(Q,P,A)三元组样本的准确性非常高。

全部详细技术资料下载

【技术实现步骤摘要】
三元组样本的生成方法、装置、电子设备及存储介质
本申请涉及计算机
，尤其涉及基于人工智能的自然语言处理
、以及深度学习
，具体涉及一种三元组样本的生成方法、装置、电子设备及存储介质。
技术介绍
在自然语言处理(NaturalLanguageProcessing；NLP)中，问题生成技术指给定一个自然文本段落P，在段落P中找到某个可提问的答案片段A，并针对答案片段A进行提问，从而生成问题Q。利用问题生成技术，可以从海量的自然文本当中，以生成的方式得到大规模的(Q,P,A)三元组。这些三元组可为段落排序、阅读理解模型的训练提供大量的训练样本，节约人工标注样本的成本；同时也可以按照键值对(key-value；kv)检索的方式，支持搜索、问答系统。现有技术中的(Q,P,A)三元组的样本获取方法，主要利用循环神经网络(RecurrentNeuralNetwork；RNN)、长短期记忆(LongShort-TermMemory；LSTM)网络或者Transformer等传统sequence-to-seq...

【技术保护点】
1.一种三元组样本的生成方法，其中所述方法包括：/n获取三元组样本中的段落文本；/n从所述段落文本中提取至少一个答案片段；/n基于所述段落文本和各所述答案片段，分别采用预先训练的问题生成模型生成相应的问题，以得到所述三元组样本；所述预先训练的问题生成模型基于预训练的语义表示模型训练得到。/n

【技术特征摘要】
1.一种三元组样本的生成方法，其中所述方法包括：
获取三元组样本中的段落文本；
从所述段落文本中提取至少一个答案片段；
基于所述段落文本和各所述答案片段，分别采用预先训练的问题生成模型生成相应的问题，以得到所述三元组样本；所述预先训练的问题生成模型基于预训练的语义表示模型训练得到。

2.根据权利要求1所述的方法，其中，从所述段落文本中提取至少一个答案片段，包括：
根据预设的答案片段提取规则，从所述段落文本中提取所述至少一个答案片段。

3.根据权利要求1所述的方法，其中，从所述段落文本中提取至少一个答案片段，包括：
采用预先训练的答案选择模型，从所述段落文本中提取所述至少一个答案片段，所述答案选择模型基于预训练的语义表示模型训练得到。

4.根据权利要求3所述的方法，其中，采用预先训练的答案选择模型，从所述段落文本中提取所述至少一个答案片段，包括：
采用所述答案选择模型，预测所述段落文本中所有的候选答案片段能够作为答案片段的概率；
从所述所有的候选答案片段中选择概率最大的至少一个，作为所述至少一个答案片段。

5.根据权利要求1-4任一所述的方法，其中，基于所述段落文本和各所述答案片段，分别采用预先训练的问题生成模型生成相应的问题，包括：
对于各所述答案片段，采用所述问题生成模型基于所述答案片段和所述段落文本，在预设词库中解码，获取概率最大的词，作为所述问题的第一个词；
采用所述问题生成模型基于所述答案片段、所述段落文本以及所述问题中已经解码的前N个词，在所述预设词库中继续解码，获取概率最大的词，作为所述问题的第N+1个词；其中N大于或者等于1；
判断所述第N+1个词是否为结束符或者当前得到的N+1个词的总长度是否已经达到预设长度阈值；
若是，确定解码结束，将所述N+1个词按照解码顺序拼接，得到所述问题。

6.一种三元组样本的生成装置，其中所述装置包括：
获取模块，用于获取三元组样本中的段落文本；
答案提取模块，用于从所述段落文本中提取至少一个答案片段；
问题生成模块，用于基于所述...

【专利技术属性】
技术研发人员：李弘宇，刘璟，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人