一种长文本生成方法、装置及电子设备制造方法及图纸

技术编号:32110615 阅读:29 留言:0更新日期:2022-01-29 18:53
本发明专利技术实施例提供了一种长文本生成方法、装置及电子设备,属于文本处理技术领域。该方法包括:对于用户提出的目标问题,可以检索与目标问题相关的专业文章,并确定文章中每个句子的文章内重要性参数、文章间重要性参数以及应出现在答复长文本的概率参数,然后可以根据上述参数,从文章的句子中,选出应出现在答复长文本的目标句子,进而将选出的目标句子输入训练后的第二模型,从而可以自动生成针对目标问题的答复长文本。该答复长文本是将针对目标问题搜索到的专业性句子进行合理化整合得到的,因而具有较强的专业性及逻辑性。本发明专利技术实施例中,无需人工生产答复长文本,提高了自动答复的效率,节约了人力和成本。节约了人力和成本。节约了人力和成本。

【技术实现步骤摘要】
一种长文本生成方法、装置及电子设备


[0001]本专利技术涉及文本处理
,特别是涉及一种长文本生成方法、装置及电子设备。

技术介绍

[0002]自动问答系统可以根据用户的问题,自动找到答案反馈给用户,可以应用于诸多场景,例如自动客服替代人工解答客户疑问的场景,在语音助手回答百科知识等问题的场景等,自动问答系统能够提升用户查找知识的效率。
[0003]然而,目前的一些自动问答系统基本只能够回复短文本,最多是从文章中摘取一段文本回复。而在医学科普、儿童教育等领域的实际应用中,短文本所包含的信息量极其有限,实际场景往往需要根据用户提问,产生一篇数百字以上的、具有条理结构的解答文章。解答文章的内容不仅回答用户的问题,还需要补充相应的背景知识,以便用户理解解答文章的内容。实际应用中,这类解答文章仍需依赖领域专家人工进行生产,效率低,人力成本高。

技术实现思路

[0004]鉴于上述问题,提出了本专利技术实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种长文本生成方法、装置及电子设备。
[0005]根据本专利本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种长文本生成方法,其特征在于,所述方法包括:获取目标问题文本;从预设文章数据库中,检索所述目标问题文本的相关文本;所述相关文本中包括至少一个候选句子;确定所述候选句子在所述相关文本中的文本内重要性参数;从所述预设文章数据库中,确定所述相关文本的关联文本;确定所述候选句子出现在所述关联文本中的文本间重要性参数;将所述候选句子作为输入,通过训练后的第一模型,输出所述候选句子应出现在答复长文本的概率参数;根据每个所述候选句子对应的所述文本内重要性参数、所述文本间重要性参数和所述概率参数,从所有的所述候选句子中,选出应出现在答复长文本的目标句子;将选出的所述目标句子作为输入,通过训练后的第二模型,输出针对所述目标问题文本的答复长文本。2.根据权利要求1所述的方法,其特征在于,所述根据每个所述候选句子对应的所述文本内重要性参数、所述文本间重要性参数和所述概率参数,从所有的所述候选句子中,选出应出现在答复长文本的目标句子之前,还包括:确定每个所述候选句子在所述相关文本中的出现位置;确定每个所述候选句子在所述相关文本中与上下文的关系;相应的,所述根据每个所述候选句子对应的所述文本内重要性参数、所述文本间重要性参数和所述概率参数,从所有的所述候选句子中,选出应出现在答复长文本的目标句子,包括:根据每个所述候选句子对应的所述文本内重要性参数、所述文本间重要性参数、所述概率参数、所述出现位置和所述与上下文的关系,从所有的所述候选句子中,选出应出现在答复长文本的目标句子。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取用于训练所述第一模型的多个第一问题训练文本,以及所述第一问题训练文本对应的第一人工答复文本;所述第一人工答复文本中包括至少一个第二句子;从所述预设文章数据库中,检索每个所述第一问题训练文本的第一相关训练文本;所述第一相关训练文本中包括至少一个第一句子;对于针对同一所述第一问题训练文本的所述第一相关训练文本和所述第一人工答复文本,确定每个所述第一句子分别与每个所述第二句子之间的语义相似度;根据所述语义相似度,确定与每个所述第二句子相似的第一句子;将与每个所述第二句子相似的第一句子作为正例,将所述第一相关训练文本中的其余第一句子作为负例,获得第一训练集;通过所述第一训练集,对所述第一模型进行训练,得到训练后的第一模型。4.根据权利要求3所述的方法,其特征在于,所述将与每个所述第二句子相似的第一句子作为正例,将所述第一相关训练文本中的其余第一句子作为负例,获得第一训练集,包括:对每个所述第一句子分别进行特征提取,得到每个所述第一句子的特征向量;
将与每个所述第二句子相似的第一句子的特征向量作为正例的输入,将1作为所述正例的输出,将所述第一相关训练文本中的其余第一句子的特征向量作为负例的输入,将1作为所述负例的输出,获得第一训练集。5.根据权利要求4所述的方法,其特征在于,所述第一句子的特征向量包括所述第一句子的句子向量、句子长度、句子与对应的所述第一问题训练文本之间的相...

【专利技术属性】
技术研发人员:王卓然沈寓实
申请(专利权)人:飞诺门阵北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1