【技术实现步骤摘要】
文本复述模型的训练方法、文本复述方法和装置
[0001]本说明书涉及人工智能领域,尤其涉及一种文本复述模型的训练方法、文本复述方法和装置。
技术介绍
[0002]文本复述是指在保持语义不变的情况下,改变文本的表述方式。文本复述在机器翻译、信息检索、问答系统等领域有着广泛的应用。如何提高文本复述的多样性与准确性已成为亟待解决的技术问题。
技术实现思路
[0003]有鉴于此,本说明书提供一种文本复述模型的训练方法、文本复述方法和装置。
[0004]具体地,本说明书是通过如下技术方案实现的:
[0005]一种文本复述模型的训练方法,包括:
[0006]获取训练文本对,所述训练文本对包括原始训练文本和复述训练文本;
[0007]为所述复述训练文本生成词汇控制条件和语法控制条件;
[0008]将所述原始训练文本、所述词汇控制条件和所述语法控制条件输入待训练的文本复述模型,得到所述文本复述模型输出的复述预测文本;
[0009]基于所述复述预测文本和所述复述训练文本之间的差异 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种文本复述模型的训练方法,包括:获取训练文本对,所述训练文本对包括原始训练文本和复述训练文本;为所述复述训练文本生成词汇控制条件和语法控制条件;将所述原始训练文本、所述词汇控制条件和所述语法控制条件输入待训练的文本复述模型,得到所述文本复述模型输出的复述预测文本;基于所述复述预测文本和所述复述训练文本之间的差异,更新所述文本复述模型的参数,以对所述文本复述模型进行训练;其中,所述文本复述模型包括预训练的语言模型和解码器,所述预训练的语言模型用于以所述词汇控制条件和所述语法控制条件为约束,对所述原始训练文本进行语义编码,输出所述原始训练文本的语义表征向量,所述解码器用于基于所述语义表征向量进行复述文本的预测,输出复述预测文本。2.根据权利要求1所述的方法,所述语法控制条件为复述样例文本;所述为所述复述训练文本生成语法控制条件,包括:为所述复述训练文本生成截断线性化成分树LCT;在范例字典中查找所述截断LCT匹配的复述样例文本,作为所述复述训练文本的语法控制条件;其中,所述范例字典中包括截断LCT与复述样例文本之间的映射关系。3.根据权利要求2所述的方法,所述在范例字典中查找所述截断LCT匹配的复述样例文本,包括:计算所述复述训练文本的截断LCT与所述范例字典中各截断LCT之间的语法编辑距离;将所述范例字典中计算得到最小语法编辑距离的截断LCT对应的复述样例文本确定为所述匹配的复述样例文本。4.根据权利要求2所述的方法,所述范例字典的生成方法,包括:为各训练文本对中的复述训练文本生成截断LCT,得到截断LCT和复述训练文本之间的映射关系;针对每个截断LCT,在所述截断LCT对应多个复述训练文本的情况下,从中选择一个复述训练文本作为复述样例文本;在所述截断LCT对应一个复述训练文本的情况下,将所述复述训练文本确定为复述样例文本;基于所述截断LCT与所述复述样例文本之间的映射关系生成范例字典。5.根据权利要求2所述的方法,所述为所述复述训练文本生成截断LCT,包括:为所述复述训练文本生成LCT;过滤掉所述LCT中叶子节点词性,得到截断LCT。6.根据权利要求1所述的方法,所述为所述复述训练文本生成词汇控制条件,包括:采用关键词抽取算法从所述复述训练文本中抽取出关键词,作为所述复述训练文本的词汇控制条件。7.根据权利要求1所述的方法,所述语法控制条件包括:所述复述训练文本的词性标注、LCT、语法框架模板和复述样例文本中的一种,所述文本复述模型对应于所述语法控制条件。8.一种文本复述方法,包括:获取待复述文本和所述待复述文本的控制条件;
将所述待复述文本和所述控制条件输入已训练的文本复述模型,得到所述文本复述模型输出的文本复述结果;其中,所述文本复述模型基于权利要求1
‑
技术研发人员:杨可心,刘大一恒,姚亮,杨宝嵩,张海波,陈博兴,谢军,
申请(专利权)人:阿里巴巴中国有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。