基于深度学习和知识库的智能对联生成方法技术

技术编号：38055110 阅读：16 留言：0更新日期：2023-06-30 11:20

本发明专利技术公开了一种基于深度学习和知识库的智能对联生成方法，包括：训练Seq2seq神经网络模型；当用户输入上联数据后，首先从知识库中查询用户输入的上联数据是否为经典古诗词名句,若是则从知识库输出经典古诗词名句对应的下联，若不是则进入知识库用户历史数据中进行查询；在知识库用户历史数据中查询用户是否曾经输入非经典古诗词名句的上联数据，若是则从知识库用户历史数据直接返回下联，若不是则将上联数据作为输入代入seq2seq神经网络模型进行前向处理计算得到下联数据；本发明专利技术达到了人机对对联的实时智能交互。人机对对联的实时智能交互。人机对对联的实时智能交互。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度学习和知识库的智能对联生成方法

[0001]本专利技术涉及机器学习
，特别是一种基于深度学习和知识库的智能对联生成方法。

技术介绍

[0002]随着人工智能的迅猛发展，深度学习(DL,Deep Learning，简称DL)在自然语言处理领域(Natural Language Processing，简称为NLP)中取得了长足的发展。近年来人工智能和数据库的有机结合，促使知识库系统也取得了长足的发展。
[0003]现在市场上比较成熟的“自动对联系统”有微软亚洲研究院自然语言计算组研发的计算机自动对联系统，和手机端的“对联赏析”APP。现有的对联技术在上下联的语义配合方面存在着一些问题，对联的长度被限制在了10字以内，且不可以含有标点。而且对联系统是纯基于数据库的系统或者是纯基于模型的系统，缺少将两者有机融合的对联系统。现有技术训练对联模型的方法存在如下三个问题：
[0004](1)对联数据数据规模问题，对联数据数据规模相比于网络文本、论坛文本、汉语现代文文本数据规模来说算小数据。前者的数据量级别在几十万级别，而后者的数据量级可以轻松达到百万级别和千万级别。
[0005](2)现有对联训练数据通常采用的是文本对齐方式训练对联模型(例如将文本固定成12个字，文本过长则截断、文本过短则填充占用字符使得文本对齐到12个字)，这就造成了模型学习对联特征的时候，学习的数据是有偏差的，部分数据是不全的，部分数据是有噪声的。
[0006](3)基于验证集训练过程仍未能避免模型同时在训练集和验

【技术保护点】

【技术特征摘要】
1.一种基于深度学习和知识库的智能对联生成方法，其特征在于，包括以下步骤：步骤1、训练Seq2seq神经网络模型；步骤2、当用户输入上联数据后，首先从知识库中查询用户输入的上联数据是否为经典古诗词名句,若是则从知识库输出经典古诗词名句对应的下联，若不是则进入知识库用户历史数据中进行查询；步骤3、在知识库用户历史数据中查询用户是否曾经输入步骤1中的非经典古诗词名句的上联数据，若是则从知识库用户历史数据直接返回下联，若不是则将上联数据作为输入代入所述seq2seq神经网络模型进行前向处理计算得到下联数据；步骤4、保存seq2seq神经网络模型计算得到下联到数据库中作为知识库用户历史数据；并反馈seq2seq神经网络模型计算得到下联到前端页面进行显示。2.根据权利要求1所述的基于深度学习和知识库的智能对联生成方法，其特征在于，步骤1中训练Seq2seq神经网络模型具体包括以下步骤：步骤1.1、对同义词替换的对联数据进行增广,具体包括：(1)在训练集D中随机选择一对曾经未选择的对联d；(2)对对联d进行分词，选出对联d中的名词、动词、形容词构成集合e；(3)在集合e中随机选择k个词语在原始对联的对应位置上进行同义词替换；(4)将新生成的对联d
’
加入集合D
’
；(5)重复(1)
‑
(4)直到集合D
’
数据量满足训练要求；(6)将训练集D和集合D
’
进行合并输出新的训练集T...

【专利技术属性】
技术研发人员：黎宇，梁斌，张闪闪，
申请(专利权)人：四川九州电子科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人