一种基于关键词的儿童绘本故事生成方法、系统及设备技术方案

技术编号:23625046 阅读:57 留言:0更新日期:2020-03-31 22:46
本发明专利技术提供一种基于关键词的儿童绘本故事生成方法、系统及设备。生产方法为:使用爬虫采集儿童绘本故事语料并清洗;将清洗之后的儿童绘本故事语料作为训练数据对基于LSTM的儿童绘本故事生成模型进行训练得到儿童绘本故事生成模型;获取种子关键词;根据所述种子关键词在儿童绘本故事语料中获取包含关键词的句子作为种子句子;将获得的种子句子作为种子输入所述基于LSTM的儿童绘本故事生成模型中,进行儿童绘本故事生成。将生成方法嵌入智能台灯阅读器,关键词和儿童绘本故事采用语音输入输出,实现语音智能交互。本发明专利技术提供的语音交互方式相对于文字来说对儿童更加友好,易于接受且故事生成更准确,且生成的故事更加符合语法规则,整体质量更高。

A method, system and equipment for generating children's picture book story based on key words

【技术实现步骤摘要】
一种基于关键词的儿童绘本故事生成方法、系统及设备
本专利技术涉及自然语言处理领域,尤其涉及一种基于关键词的儿童绘本故事生成方法、系统、设备及存储介质。
技术介绍
随着人工智能技术在各应用领域的不断发展,文本自动生成领域也出现了越来越多的相关技术,目标是使计算机能够像人类一样进行创造性的写作,创作出高质量的文字作品。目前文本自动生成在体育新闻快报或者证券市场资讯等细分领域有一些应用,但大多数基于模板的内容填充方法,内容结构上比较固定。另外文本自动生成在机器人作诗或生成歌词也有一些应用,基本的方法是基于字符级别的RNN,但生成的诗或歌词无法考虑到上下文的语义关系,因此整体上会显得比较生硬。儿童绘本故事生成也属于文本自动生成的细分领域,目前文本生成在该细分领域还没有具体的应用。一方面儿童绘本故事受众是儿童,因具有形象直白的特点,区别了诗和歌词的隐喻难懂;另一方面儿童绘本故事要求丰富多样的,区别于新闻快报的千篇一律。儿童绘本故事能够使儿童在轻松、愉悦的氛围中进行阅读,是儿童接受外界知识的一种很重要的渠道。儿童绘本故事通过幽默、丰本文档来自技高网...

【技术保护点】
1.一种基于关键词的儿童绘本故事生成方法,其特征在于,包括以下步骤:/nS1、离线模型训练:将儿童绘本故事语料作为训练数据,训练得到基于LSTM的儿童绘本故事生成模型;/nS2、在线实时生成儿童绘本故事:抽取关键词;根据所述关键词在儿童绘本故事语料中提取包含关键词的句子作为种子句子;将所述种子句子作为种子输入所述基于LSTM的儿童绘本故事生成模型中,生成儿童绘本故事。/n

【技术特征摘要】
1.一种基于关键词的儿童绘本故事生成方法,其特征在于,包括以下步骤:
S1、离线模型训练:将儿童绘本故事语料作为训练数据,训练得到基于LSTM的儿童绘本故事生成模型;
S2、在线实时生成儿童绘本故事:抽取关键词;根据所述关键词在儿童绘本故事语料中提取包含关键词的句子作为种子句子;将所述种子句子作为种子输入所述基于LSTM的儿童绘本故事生成模型中,生成儿童绘本故事。


2.根据权利要求1所述的方法,其特征在于,所述步骤S2中,用户通过语音方式进行。


3.根据权利要求2所述的方法,其特征在于,所述步骤S1离线模型训练的具体实现过程为:
S11、采集语料:获得儿童绘本或儿童故事;
S12、语料清洗;
S13、文本词向量表示;
S14、模型构建:选用LSTM的Encoder-Decoder框架模型;
S15、模型训练:输入清洗后得到的文本作为训练样本,设定各类参数,包括学习率,迭代周期;进行模型训练,最后得到训练效果最佳的Encoder-Decoder框架模型。


4.根据权利要求3所述的生成方法,其特征在于,所述步骤S11采集语料的过程为:
1)网页爬取:使用nutch框架,对指定的儿童绘本网站和儿童故事网站进行全站爬取,得到html网页;
2)网页内容抽取:对html网页中的文本进行抽取,得到绘本文本内容和故事文本内容;
3)代理IP服务:为防止频繁访问网站而被限制,加入代理IP模式。


5.根据权利要求3所述的生成方法,其特征在于,所述步骤S13文本词向量表示,对清洗后的语料进行分词,再使用word2vec进行词向量表示;
所述步骤S14模型构建的过程为:
对清洗后的儿童绘本故事语料进行词向量表示,输入到LSTM的Encoder-Decoder框架模型;对词向量表示进行编码-解码,具体为:
编码部分LSTM模型,其输入为固定长度的向量,对词向量表示的向量,经过LSTM模型层后,输出部分再经过Dropout层,以防止模型过拟合;最后生成一个固定长度的语义向量C,该向量代表编码器将整个输入序列的信息压缩到一个固定长度的向量中去;
解码部分的LSTM模型,其输入为编码部分生成的语义向量C,经过LSTM模型层后,输出为不等...

【专利技术属性】
技术研发人员:徐叶强王峰窦任荣吴云标谢海博
申请(专利权)人:广州爱学信息科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1