基于动态权重的文本生成方法、设备及存储介质技术

技术编号:29966970 阅读:15 留言:0更新日期:2021-09-08 09:36
本发明专利技术公开了一种基于动态权重的文本生成方法、设备及存储介质,所述文本生成方法包括:构建热词词库,热词词库中存储有每隔第一预设时间段获取的热搜词及每个热搜词的热搜权重,每个热搜词的热搜权重根据每个热搜词的频率参数和每个热搜词的构建时间生成;接收输入的任一文本;从任一文本中提取多个主题词;匹配主题词与热词词库,得到每个主题词的热搜权重;根据包含热搜权重的主题词生成更新后的文本。本申请实现动态加权的新闻事件多主题自动生成方法,根据增量自动搜索构建的热词,结合词的频次信息和热搜时间信息动态地赋予热词相应权重,用以处理更新快的实时性网络新闻数据。数据。数据。

【技术实现步骤摘要】
基于动态权重的文本生成方法、设备及存储介质


[0001]本专利技术属于自然语言处理领域,特别涉及一种基于动态权重的文本生成方法、设备及存储介质。

技术介绍

[0002]随着互联网的普及,网络逐渐成为社会中各种信息的载体,越来越多的人通过网络获取实时新闻及其相关信息,网页文本已成为获取信息的重要来源,每天都有大量的新闻热点产生,如何利用文本自动生成技术从海量的新闻文本中获取当前讨论的热点话题已经成为新闻文本处理必备的基础技术。同时,文本自动生成是自然语言处理领域的一项重要的具有挑战性的研究任务,旨在让计算机学会像人类一样写出高质量的自然语言文本,广泛应用于机器翻译、文本摘要、搜索推荐、问答和对话系统等方面。
[0003]新闻报道是事件的载体,一篇新闻报道中可能出现多个原子事件,然而这些原子事件往往是对关键事件不同方面的补充,通常人们对于一篇新闻报道更加注重的是这篇新闻报道的关键事件,目前从单篇新闻报道中抽取新闻要点的事件抽取研究,国内外学者都做了大量研究,并取得了一定效果,这些研究主要针对新闻事件的原子事件和主题事件这两个方面的信息抽取,但是原子事件级别的事件抽取粒度过细,实用性不足,主题级别的事件抽取粒度较粗,精确提取事件信息的效率较差。
[0004]随着深度学习技术的发展,众多基于深度神经网络模型的文本生成方法被提出来,尽管,生成在一定程度上解决了连贯性的问题,但是,深度学习在文本自动生成方面仍存在主题单一、主题分布缺乏多样性,主题词覆盖不全等问题。另外,新闻具有实时性的显著特点,而大多数网络新闻产品往往只是简单地将实时新闻报道或信息展现给用户,很难对新闻按照内容进行组织归类,造成主题分布分散,同时,由于人们对于新闻的兴趣也会随着时间的推移发生变化,所以,如何才能更好地实时性的突出新闻的重点,仍然是当下文本生成存在的难点。

技术实现思路

[0005]本专利技术要解决的技术问题是为了克服现有技术中文本自动生成存在主题单一、主题分布缺乏多样性,主题词覆盖不全、无法实时突出新闻热点等问题的缺陷,提供一种基于动态权重的文本生成方法、设备及存储介质。
[0006]本专利技术是通过下述技术方案来解决上述技术问题:
[0007]一种基于动态权重的文本生成方法,所述文本生成方法包括:
[0008]构建热词词库,所述热词词库中存储有每隔第一预设时间段获取的热搜词及每个热搜词的热搜权重,所述每个热搜词的热搜权重根据所述每个热搜词的频率参数和所述每个热搜词的构建时间生成;
[0009]接收输入的任一文本;
[0010]从所述任一文本中提取多个主题词;
[0011]匹配所述主题词与所述热词词库,得到每个主题词的热搜权重;
[0012]根据包含热搜权重的主题词生成更新后的文本。
[0013]较佳地,所述文本生成方法通过以下步骤生成所述频率参数,具体包括:
[0014]构建语料库,所述语料库存储有多个标准词;
[0015]基于所述语料库对所述第一预设时间段内的所有热搜新闻文本进行切词得到多个分词,并统计每个分词的TF(词频)值;
[0016]选取TF值大于预设阈值的分词作为热搜词;
[0017]以预设周期内的所有新闻文本为单位文本统计每个热搜词的IDF(逆向文件频率)值;
[0018]所述频率参数包括所述TF值和所述IDF值。
[0019]较佳地,所述文本生成方法通过以下公式计算得到所述热搜权重,具体包括:
[0020]W
i
=TF
i
*IDF
i
*[a
×
exp(

λ
×
t
i
)][0021]其中,W
i
为第i个热搜词的热搜权重;TF
i
为第i个热搜词的TF值;IDF
i
为第i个热搜词的IDF值;a为初始权重;λ为时间衰减系数,1>λ>0;t
i
为第i个热搜词被确定为热搜词的时间与当前时间的时间差。
[0022]较佳地,所述构建语料库的步骤具体包括:
[0023]爬取预设第二时间段内的所有网络文本;
[0024]基于不同的词长对所述网络文本进行切词,并统计每个词的频率;
[0025]对每个词长,将频率大于与所述每个词长对应的预设频率的词作为所述标准词。
[0026]较佳地,所述从所述文本中提取多个主题词的步骤之后,所述文本生成方法还包括:
[0027]基于相似度算法获取所述主题词的扩展词,并基于所述主题词和所述扩展词生成关键词库;
[0028]基于聚类算法对所述关键词库中的词进行分类,得到多个聚类关键词以及每个聚类关键词的聚类主题信息;
[0029]匹配所述聚类关键词与所述热词词库,得到每个聚类关键词的热搜权重;
[0030]所述根据包含热搜权重的主题词生成更新后的文本的步骤具体包括:
[0031]根据包含热搜权重的聚类关键词和所述聚类主题信息生成所述更新后的文本。
[0032]较佳地,所述根据包含热搜权重的主题词、聚类关键词和所述聚类主题信息生成所述更新后的文本的步骤具体包括:
[0033]将所述包含热搜权重的关键词及对应的任一文本中的位置信息输入双向长短记忆网络进行词编码,得到每个关键词的词向量表示及每个关键词的位置编码;
[0034]基于注意力机制根据所述词向量表示和所述位置编码得到每个关键词的注意力权重系数;
[0035]根据所述每个关键词的注意力权重系数对所述任一文本中每个句子进行句子编码,得到每个句子的句子向量表示;
[0036]基于注意力机制根据所述句子向量表示和每个聚类关键词的注意力权重系数进行文档编码,得到文档向量表示;
[0037]将所述词向量表示、所述句子向量表示和所述文档向量进行融合得到多尺度特
征,并将所述多尺度特征输入文本生成模型,输出所述更新后的文本;
[0038]其中,所述文本生成模型是利用训练样本及其对应的文本模板对神经网络模型进行训练得到的。
[0039]较佳地,所述从所述文本中提取多个主题词的步骤具体包括:
[0040]基于LDA(一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构)概率主题模型提取所述多个主题词;
[0041]和/或,所述基于聚类算法对所述关键词库中的词进行分类的步骤具体包括:
[0042]基于K

means(典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大)算法对所述关键词库中的词进行分类;
[0043]和/或,所述将所述词向量表示、所述句子向量表示和所述文档向量进行融合得到多尺度特征的步骤具体包括:
[0044]基于注意力机制的神经网络模型对所述词向量表示、所述句子向量本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于动态权重的文本生成方法,其特征在于,所述文本生成方法包括:构建热词词库,所述热词词库中存储有每隔第一预设时间段获取的热搜词及每个热搜词的热搜权重,所述每个热搜词的热搜权重根据所述每个热搜词的频率参数和所述每个热搜词的构建时间生成;接收输入的任一文本;从所述任一文本中提取多个主题词;匹配所述主题词与所述热词词库,得到每个主题词的热搜权重;根据包含热搜权重的主题词生成更新后的文本。2.如权利要求1所述的基于动态权重的文本生成方法,其特征在于,所述文本生成方法通过以下步骤生成所述频率参数,具体包括:构建语料库,所述语料库存储有多个标准词;基于所述语料库对所述第一预设时间段内的所有热搜新闻文本进行切词得到多个分词,并统计每个分词的TF值;选取TF值大于预设阈值的分词作为热搜词;以预设周期内的所有新闻文本为单位文本统计每个热搜词的IDF值;所述频率参数包括所述TF值和所述IDF值。3.如权利要求2所述的基于动态权重的文本生成方法,其特征在于,所述文本生成方法通过以下公式计算得到所述热搜权重,具体包括:W
i
=TF
i
*IDF
i
*[a
×
exp(

λ
×
t
i
)]其中,W
i
为第i个热搜词的热搜权重;TF
i
为第i个热搜词的TF值;IDF
i
为第i个热搜词的IDF值;a为初始权重;λ为时间衰减系数,1>λ>0;t
i
为第i个热搜词被确定为热搜词的时间与当前时间的时间差。4.如权利要求2所述的基于动态权重的文本生成方法,其特征在于,所述构建语料库的步骤具体包括:爬取预设第二时间段内的所有网络文本;基于不同的词长对所述网络文本进行切词,并统计每个词的频率;对每个词长,将频率大于与所述每个词长对应的预设频率的词作为所述标准词。5.如权利要求2所述的基于动态权重的文本生成方法,其特征在于,所述从所述文本中提取多个主题词的步骤之后,所述文本生成方法还包括:基于相似度算法获取所述主题词的扩展词,并基于所述主题词和所述扩展词生成关键词库;基于聚类算法对所述关键词库中的关键词进行分类,得到多个聚类关键词以及每个聚类关键词的聚类主题信息;匹配所述聚类关键词与所述热词词库,得到每个聚类关键词的...

【专利技术属性】
技术研发人员:蔡华
申请(专利权)人:华院计算技术上海股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1