【技术实现步骤摘要】
基于动态权重的文本生成方法、设备及存储介质
[0001]本专利技术属于自然语言处理领域,特别涉及一种基于动态权重的文本生成方法、设备及存储介质。
技术介绍
[0002]随着互联网的普及,网络逐渐成为社会中各种信息的载体,越来越多的人通过网络获取实时新闻及其相关信息,网页文本已成为获取信息的重要来源,每天都有大量的新闻热点产生,如何利用文本自动生成技术从海量的新闻文本中获取当前讨论的热点话题已经成为新闻文本处理必备的基础技术。同时,文本自动生成是自然语言处理领域的一项重要的具有挑战性的研究任务,旨在让计算机学会像人类一样写出高质量的自然语言文本,广泛应用于机器翻译、文本摘要、搜索推荐、问答和对话系统等方面。
[0003]新闻报道是事件的载体,一篇新闻报道中可能出现多个原子事件,然而这些原子事件往往是对关键事件不同方面的补充,通常人们对于一篇新闻报道更加注重的是这篇新闻报道的关键事件,目前从单篇新闻报道中抽取新闻要点的事件抽取研究,国内外学者都做了大量研究,并取得了一定效果,这些研究主要针对新闻事件的原子事件和主题事件这两个方面的信息抽取,但是原子事件级别的事件抽取粒度过细,实用性不足,主题级别的事件抽取粒度较粗,精确提取事件信息的效率较差。
[0004]随着深度学习技术的发展,众多基于深度神经网络模型的文本生成方法被提出来,尽管,生成在一定程度上解决了连贯性的问题,但是,深度学习在文本自动生成方面仍存在主题单一、主题分布缺乏多样性,主题词覆盖不全等问题。另外,新闻具有实时性的显著特点,而大多数网络新闻产 ...
【技术保护点】
【技术特征摘要】
1.一种基于动态权重的文本生成方法,其特征在于,所述文本生成方法包括:构建热词词库,所述热词词库中存储有每隔第一预设时间段获取的热搜词及每个热搜词的热搜权重,所述每个热搜词的热搜权重根据所述每个热搜词的频率参数和所述每个热搜词的构建时间生成;接收输入的任一文本;从所述任一文本中提取多个主题词;匹配所述主题词与所述热词词库,得到每个主题词的热搜权重;根据包含热搜权重的主题词生成更新后的文本。2.如权利要求1所述的基于动态权重的文本生成方法,其特征在于,所述文本生成方法通过以下步骤生成所述频率参数,具体包括:构建语料库,所述语料库存储有多个标准词;基于所述语料库对所述第一预设时间段内的所有热搜新闻文本进行切词得到多个分词,并统计每个分词的TF值;选取TF值大于预设阈值的分词作为热搜词;以预设周期内的所有新闻文本为单位文本统计每个热搜词的IDF值;所述频率参数包括所述TF值和所述IDF值。3.如权利要求2所述的基于动态权重的文本生成方法,其特征在于,所述文本生成方法通过以下公式计算得到所述热搜权重,具体包括:W
i
=TF
i
*IDF
i
*[a
×
exp(
‑
λ
×
t
i
)]其中,W
i
为第i个热搜词的热搜权重;TF
i
为第i个热搜词的TF值;IDF
i
为第i个热搜词的IDF值;a为初始权重;λ为时间衰减系数,1>λ>0;t
i
为第i个热搜词被确定为热搜词的时间与当前时间的时间差。4.如权利要求2所述的基于动态权重的文本生成方法,其特征在于,所述构建语料库的步骤具体包括:爬取预设第二时间段内的所有网络文本;基于不同的词长对所述网络文本进行切词,并统计每个词的频率;对每个词长,将频率大于与所述每个词长对应的预设频率的词作为所述标准词。5.如权利要求2所述的基于动态权重的文本生成方法,其特征在于,所述从所述文本中提取多个主题词的步骤之后,所述文本生成方法还包括:基于相似度算法获取所述主题词的扩展词,并基于所述主题词和所述扩展词生成关键词库;基于聚类算法对所述关键词库中的关键词进行分类,得到多个聚类关键词以及每个聚类关键词的聚类主题信息;匹配所述聚类关键词与所述热词词库,得到每个聚类关键词的...
【专利技术属性】
技术研发人员:蔡华,
申请(专利权)人:华院计算技术上海股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。