一种基于话题库和事件库的专题制作方法、装置及设备制造方法及图纸

技术编号:30145386 阅读:18 留言:0更新日期:2021-09-23 15:18
本文提供了一种基于话题库和事件库的专题制作方法、装置及设备,所述方法包括:获取指定时间段内的新闻数据;根据所述新闻数据,确定所述指定时间段内的新闻热门词;根据所述热门词所在的新闻数据,通过预设向量生成模型,生成所述热门词所在的新闻数据的特征向量;根据所述特征向量,对所述热门词所在的新闻数据进行分类,得到多个话题库;依次对每个话题库进行事件提取,得到每个话题库中不同类型的事件库;根据所述事件库,制作生成相应的新闻专题,本文通过话题库和事件库不同粒度对新闻数据进行分类,提高了专题制作的效率和准确性。提高了专题制作的效率和准确性。提高了专题制作的效率和准确性。

【技术实现步骤摘要】
一种基于话题库和事件库的专题制作方法、装置及设备


[0001]本文属于计算机
,具体涉及一种基于话题库和事件库的专题制作方法、装置及设备。

技术介绍

[0002]专题是由若干有共同性的新闻文本组成的集合体。这种共同性,是指各篇文本存在主题、题材、体裁、表现手法几个方面中,至少有一个方面有共同之处。这种共同性,表明这些文本属于同一类。因此以专栏的形式集中展现某一时间的某一事件的起因、进展、趋势和影响程度,将给读者在浏览这一信息时得到全方位的认知,从而取得读者给予信任和认可,在读者的认知中建立起权威。
[0003]现有技术中对专题的制作有人工分类和机器分类两种方案,其中人工分类是通过人工方式分析观察相关事件热度,归纳总结出相关事件脉络,人工对文章进行聚类,并按照内容对聚类进行取名,但这种方法不能及时发布最新的突发性事件,且需要大量的编辑人员对热点新闻进行分析总结,并且不同编辑人员可能会有不同的分类标准,可能导致门户网站的文章展现方式略有差异;机器分类使用基于文本聚类的方式,将新闻定时聚类为不同的类别,人工进行校验后,对不同类别打上不同的标签,但是现有的聚类算法,只是简单的将文章进行聚类,会导致粒度不一致,导致准确率并不高,且需要人工对聚类文章进行取名,人工成本较高。因此如何提高专题制作效率和准确性成为目前亟需解决的问题。

技术实现思路

[0004]针对现有技术的上述问题,本文的目的在于,提供一种基于话题库和事件库的专题制作方法、装置及设备,能够提高专题制作效率和准确性。
[0005]为了解决上述技术问题,本文的具体技术方案如下:一方面,本文提供一种基于话题库和事件库的专题制作方法,所述方法包括:获取指定时间段内的新闻数据;根据所述新闻数据,确定所述指定时间段内的新闻热门词;根据所述热门词所在的新闻数据,通过预设向量生成模型,生成所述热门词所在的新闻数据的特征向量;根据所述特征向量,对所述热门词所在的新闻数据进行分类,得到多个话题库;依次对每个话题库进行事件提取,得到每个话题库中不同类型的事件库;根据所述事件库,制作生成相应的新闻专题。
[0006]进一步地,所述根据所述新闻数据,确定所述指定时间段内的新闻热门词,包括:根据所述新闻数据,计算获得所述指定时间段内新闻词的出现频率;根据所述新闻词的出现频率,确定候选热门词;根据所述候选热门词,生成每个候选热门词的时间频率序列;根据所述时间频率序列和热门趋势模板,计算获得每个候选热门词和所述热门趋
势模板之间的热门相似度;将热门相似度超过热门词阈值的候选热门词确定为所述指定时间段内的新闻热门词。
[0007]进一步地,所述热门趋势模板包括词语的第一阶段趋势;所述第一阶段趋势为所述词语在第一时间段的频率增长率为上升状态。
[0008]进一步地,所述热门趋势模板还包括词语的第二阶段趋势和第三阶段趋势;所述第二阶段趋势为所述词语在第二时间段的频率增长率为平滑状态;所述第三阶段趋势为所述词语在第三时间段的频率增长率为下降状态;所述第二时间段、所述第一时间段和所述第三时间段为依次连续的时间段。
[0009]进一步地,所述根据所述热门词所在的新闻数据,通过预设向量生成模型,生成所述热门词所在的新闻数据的特征向量,包括:根据所述热门词所在的新闻数据,通过预先训练完成的实体识别模型识别出所述新闻数据中的实体类型;根据所述新闻数据以及所述新闻数据中的热门词和实体类型,通过预设向量生成模型,分别生成所述新闻数据的语义向量以及所述新闻数据中的热门词特征向量和实体特征向量;将所述语义向量、所述热门词特征向量和所述实体特征向量进行拼接,形成所述新闻数据的特征向量。
[0010]作为可选地,所述预设向量生成模型为BERT模型。
[0011]进一步地,所述根据所述特征向量,对所述热门词所在的新闻数据进行分类,得到多个话题库,包括:根据所述特征向量,计算任意两个新闻数据之间的类间距离;判断所述类间距离中的最小值是否超过预设距离;若所述类间距离中的最小值不超过预设距离,则将所述类间距离的最小值对应的两个新闻数据进行合并,形成更新后的多个新闻数据类别;根据所述更新后的新闻数据类别,重复上述步骤,直到计算得到的类间距离中的最小值不超过所述预设距离,则获得最后的新闻数据类型;根据所述最后的新闻数据类别,确定多个话题库。
[0012]进一步地,所述根据所述特征向量,对所述热门词所在的新闻数据进行分类,得到多个话题库之后还包括:针对每个话题库:获取所述话题库中每个新闻数据的新闻标题;将所述新闻标题进行拼接处理得到所述话题库的标题集合;根据所述标题集合,通过TextRank算法计算获得每个新闻标题的评分值;将所述评分值中最大值对应的新闻标题作为所述话题库的话题库标题。
[0013]进一步地,所述依次对每个话题库进行事件提取,得到每个话题库中不同类型的事件库,包括:将所述话题库中的每个新闻数据依次输入到预先训练的概率模型中,得到每个所述新闻数据属于不同事件类型的概率分布,其中不同话题库对应不同预先训练的概率模
型;判断所述概率分布中最大概率是否超过第一预设概率;若所述概率分布中最大概率超过所述第一预设概率,则将所述最大概率对应的事件类型确定为所述新闻数据的事件类型;若所述概率分布中最大概率不超过所述第一预设概率,则对所述新闻数据的事件类型进行人工分类;重复上述步骤,确定所述话题库中所有新闻类型的所属事件类型,形成不同类型的事件库。
[0014]进一步地,所述依次对每个话题库进行事件提取,得到每个话题库中不同类型的事件库,还包括:确定预设样本问题集合,所述预设样本问题集合为根据预设事件类型集合设计的样本问题将所述话题库中的新闻数据和预设样本问题集合中的样本问题带入到问答模型中,获得输出结果,所述输出结果包括所述样本问题的可回答概率以及预测答案在所述新闻数据中的起始位置;根据所述样本问题的可回答概率,确定所述样本问题是否可回答;若所述样本问题可回答,则根据所述预测答案在所述新闻数据中的起止位置判断所述新闻数据与所述预设事件类型是否一致;若所述新闻数据与所述预设事件类型一致,则将所述新闻数据划分为预设事件类型;根据所述预设样本问题集合,重复上述步骤,直到将所述话题库中的新闻数据划分到对应的事件库中。
[0015]进一步地,所述问答模型包括编码层、交互层、外部前置验证器、线性层、内部前置判别器和输出层;所述编码层用于将输入的新闻数据和所述样本问题进行编码处理;所述交互层用于根据编码后的数据构建文本和答案之间的向量空间关系,得到隐藏向量;所述外部前置验证器用于根据所述隐藏向量对所述样本问题的可回答性进行初步预测,得到第一预测概率,并且当所述第一预测概率超过指定概率时,将所述隐藏向量输入所述线性层中;所述线性层根据所述隐藏向量得到预测答案在所述新闻数据中的起止位置;所述内部前置判别器用于根据所述隐藏向量判断所述样本问题的第二预测概率;所述输出层用于根据所述第一预测概率和所述第二预测概率输出所述样本问题的可回答概率,以及输出所述预测答案在本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于话题库和事件库的专题制作方法,其特征在于,所述方法包括:获取指定时间段内的新闻数据;根据所述新闻数据,确定所述指定时间段内的新闻热门词;根据所述热门词所在的新闻数据,通过预设向量生成模型,生成所述热门词所在的新闻数据的特征向量;根据所述特征向量,对所述热门词所在的新闻数据进行分类,得到多个话题库;依次对每个话题库进行事件提取,得到每个话题库中不同类型的事件库;根据所述事件库,制作生成相应的新闻专题。2.根据权利要求1所述的方法,其特征在于,所述根据所述新闻数据,确定所述指定时间段内的新闻热门词,包括:根据所述新闻数据,计算获得所述指定时间段内新闻词的出现频率;根据所述新闻词的出现频率,确定候选热门词;根据所述候选热门词,生成每个候选热门词的时间频率序列;根据所述时间频率序列和热门趋势模板,计算获得每个候选热门词和所述热门趋势模板之间的热门相似度;将热门相似度超过热门词阈值的候选热门词确定为所述指定时间段内的新闻热门词。3.根据权利要求2所述的方法,其特征在于,所述热门趋势模板包括词语的第一阶段趋势;所述第一阶段趋势为所述词语在第一时间段的频率增长率为上升状态。4.根据权利要求3所述的方法,其特征在于,所述热门趋势模板还包括词语的第二阶段趋势和第三阶段趋势;所述第二阶段趋势为所述词语在第二时间段的频率增长率为平滑状态;所述第三阶段趋势为所述词语在第三时间段的频率增长率为下降状态;所述第二时间段、所述第一时间段和所述第三时间段为依次连续的时间段。5.根据权利要求1所述的方法,其特征在于,所述根据所述热门词所在的新闻数据,通过预设向量生成模型,生成所述热门词所在的新闻数据的特征向量,包括:根据所述热门词所在的新闻数据,通过预先训练完成的实体识别模型识别出所述新闻数据中的实体类型;根据所述新闻数据以及所述新闻数据中的热门词和实体类型,通过预设向量生成模型,分别生成所述新闻数据的语义向量以及所述新闻数据中的热门词特征向量和实体特征向量;将所述语义向量、所述热门词特征向量和所述实体特征向量进行拼接,形成所述新闻数据的特征向量。6.根据权利要求5所述的方法,其特征在于,所述预设向量生成模型为BERT模型。7.根据权利要求1所述的方法,其特征在于,所述根据所述特征向量,对所述热门词所在的新闻数据进行分类,得到多个话题库,包括:根据所述特征向量,计算任意两个新闻数据之间的类间距离;判断所述类间距离中的最小值是否超过预设距离;若所述类间距离中的最小值不超过预设距离,则将所述类间距离的最小值对应的两个
新闻数据进行合并,形成更新后的多个新闻数据类别;根据所述更新后的新闻数据类别,重复上述步骤,直到计算得到的类间距离中的最小值不超过所述预设距离,则获得最后的新闻数据类型;根据所述最后的新闻数据类别,确定多个话题库。8.根据权利要求1所述的方法,其特征在于,所述根据所述特征向量,对所述热门词所在的新闻数据进行分类,得到多个话题库之后还包括:针对每个话题库:获取所述话题库中每个新闻数据的新闻标题;将所述新闻标题进行拼接处理得到所述话题库的标题集合;根据所述标题集合,通过TextRank算法计算获得每个新闻标题的评分值;将所述评分值中最大值对应的新闻标题作为所述话题库的话题库标题。9.根据权利要求1所述的方法,其特征在于,所述依次对每个话题库进行事件提取,得到每个话题库中不同类型的事件库,包括:将所述话题库中的每个新闻数据依次输入到预先训练的概率模型中,得到每个所述新闻数据属于不同事件类型的概率分布,其中不同话题库对应不同预先训练的概率模型;判断所述概率分布中最大概率是否超过第一预设概率;若所述概率分布中最大概率超过所述第一预设概率,则将所述最大概率对应的事件类型确定为所述新闻数据的事件类型;若所述概率分布中最大概率不超过所述第一预设概率,则对所述新闻数据的事件类型进行人工分类;重复上述步骤,确定所述话题库中所有新闻类型的所属事件类型,形成不同类型的事件库。...

【专利技术属性】
技术研发人员:赵刚陈晓燕仉佃星
申请(专利权)人:人民网科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1