一种基于话题库和事件库的专题制作方法、装置及设备制造方法及图纸

技术编号：30145386 阅读：18 留言：0更新日期：2021-09-23 15:18

本文提供了一种基于话题库和事件库的专题制作方法、装置及设备，所述方法包括：获取指定时间段内的新闻数据；根据所述新闻数据，确定所述指定时间段内的新闻热门词；根据所述热门词所在的新闻数据，通过预设向量生成模型，生成所述热门词所在的新闻数据的特征向量；根据所述特征向量，对所述热门词所在的新闻数据进行分类，得到多个话题库；依次对每个话题库进行事件提取，得到每个话题库中不同类型的事件库；根据所述事件库，制作生成相应的新闻专题，本文通过话题库和事件库不同粒度对新闻数据进行分类，提高了专题制作的效率和准确性。提高了专题制作的效率和准确性。提高了专题制作的效率和准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于话题库和事件库的专题制作方法、装置及设备

[0001]本文属于计算机
，具体涉及一种基于话题库和事件库的专题制作方法、装置及设备。

技术介绍

[0002]专题是由若干有共同性的新闻文本组成的集合体。这种共同性，是指各篇文本存在主题、题材、体裁、表现手法几个方面中，至少有一个方面有共同之处。这种共同性，表明这些文本属于同一类。因此以专栏的形式集中展现某一时间的某一事件的起因、进展、趋势和影响程度，将给读者在浏览这一信息时得到全方位的认知，从而取得读者给予信任和认可，在读者的认知中建立起权威。
[0003]现有技术中对专题的制作有人工分类和机器分类两种方案，其中人工分类是通过人工方式分析观察相关事件热度，归纳总结出相关事件脉络，人工对文章进行聚类，并按照内容对聚类进行取名，但这种方法不能及时发布最新的突发性事件，且需要大量的编辑人员对热点新闻进行分析总结，并且不同编辑人员可能会有不同的分类标准，可能导致门户网站的文章展现方式略有差异；机器分类使用基于文本聚类的方式，将新闻定时聚类为不同的类别，人工进行校验后，对不同类别打上不同的标签，但是现有的聚类算法，只是简单的将文章进行聚类，会导致粒度不一致，导致准确率并不高，且需要人工对聚类文章进行取名，人工成本较高。因此如何提高专题制作效率和准确性成为目前亟需解决的问题。

技术实现思路

[0004]针对现有技术的上述问题，本文的目的在于，提供一种基于话题库和事件库的专题制作方法、装置及设备，能够提高专题制作效率和准确性。
[0005]...

【技术保护点】

【技术特征摘要】
1.一种基于话题库和事件库的专题制作方法，其特征在于，所述方法包括：获取指定时间段内的新闻数据；根据所述新闻数据，确定所述指定时间段内的新闻热门词；根据所述热门词所在的新闻数据，通过预设向量生成模型，生成所述热门词所在的新闻数据的特征向量；根据所述特征向量，对所述热门词所在的新闻数据进行分类，得到多个话题库；依次对每个话题库进行事件提取，得到每个话题库中不同类型的事件库；根据所述事件库，制作生成相应的新闻专题。2.根据权利要求1所述的方法，其特征在于，所述根据所述新闻数据，确定所述指定时间段内的新闻热门词，包括：根据所述新闻数据，计算获得所述指定时间段内新闻词的出现频率；根据所述新闻词的出现频率，确定候选热门词；根据所述候选热门词，生成每个候选热门词的时间频率序列；根据所述时间频率序列和热门趋势模板，计算获得每个候选热门词和所述热门趋势模板之间的热门相似度；将热门相似度超过热门词阈值的候选热门词确定为所述指定时间段内的新闻热门词。3.根据权利要求2所述的方法，其特征在于，所述热门趋势模板包括词语的第一阶段趋势；所述第一阶段趋势为所述词语在第一时间段的频率增长率为上升状态。4.根据权利要求3所述的方法，其特征在于，所述热门趋势模板还包括词语的第二阶段趋势和第三阶段趋势；所述第二阶段趋势为所述词语在第二时间段的频率增长率为平滑状态；所述第三阶段趋势为所述词语在第三时间段的频率增长率为下降状态；所述第二时间段、所述第一时间段和所述第三时间段为依次连续的时间段。5.根据权利要求1所述的方法，其特征在于，所述根据所述热门词所在的新闻数据，通过预设向量生成模型，生成所述热门词所在的新闻数据的特征向量，包括：根据所述热门词所在的新闻数据，通过预先训练完成的实体识别模型识别出所述新闻数据中的实体类型；根据所述新闻数据以及所述新闻数据中的热门词和实体类型，通过预设向量生成模型，分别生成所述新闻数据的语义向量以及所述新闻数据中的热门词特征向量和实体特征向量；将所述语义向量、所述热门词特征向量和所述实体特征向量进行拼接，形成所述新闻数据的特征向量。6.根据权利要求5所述的方法，其特征在于，所述预设向量生成模型为BERT模型。7.根据权利要求1所述的方法，其特征在于，所述根据所述特征向量，对所述热门词所在的新闻数据进行分类，得到多个话题库，包括：根据所述特征向量，计算任意两个新闻数据之间的类间距离；判断所述类间距离中的最小值是否超过预设距离；若所述类间距离中的最小值不超过预设距离，则将所述类间距离的最小值对应的两个
新闻数据进行合并，形成更新后的多个新闻数据类别；根据所述更新后的新闻数据类别，重复上述步骤，直到计算得到的类间距离中的最小值不超过所述预设距离，则获得最后的新闻数据类型；根据所述最后的新闻数据类别，确定多个话题库。8.根据权利要求1所述的方法，其特征在于，所述根据所述特征向量，对所述热门词所在的新闻数据进行分类，得到多个话题库之后还包括：针对每个话题库：获取所述话题库中每个新闻数据的新闻标题；将所述新闻标题进行拼接处理得到所述话题库的标题集合；根据所述标题集合，通过TextRank算法计算获得每个新闻标题的评分值；将所述评分值中最大值对应的新闻标题作为所述话题库的话题库标题。9.根据权利要求1所述的方法，其特征在于，所述依次对每个话题库进行事件提取，得到每个话题库中不同类型的事件库，包括：将所述话题库中的每个新闻数据依次输入到预先训练的概率模型中，得到每个所述新闻数据属于不同事件类型的概率分布，其中不同话题库对应不同预先训练的概率模型；判断所述概率分布中最大概率是否超过第一预设概率；若所述概率分布中最大概率超过所述第一预设概率，则将所述最大概率对应的事件类型确定为所述新闻数据的事件类型；若所述概率分布中最大概率不超过所述第一预设概率，则对所述新闻数据的事件类型进行人工分类；重复上述步骤，确定所述话题库中所有新闻类型的所属事件类型，形成不同类型的事件库。...

【专利技术属性】
技术研发人员：赵刚，陈晓燕，仉佃星，
申请(专利权)人：人民网科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人