基于业务需求的新闻筛选方法、装置、设备及存储介质制造方法及图纸

技术编号:33205272 阅读:9 留言:0更新日期:2022-04-24 00:50
本发明专利技术涉及人工智能技术,揭露一种基于业务需求的新闻筛选方法,包括:获取新闻数据并进行分词处理;根据分词的结果和词频表生成新闻数据的文本向量;根据分类模型对文本向量进行分类,得到对应的新闻类目,将新闻数据与对应的新闻类目关联存储至新闻类目表中;计算获取的业务信息与新闻类目表中的新闻类目的相似度,选取相似度大于阈值的新闻类目为第一类目;筛选出第一类目中符合业务信息对应的业务阶段的类目为第二类目;根据第二类目从新闻类目表中提取对应的新闻数据。此外,本发明专利技术还涉及区块链技术,新闻数据可存储于区块链的节点。本发明专利技术还提出一种基于业务需求的新闻筛选装置、设备以及介质。本发明专利技术可以提高获取符合业务需求新闻的效率。业务需求新闻的效率。业务需求新闻的效率。

【技术实现步骤摘要】
基于业务需求的新闻筛选方法、装置、设备及存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种基于业务需求的新闻筛选方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]在数字化浪潮的背景下,企业为保证稳步发展与市场地位,需要不断的向外学习,了解实时变动,因此企业从海量的新闻中获取符合自身发展的新闻数据变得尤为重要。现在大多数企业获取新闻数据的方法是通过企业关键词在互联网中进行搜索,此方法的工作量较大且获取的新闻没有进行分类,条理性差。

技术实现思路

[0003]本专利技术提供一种基于业务需求的新闻筛选方法、装置及计算机可读存储介质,其主要目的在于解决获取符合业务需求的新闻效率低的问题。
[0004]为实现上述目的,本专利技术提供的一种基于业务需求的新闻筛选方法,包括:
[0005]获取新闻数据,对所述新闻数据进行分词处理,得到新闻文本分词;
[0006]根据所述新闻文本分词和预设的词频表生成所述新闻数据的文本向量;
[0007]根据预训练的分类模型对所述新闻数据的文本向量进行分类,得到所述新闻数据对应的新闻类目,并将所述新闻数据与所述对应的新闻类目关联存储至新闻类目表中;
[0008]获取业务信息并计算所述业务信息与所述新闻类目表中每一个新闻类目的相似度,选取相似度大于阈值的新闻类目为第一类目;
[0009]获取所述业务信息对应的业务阶段,筛选出所述第一类目中符合所述业务阶段的类目为第二类目;
[0010]根据所述第二类目从所述新闻类目表中提取对应的新闻数据。
[0011]可选地,所述对所述新闻数据进行分词处理,得到新闻文本分词,包括:
[0012]从所述新闻数据中提取标题以及摘要作为标准文本;
[0013]利用分词器对所述标准文本进行分词处理,得到第一分词;
[0014]根据预设的词性表和停用词表删除所述文本分词的特定分词,得到第二分词;
[0015]删除所述第二分词中的标点符号,得到新闻文本分词。
[0016]可选地,所述根据预设的词性表和停用词表删除所述文本分词的特定分词,得到第二分词,包括:
[0017]获取需删除的词性标签,并根据所述需删除的词性标签提取所述词性表中对应的分词;
[0018]提取所述停用词表中对应的分词;
[0019]从所述第一分词中删除与所述词性表中对应的分词及所述停用词表中对应的分词相同的分词,得到所述第二分词。
[0020]可选地,所述根据所述新闻文本分词和预设的词频表生成所述新闻数据的文本向
量,包括:
[0021]在所述词频表中提取所述新闻文本分词对应的编号,根据所述编号生成编号向量;
[0022]判断所述编号向量的长度是否超过预设长度;
[0023]若所述编号向量的长度超过预设长度,则从所述编号向量中截取所述预设长度的向量作为所述文本向量;
[0024]若所述编号向量的长度未超过预设长度,则对所述编号向量补零,直至所述编号向量的长度达到预设长度,将补零后的编号向量作为文本向量。
[0025]可选地,所述根据预训练的分类模型对所述新闻数据的文本向量进行分类,得到所述新闻数据对应的新闻类目,包括:
[0026]将所述新闻数据的文本向量输入预设的分类模型所嵌入的word2vec得到向量矩阵;
[0027]通过所述分类模型对所述向量矩阵进行预设次数的卷积、池化和全连接,得到分类信息;
[0028]通过分类器计算所述分类信息属于每一个新闻类目的概率值;
[0029]选取概率值大于预设阈值的新闻类目作为所述新闻数据对应的新闻类目。
[0030]可选地,所述计算所述业务信息与所述新闻类目表中每一个新闻类目的相似度,包括:
[0031]对所述业务信息的文本进行分词,得到业务文本分词;
[0032]根据所述业务文本分词在所述词频表中的词频提取关键词;
[0033]将所述关键词逐一与所述新闻类目表中的每一个新闻类目进行相似度计算。
[0034]可选地,所述筛选出所述第一类目中符合所述业务阶段的类目为第二类目,包括:
[0035]获取所述业务阶段的业务标签,并逐一计算所述第一类目的每一个类目与所述业务标签的距离值;
[0036]从所述第一类目中选取所述距离值小于预设阈值的类目作为第二类目。为了解决上述问题,本专利技术还提供一种基于业务需求的新闻筛选装置,所述装置包括:
[0037]新闻文本分词生成模块,用于获取新闻数据,对所述新闻数据进行分词处理,得到新闻文本分词;
[0038]文本向量生成模块,用于根据所述新闻文本分词和预设的词频表生成所述新闻数据的文本向量;
[0039]新闻类目表生成模块,用于根据预训练的分类模型对所述新闻数据的文本向量进行分类,得到所述新闻数据对应的新闻类目,并将所述新闻数据与所述对应的新闻类目关联存储至新闻类目表中;
[0040]第一类目获取模块,用于获取业务信息并计算所述业务信息与所述新闻类目表中每一个新闻类目的相似度,选取相似度大于阈值的新闻类目为第一类目;
[0041]第二类目获取模块,用于获取所述业务信息对应的业务阶段,筛选出所述第一类目中符合所述业务阶段的类目为第二类目;
[0042]新闻数据获取模块,用于根据所述第二类目从所述新闻类目表中提取对应的新闻数据。
[0043]为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:
[0044]至少一个处理器;以及,
[0045]与所述至少一个处理器通信连接的存储器;其中,
[0046]所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的基于业务需求的新闻筛选方法。
[0047]为了解决上述问题,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的基于业务需求的新闻筛选方法。
[0048]本专利技术实施例通过抓取新闻数据,进行处理以及分类,使新闻类目表中的新闻数据处于变动更新中,方便企业获取新闻数据,提高了获取新闻数据的效率;通过对业务信息及业务阶段与新闻类目表中的新闻类目计算,得到符合业务阶段需求的新闻类目,使业务需求更加直观,并且结合存储有预先抓取的新闻分类表,能够快速且直接的获取符合业务需求的新闻类目以及对应的新闻,并且使得新闻数据具有条理性。因此本专利技术提出的基于业务需求的新闻筛选方法、装置、电子设备及计算机可读存储介质,可以解决获取符合业务需求的新闻效率低的问题。
附图说明
[0049]图1为本专利技术一实施例提供的基于业务需求的新闻筛选方法的流程示意图;
[0050]图2为本专利技术一实施例提供的生成新闻文本分词的流程示意图;
[0051]图3为本专利技术本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于业务需求的新闻筛选方法,其特征在于,所述方法包括:获取新闻数据,对所述新闻数据进行分词处理,得到新闻文本分词;根据所述新闻文本分词和预设的词频表生成所述新闻数据的文本向量;根据预训练的分类模型对所述新闻数据的文本向量进行分类,得到所述新闻数据对应的新闻类目,并将所述新闻数据与所述对应的新闻类目关联存储至新闻类目表中;获取业务信息并计算所述业务信息与所述新闻类目表中每一个新闻类目的相似度,选取相似度大于阈值的新闻类目为第一类目;获取所述业务信息对应的业务阶段,筛选出所述第一类目中符合所述业务阶段的类目为第二类目;根据所述第二类目从所述新闻类目表中提取对应的新闻数据。2.如权利要求1所述的基于业务需求的新闻筛选方法,其特征在于,所述对所述新闻数据进行分词处理,得到新闻文本分词,包括:从所述新闻数据中提取标题以及摘要作为标准文本;利用分词器对所述标准文本进行分词处理,得到第一分词;根据预设的词性表和停用词表删除所述文本分词的特定分词,得到第二分词;删除所述第二分词中的标点符号,得到新闻文本分词。3.如权利要求2所述的基于业务需求的新闻筛选方法,其特征在于,所述根据预设的词性表和停用词表删除所述文本分词的特定分词,得到第二分词,包括:获取需删除的词性标签,并根据所述需删除的词性标签提取所述词性表中对应的分词;提取所述停用词表中对应的分词;从所述第一分词中删除与所述词性表中对应的分词及所述停用词表中对应的分词相同的分词,得到所述第二分词。4.如权利要求1所述的基于业务需求的新闻筛选方法,其特征在于,所述根据所述新闻文本分词和预设的词频表生成所述新闻数据的文本向量,包括:在所述词频表中提取所述新闻文本分词对应的编号,根据所述编号生成编号向量;判断所述编号向量的长度是否超过预设长度;若所述编号向量的长度超过预设长度,则从所述编号向量中截取所述预设长度的向量作为所述文本向量;若所述编号向量的长度未超过预设长度,则对所述编号向量补零,直至所述编号向量的长度达到预设长度,将补零后的编号向量作为文本向量。5.如权利要求1所述的基于业务需求的新闻筛选方法,其特征在于,所述根据预训练的分类模型对所述新闻数据的文本向量进行分类,得到所述新闻数据对应的新闻类目,包括:将所述新闻数据的文本向量输入预设的分类模型所嵌入的word2vec得到向量矩阵;通过所述...

【专利技术属性】
技术研发人员:刘锴靖
申请(专利权)人:平安普惠企业管理有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1