融合领域知识的细分行业新闻快速分类方法与系统技术方案

技术编号:34881567 阅读:95 留言:0更新日期:2022-09-10 13:38
本发明专利技术提供一种融合领域知识的细分行业新闻快速分类方法和系统,涉及文本分类领域。本发明专利技术中:S1、采集并预处理面向细分行业的新闻;S2、采用命名实体识别方式获取新闻标题对应的第一命名实体集,对所述第一命名实体集中每一个实体,从预先构建的非对称实体关联网络中抽取第一实体关联集,若所述第一实体关联集为非空集,则转入S3;S3、根据所述第一命名实体集和第一实体关联集,采用朴素贝叶斯算法计算所述新闻标题对应的每个分类类别的条件概率;若条件概率大于第一阈值,获取该新闻的初步分类。所述非对称关系网络图包含了面向细分行业的大规模实体及其相互关系,仅通过新闻标题初步分类得到对应的新闻类别,在一定程度上提高了新闻分类速度。了新闻分类速度。了新闻分类速度。

【技术实现步骤摘要】
融合领域知识的细分行业新闻快速分类方法与系统


[0001]本专利技术涉及文本分类
,具体涉及一种融合领域知识的细分行业新闻快速分类方法、系统、存储介质和电子设备。

技术介绍

[0002]文本分类在文本处理中是很重要的一个模块,它的应用也非常广泛,比如:垃圾过滤,新闻分类,词性标注等等。核心方法为首先提取分类数据的特征,然后选择最优的匹配,从而分类。
[0003]目前,在对细分行业新闻文本分类时,已有的细分行业新闻分类研究仅使用通用的分类方法,存在分类效果差、速度慢的问题。

技术实现思路

[0004](一)解决的技术问题
[0005]针对现有技术的不足,本专利技术提供了一种融合领域知识的细分行业新闻快速分类方法、系统、存储介质和电子设备,解决了分类效果差、速度慢的技术问题。
[0006](二)技术方案
[0007]为实现以上目的,本专利技术通过以下技术方案予以实现:
[0008]一种融合领域知识的细分行业新闻快速分类方法,包括:
[0009]S1、采集并预处理面向细分行业的新闻本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种融合领域知识的细分行业新闻快速分类方法,其特征在于,包括:S1、采集并预处理面向细分行业的新闻;S2、采用命名实体识别方式获取新闻标题对应的第一命名实体集,对所述第一命名实体集中每一个实体,从预先构建的非对称实体关联网络中抽取第一实体关联集,若所述第一实体关联集为非空集,则转入S3;S3、根据所述第一命名实体集和第一实体关联集,采用朴素贝叶斯算法,计算所述新闻标题对应的每个分类类别的条件概率;若条件概率大于第一阈值,获取该新闻的初步分类。2.如权利要求1所述的细分行业新闻快速分类方法,其特征在于,若所述S3中条件概率小于等于第一阈值,则转入S4~6;S4、采用命名实体识别方式获取新闻正文摘要对应的第二命名实体集,对所述第二命名实体集中的每一个实体,从所述非对称实体关联网络抽取第二实体关联集;S5、联合所述第一命名实体集和第二命名实体集,以及所述第一实体关联集和第二实体关联集,融合所述非对称实体关联网络中的关系强度,获取各个实体的第一联合嵌入表示;S6、根据所述第一联合嵌入表示,采用注意力机制获取该新闻的第一深度分类。3.如权利要求2所述的细分行业新闻快速分类方法,其特征在于,所述S5包括:第一命名实体集E=E
T
∪E
M
,其中E
T
表示第一命名实体集,E
M
表示第一实体关联集;第一实体关联集E

=E

T
∪E

M
,其中E

T
表示第一命名实体集,E

M
表示第一实体关联集;采用实体嵌入分别对E和E

中的每一个实体进行嵌入表示得到和并融合非对称实体关联网络中的关系强度,得到每一个实体e
i
的第一联合嵌入表示x
i
;其中,μ∈(0,1),μ表示用于平衡和重要性的超参数。4.如权利要求1所述的细分行业新闻快速分类方法,其特征在于,若S2中所述第一实体关联集为空集,则转入S3

~5

;S3

、采用命名实体识别方式获取新闻正文摘要对应的第二命名实体集,对所述第二命名实体集中的每一个实体,从所述非对称实体关联网络抽取第二实体关联集;S4

、根据所述第二命名实体集和第二实体关联集,融合所述非对称实体关联网络中的关系强度,获取各个实体的第二联合嵌入表示;S5

、根据所述第二联合嵌入表示,采用注...

【专利技术属性】
技术研发人员:王安宁丁贾明邓云翀王俊杰马涛贾子垚张强
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1