一种针对突发事件新闻的文本分类方法技术

技术编号:30406993 阅读:16 留言:0更新日期:2021-10-20 11:14
本发明专利技术提供了一种针对突发事件新闻的文本分类方法,属于自然语言处理领域,包括:收集新闻文档,完成数据清洗,及文档的分词、依存分析和指代消解等预处理操作,得到新闻数据集D;将新闻数据集D加入到背景语料,利用Word2Vec训练后学习词的分布式表示;对新闻数据集D中的每篇新闻d进行事件抽取并构造事件词典;采用无参聚类的中文口哨方法对事件词典中的所有事件进行聚类以得到事件簇;对聚类后得到的每个事件簇,计算其出现频率和倒排文档频率,以提取特征事件;根据特征事件为每篇新闻文档构建其特征向量;采用支持向量机的分类算法完成对新闻文档的分类。该方法语义表征能力和类别区分度强。别区分度强。别区分度强。

【技术实现步骤摘要】
一种针对突发事件新闻的文本分类方法


[0001]本专利技术属于自然语言处理领域,具体涉及一种针对突发事件新闻的文本分类方法。

技术介绍

[0002]突发事件,是指突然发生,造成或者可能造成严重社会危害,需要采取应急处置措施予以应对的自然灾害、事故灾难、公共卫生事件和社会安全事件。事件发生后,相关的新闻报道快速在网络上进行传播,大多会成为政府部门以及民众关注的焦点。利用文本分类技术快速地将对新闻按主题进行分类,以便民众对事件发生的原因、过程和后续影响进行了解分析,也能为相关部门控制、减轻和消除突发事件引起的严重社会危害同时进行辅助性决策提供便利。
[0003]突发事件发生或演变的过程中,往往会伴随或衍生出很多子事件。例如,“台风威马逊来袭”事件的发生一般也发生“气象台发布预警”、“人员受伤”、“通讯中断”和“人员转移”等事件,而“云南发生地震”事件的发生一般则会发生“云南地震”、“人死亡”、“房屋倒塌”和“民政局报告”等事件。通过对一些具备显著特征的事件进行分析,就很容易地新闻按不同的突发事件主题进行分类。
[0004]在自然语言处理领域,事件一般是指一个动作的发生或状态的变化,由触发词和一个或多个论元组成。事件本身就包含了词间的语义关系,具有比传统词袋模型更强的语义表征能力,从而具备更好的类别区分度。因此,针对突发事件新闻,采用事件作为特征进行文本分类应当更简单有效。
[0005]随着IT技术的深入应用,突发事件发生后,网络上会出现大量相关的新闻报道,大多数新闻文本都会成为政府部门以及民众关注的焦点。利用文本分类技术快速地将对新闻按主题进行分类,以便民众对事件发生的原因、过程和后续影响进行了解分析,也能为相关部门控制、减轻和消除突发事件引起的严重社会危害同时进行辅助性决策提供便利。现有技术主要采用基本词袋的分类模型,即采用词汇特征来表征文档。这类技术忽略了词间的语义关系,语义表征能力较弱。
[0006]因此,本申请提出一种针对突发事件新闻的文本分类方法。

技术实现思路

[0007]为了克服上述现有技术存在的不足,本专利技术提供了一种针对突发事件新闻的文本分类方法。
[0008]为了实现上述目的,本专利技术提供如下技术方案:
[0009]一种针对突发事件新闻的文本分类方法,包括以下步骤:
[0010]包括以下步骤:
[0011]从网上收集新闻文档,完成数据清洗,并利用自然语言处理工具对所述新闻文档中的每篇文档进行分词、依存分析和指代消解的预处理操作,得到新闻数据集D;
[0012]将预处理后的新闻数据集D加入到背景语料,利用Word2Vec训练后学习词的分布式表示;
[0013]对新闻数据集D中的每篇新闻d进行事件抽取,并构造事件词典;
[0014]采用无参聚类的中文口哨方法对事件词典中的所有事件进行聚类以得到事件簇;
[0015]对聚类后得到的每个事件簇,计算其出现频率和倒排文档频率,以提取特征事件;
[0016]根据特征事件为每篇新闻文档构建其特征向量;
[0017]采用支持向量机的分类算法完成对新闻文档的分类。
[0018]优选地,利用现有的自然语言处理工具包,完成对新闻文档的数据清洗。
[0019]优选地,所述对新闻数据集D中的每篇新闻d进行事件抽取,并构造事件词典的具体步骤包括:
[0020]扫描每篇新闻d依存分析结果中类型为“nsubj”和“dobj”的依存分析关系,得到二元依存关系集合ea,二元关系用于表示事件论元关系;
[0021]依次扫描上述二元依存关系集合ea,若两个事件论元关系的谓词相同,则合并为一个候选事件;
[0022]将上述二元论元关系集合ea中剩余的每一个未合并二元依存关系也分别表示为一个候选事件;
[0023]由所有候选事件得到每篇新闻的事件集合de,即每个文档由多个事件组成;
[0024]重复上述四步,当新闻数据集D中所有文档中的事件抽取完成后,即可得到新闻数据集D的所有事件集合DE;
[0025]扫描事件集合DE,构建事件词典
[0026]ED={event1,event2,

,event
m
},event
i
表示第i类事件,m表示词典大小即事件类别数,所有论元均相同的事件为同一类别。
[0027]优选地,所述采用无参聚类的中文口哨方法对事件词典中的所有事件进行聚类以得到事件簇的具体步骤包括:
[0028]采用组合语义的方式计算得到每个事件event的分布式表示:其中subj、pred和obj分别代表事件event的主语、谓语和宾语,表示克罗内克积运算,
·
表示点乘运算;
[0029]采用余弦相似度来计算每一对事件间的相似度sim(event
i
,event
j
);
[0030]采用中文口哨算法对事件词典ED的所有事件进行聚类,以得到不同的事件簇;
[0031]聚类完成后,得到事件簇EC={ec1,ec2,

,ec
x
},每个簇ec
i
均包含了语义高度相似的事件,i为该簇的簇号。
[0032]优选地,所述采用中文口哨算法对事件词典ED的所有事件进行聚类,以得到不同的事件簇的具体步骤包括:
[0033]构建事件图G=(Vertex,Edge),其中,Vertext表示图的顶点集合,Edge表示图的边集合,初始时每个事件为一个结点且独成一簇,即Vertex=ED={event1,event2,

,event
m
},而Edge={},即图中没有边存在;
[0034]依次扫描每个事件结点event
i
,为每个事件结点找到不相连的且相似度最高的事件结点event
j
,将它们聚在一个簇中,若存在多个相似度最高的结点,则随机选择一个;
[0035]重复上述扫描步骤,直至满足收敛条件为止,收敛条件按事件相似度阈值设置。
[0036]优选地,所述对聚类后得到的每个事件簇,计算其出现频率和倒排文档频率,以提取特征事件的具体步骤包括:
[0037]扫描新闻数据集D的所有事件集合DE,统计每个事件簇ec
i
的出现频率ecf;
[0038]扫描每篇新闻的事件集合de,计算每个事件簇ec
i
的倒排文档频率idf;
[0039]计算每个事件簇ec
i
的出现频率和倒排文档频率乘积ecf*idf,并用于表示每个事件簇ec
i
的特征显著性;
[0040]按事件簇的特征显著性由大到小排序,提取前K个最大特征值,构建特征事件词典FED={fed1,fed2,

,fed
k
},fed
i
为第i个特征显本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对突发事件新闻的文本分类方法,其特征在于,包括以下步骤:从网上收集新闻文档,完成数据清洗,并利用自然语言处理工具对所述新闻文档中的每篇文档进行分词、依存分析和指代消解的预处理操作,得到新闻数据集D;将预处理后的新闻数据集D加入到背景语料,利用Word2Vec训练后学习词的分布式表示;对新闻数据集D中的每篇新闻d进行事件抽取,并构造事件词典;采用无参聚类的中文口哨方法对事件词典中的所有事件进行聚类以得到事件簇;对聚类后得到的每个事件簇,计算其出现频率和倒排文档频率,以提取特征事件;根据特征事件为每篇新闻文档构建其特征向量;采用支持向量机的分类算法完成对新闻文档的分类。2.根据权利要求1所述的针对突发事件新闻的文本分类方法,其特征在于,利用现有的自然语言处理工具包,完成对新闻文档的数据清洗。3.根据权利要求1所述的针对突发事件新闻的文本分类方法,其特征在于,所述对新闻数据集D中的每篇新闻d进行事件抽取,并构造事件词典的具体步骤包括:扫描每篇新闻d依存分析结果中类型为“nsubj”和“dobj”的依存分析关系,得到二元依存关系集合ea,二元关系用于表示事件论元关系;依次扫描上述二元依存关系集合ea,若两个事件论元关系的谓词相同,则合并为一个候选事件;将上述二元论元关系集合ea中剩余的每一个未合并二元依存关系也分别表示为一个候选事件;由所有候选事件得到每篇新闻的事件集合de,即每个文档由多个事件组成;重复上述四步,当新闻数据集D中所有文档中的事件抽取完成后,即可得到新闻数据集D的所有事件集合DE;扫描事件集合DE,构建事件词典ED={event1,event2,

,event
m
},event
i
表示第i类事件,m表示词典大小即事件类别数,所有论元均相同的事件为同一类别。4.根据权利要求3所述的针对突发事件新闻的文本分类方法,其特征在于,所述采用无参聚类的中文口哨方法对事件词典中的所有事件进行聚类以得到事件簇的具体步骤包括:采用组合语义的方式计算得到每个事件event的分布式表示:其中subj、pred和obj分别代表事件event的主语、谓语和宾语,表示克罗内克积运算,
·
表示点乘运算;采用余弦相似度来计算每一对事件间的相似度sim(event
i
,event
j
);采用中文口哨算法对事件词典ED的所有事件进行聚类,以得到不同的事件簇;聚类完成后,得到事件簇EC={ec1,ec2,

,ec
x
},每个簇ec
i
均包含了语义高度相似的事件,i为该簇的簇号。5.根据权利要求4所述的针对突...

【专利技术属性】
技术研发人员:孙锐谢红
申请(专利权)人:乐山师范学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1