一种矛盾事件分类方法、装置及计算机设备制造方法及图纸

技术编号:32971082 阅读:10 留言:0更新日期:2022-04-09 11:37
本发明专利技术公开了一种矛盾事件分类方法、装置及计算机设备,该方法包括,获取需要进行分类的目标数据;将目标数据进行特征提取,得到目标数据的特征值;基于目标数据的特征值及预设的文本分词标注模型,得到目标数据的分词结果的分词概率;将分词概率最大的分词结果作为分词标注数据;基于分词标注数据和预设的关键词表得到目标数据的关键词;基于关键词得到目标数据的事件类型。通过对目标数据进行特征提取得到对应的特征值,并对相应的特征值进行训练得到特征值的概率,可以更加准确的得到目标数据的特征值,将分词标注数据与由大量数据得到预设的关键词表来判断目标数据的事件类型,提高了对目标事件分类的准确率。高了对目标事件分类的准确率。高了对目标事件分类的准确率。

【技术实现步骤摘要】
一种矛盾事件分类方法、装置及计算机设备


[0001]本专利技术涉及文本识别
,具体涉及一种矛盾事件分类方法、装置及计算机设备。

技术介绍

[0002]随着社会现代化的发展,人与人之间的交流沟通越来越多,信息交互越来越频繁,随之也使得各种各样的社会热点事件和矛盾冲突更加突显,许多小型矛盾事件最终逐步演化成了较大规模的热点事件。因此对矛盾事件的分析和排查研究是必要的。现有的技术没有针对矛盾事件的文本的分词、词性标注和关键词的提取,无法识别出矛盾文本属于哪类矛盾排查事件。

技术实现思路

[0003]因此,本专利技术要解决的技术问题在于克服现有技术中缺乏对矛盾事件的分类,从而导致无法对矛盾事件进行进一步分析的缺陷,从而提供一种矛盾事件判断方法、装置及计算机设备。
[0004]根据第一方面,本专利技术实施例公开了一种矛盾事件分类方法,包括:获取需要进行分类的目标数据;将所述目标数据进行特征提取,得到所述目标数据的特征值;基于所述目标数据的特征值及预设的文本分词标注模型,得到所述目标数据的分词结果的分词概率;将所述分词概率最大的分词结果作为分词标注数据;基于所述分词标注数据和预设的关键词表得到所述目标数据的关键词;基于所述关键词得到所述目标数据的事件类型。
[0005]可选地,在所述获取需要进行分类的目标数据之后,所述将所述目标数据进行特征提取,得到所述目标数据的特征值之前,需要进行目标数据的预处理得到预处理数据,基于所述预处理数据进行特征提取,所述预处理的过程包括:去掉所述目标数据中的控制字符,并将去掉控制字符的目标数据转化为半角格式,标点符号转化为中文格式,得到第一预处理数据;基于正则表达式去掉所述第一预处理数据中的冗余文本,得到预处理数据。
[0006]可选地,构建所述预设的文本分词标注模型的过程包括:获取分词样本数据,所述分词样本数据中包含原始文本,以及对所述原始文本进行标记的词性标注;基于所述原始文本进行特征提取,得到第一特征值;将所述第一特征值作为输入数据、所述词性标注作为输出数据,对用于进行分词标注的神经网络模型进行训练,得到所述预设的文本分词标注模型。
[0007]可选地,所述基于所述分词标注数据和预设的关键词表得到所述目标数据的关键词,包括:基于所述目标数据和关键词表,得到所述目标数据的匹配规则;基于所述匹配规则进行匹配,得到所述目标数据的关键词;基于所述目标数据的关键词与预设的关系对应表,得到所述目标数据的矛盾类别。
[0008]可选地,所述目标数据包括词义数据和词性数据,所述基于所述目标数据和关键词表,得到所述目标数据的匹配规则,包括:判断所述词义数据和词性数据与所述关键词表
中的词义数据和词性数据是否匹配,若匹配则提取对应的关键词;若不匹配,则将所述词义数据和词性数据进行拼接得到整词;基于所述整词进行检索得到对应的关键词。
[0009]可选地,所述方法还包括:将所述目标数据的关键词更新到所述预设的关键词表。
[0010]可选地,构建所述预设的关键词表的过程,包括:获取关键词样本数据;基于关键词提取算法、词向量和词性得到候选词;基于所述候选词、预设的关键词模板和知识库进行扩展得到第一关键词;基于所述第一关键词表进行同类词扩展得到所述第二关键词;基于所述第二关键词表进行词性扩展得到所述关键词表。
[0011]根据第二方面,本专利技术实施例还公开了一种矛盾事件分类装置,包括:第一获取模块,用于获取需要进行分类的目标数据;第一关键数据模块,用于将所述目标数据进行分词和词性标注得到第一关键数据;特征值模块,用于将所述第一关键数据输入到神经网络模型,得到所述第一关键数据的特征值;概率模块,用于将所述特征值输入到自然语言工具中得到所述特征值的概率;分词标注数据模块,用于将所述概率最大值所对应的第一关键数据的作为分词标注数据;关键词模块,用于基于所述分词标注数据和预设的关键词表得到所述矛盾数据的关键词;事件类型模块,用于基于所述关键词得到所述矛盾数据的事件类型。
[0012]根据第三方面,本专利技术实施例还公开了一种计算机设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行如第一方面或第一方面任一可选实施方式所述的矛盾事件分类方法的步骤。
[0013]根据第四方面,本专利技术实施方式还公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面或第一方面任一可选实施方式所述的矛盾事件分类方法的步骤。
[0014]本专利技术技术方案,具有如下优点:
[0015]本专利技术提供的矛盾事件分类方法、装置及计算机设备,包括:获取需要进行分类的目标数据;将所述目标数据进行特征提取,得到所述目标数据的特征值;基于所述目标数据的特征值及预设的文本分词标注模型,得到所述目标数据的分词结果的分词概率;将所述分词概率最大的分词结果作为分词标注数据;基于所述分词标注数据和预设的关键词表得到所述目标数据的关键词;基于所述关键词得到所述目标数据的事件类型。通过对目标数据进行特征提取得到对应的特征值,并对相应的特征值进行训练得到特征值的概率,可以更加准确的得到目标数据的特征值,将分词标注数据与由大量数据得到预设的关键词表来判断目标数据的事件类型,提高了对目标事件分类的准确率。
附图说明
[0016]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0017]图1为本专利技术实施例中矛盾事件分类方法的一个具体示例的流程图;
[0018]图2为本专利技术实施例中矛盾事件分类装置的一个具体示例的原理框图;
[0019]图3为本专利技术实施例中计算机设备的一个具体示例图。
具体实施方式
[0020]下面将结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0021]在本专利技术的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
[0022]在本专利技术的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种矛盾事件分类方法,其特征在于,包括:获取需要进行分类的目标数据;将所述目标数据进行特征提取,得到所述目标数据的特征值;基于所述目标数据的特征值及预设的文本分词标注模型,得到所述目标数据的分词结果的分词概率;将所述分词概率最大的分词结果作为分词标注数据;基于所述分词标注数据和预设的关键词表得到所述目标数据的关键词;基于所述关键词得到所述目标数据的事件类型。2.根据权利要求1所述的方法,其特征在于,在所述获取需要进行分类的目标数据之后,所述将所述目标数据进行特征提取,得到所述目标数据的特征值之前,需要进行目标数据的预处理得到预处理数据,基于所述预处理数据进行特征提取,所述预处理的过程包括:去掉所述目标数据中的控制字符,并将去掉控制字符的目标数据转化为半角格式,标点符号转化为中文格式,得到第一预处理数据;基于正则表达式去掉所述第一预处理数据中的冗余文本,得到预处理数据。3.根据权利要求1所述的方法,其特征在于,构建所述预设的文本分词标注模型的过程包括:获取分词样本数据,所述分词样本数据中包含原始文本,以及对所述原始文本进行标记的词性标注;基于所述原始文本进行特征提取,得到第一特征值;将所述第一特征值作为输入数据、所述词性标注作为输出数据,对用于进行分词标注的神经网络模型进行训练,得到所述预设的文本分词标注模型。4.根据权利要求1所述的方法,其特征在于,所述基于所述分词标注数据和预设的关键词表得到所述目标数据的关键词,包括:基于所述目标数据和关键词表,得到所述目标数据的匹配规则;基于所述匹配规则进行匹配,得到所述目标数据的关键词;基于所述目标数据的关键词与预设的关系对应表,得到所述目标数据的矛盾类别。5.根据权利要求4所述的方法,其特征在于,所述目标数据包括词义数据和词性数据,所述基于所述目标数据和关键词表,得到所述目标数据的匹配规则,包括...

【专利技术属性】
技术研发人员:肖刚
申请(专利权)人:高创安邦北京技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1