一种基于规则和语义的多标签文本分类方法和系统技术方案

技术编号:38329551 阅读:18 留言:0更新日期:2023-07-29 09:12
本发明专利技术公开了一种基于规则和语义的多标签文本分类方法和系统,涉及自然语言处理技术领域。该方法步骤包括:获取文本数据,对文本数据进行标签标注,根据标签语义构建分类规则;根据标签语义寻找相同的词、短语或词语组合构建分类规则;根据标点符号位置将文本数据进行拆分;通过词性分析去除拆分后文本中的干扰信息,对去除干扰信息后的文本进行分词;根据分类规则对分词后的文本进行词语匹配,得到匹配到的带有分类标签的词语记录;对词语记录中的标签进行评分,根据分数阈值得到文本分类结果。本发明专利技术利用语句中词语的词性,分析句子结构,综合词性和句子成分制定规则,使规则清晰、简洁、覆盖面广,提高了文本分类的速度和精度。提高了文本分类的速度和精度。提高了文本分类的速度和精度。

【技术实现步骤摘要】
一种基于规则和语义的多标签文本分类方法和系统


[0001]本专利技术涉及自然语言处理
,尤其涉及一种基于规则和语义的多标签文本分类方法和系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]文本分类是自然语言处理中的一个基本任务。文本分类可以基于文本内容或语法,也可以基于文本的其他特征。对于文本材料风格类似、规律明显的小样本,最简单的方法是基于规则的多标签文本分类,即对每个标签总结常见短句,利用全文匹配方法与之对应。
[0004]但专利技术人发现,完全匹配的方法覆盖面有限,容易漏掉许多样例,而且完全没有考虑语义,容易对有否定修饰的例子错分。一些其他现有的文本分类方法为了保证分类的正确率,过分依赖于数据集的训练结果,如果将分类标签全面覆盖则计算量巨大,不容易实现。

技术实现思路

[0005]针对现有技术存在的不足,本专利技术的目的是提供一种基于规则和语义的多标签文本分类方法和系统,考虑到了转折、否定等情况对标签分类的影响,规则中使用了屏蔽词,同时规则制定采用关联词加倾向词组合的方式确定标签,对于有强关联的词汇可以直接采用白名单全文匹配的方式。提高了多标签文本分类的准确程度和匹配速度。
[0006]为了实现上述目的,本专利技术是通过如下的技术方案来实现:
[0007]本专利技术第一方面提供了一种基于规则和语义的多标签文本分类方法,包括以下步骤:
[0008]获取文本数据,对文本数据进行标签标注,根据标签语义构建分类规则;其中,根据标签语义构建分类规则的具体步骤为:对已标注的文本数据进行分析确定标签语义,将相同标签的文本数据进行汇总;从相同标签的文本数据中提取特征词;
[0009]根据标签语义寻找相同的词、短语或词语组合构建分类规则;
[0010]根据标点符号位置将文本数据进行拆分;
[0011]通过词性分析去除拆分后文本中的干扰信息,对去除干扰信息后的文本进行分词;
[0012]根据分类规则对分词后的文本进行词语匹配,得到匹配到的带有分类标签的词语记录;对词语记录中的标签进行评分,根据分数阈值得到文本分类结果。
[0013]进一步的,对已标注的文本数据进行分析确定标签语义包括对每个标签中的文本进行句法结构和词性分析,确定每个词语的词性和所扮演的句子成分。
[0014]进一步的,从相同标签的文本数据中提取特征词的具体步骤为:
[0015]对文本数据进行分词,每个标签按词频从高到底排序,找到频次靠前的若干词作为候选特征词;不同标签的候选特征词进行比较,排除掉同时在多个标签候选的特征词,记录只在对应标签文本中出现频次高、其它标签中出现频次低的词作为特征词。
[0016]更进一步的,特征词提取过程中,部分含义相反的标签特征词提取不排除在两者中出现频次均较多的词,并额外记录出现的否定词。
[0017]进一步的,分类规则包括:白名单规则、词语组合规则和黑名单规则;白名单规则:将与标签语义含义相同的词、短语或关联程度强的特征词组成白名单,文本数据中出现处于白名单中的词或短语就会给文本数据打上对应标签;词语组合规则:无法用一个词或短语概括标签语义的标签利用词语组合进行标签语义表征,根据词语组合的词性和句子成分进行标签分类;黑名单规则:文本中出现黑名单中的词语后,其余规则即使匹配成功,也不会打上该标签。
[0018]进一步的,黑名单规则和白名单规则采用全文匹配,词语组合规则只匹配分词得到的词语。
[0019]进一步的,通过词性分析去除拆分后文本中的干扰信息,对去除干扰信息后的文本进行分词的具体步骤为:
[0020]根据转折词将含有转折关系的句子分成两部分,将句意强调的后半部分保留,舍弃前半部分;
[0021]对每句文本分词,过滤停用词。
[0022]本专利技术第二方面提供了一种基于规则和语义的多标签文本分类系统,包括:
[0023]规则构建模块,被配置为获取文本数据,对文本数据进行标签标注,根据标签语义构建分类规则;其中,根据标签语义构建分类规则的具体步骤为:对已标注的文本数据进行分析确定标签语义,将相同标签的文本数据进行汇总;从相同标签的文本中提取特征词;根据标签语义寻找相同的词、短语或词语组合构建分类规则;
[0024]预处理模块,被配置为根据标点符号位置将文本数据进行拆分;
[0025]信息过滤模块,被配置为通过词性分析去除拆分后文本中的干扰信息,对去除干扰信息后的文本进行分词;
[0026]结果输出模块,被配置为根据分类规则对分词后的文本进行词语匹配,得到匹配到的带有分类标签的词语记录;对词语记录中的标签进行评分,根据分数阈值得到文本分类结果。
[0027]本专利技术第三方面提供了一种介质,其上存储有程序,该程序被处理器执行时实现如本专利技术第一方面所述的基于规则和语义的多标签文本分类方法中的步骤。
[0028]本专利技术第四方面提供了一种设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本专利技术第一方面所述的基于规则和语义的多标签文本分类方法中的步骤。
[0029]以上一个或多个技术方案存在以下有益效果:
[0030]本专利技术公开了一种基于规则和语义的多标签文本分类方法和系统,利用语句中词语的词性,分析句子结构,综合词性和句子成分制定规则,使规则清晰、简洁、覆盖面广。同时还可根据句法结构使用多个关联词加倾向词组合,兼具灵活性和全面性。
[0031]本专利技术中的规则构建方法使用了语法结构,对分类标签的覆盖面广,白名单黑名
单等设置可以加快匹配速度,降低分类错误发生率。其部分标签的匹配规则可以根据经验直接设定,而不依赖于数据集。本专利技术所采用的规则可以通过配置的方式进行更改,不用修改代码,使用灵活。
[0032]本专利技术附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。
附图说明
[0033]构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。
[0034]图1为本专利技术实施例一中基于规则和语义的多标签文本分类方法的流程图;
[0035]图2为本专利技术实施例二中基于规则和语义的多标签文本分类系统的架构图。
具体实施方式
[0036]应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属
的普通技术人员通常理解的相同含义。
[0037]应当说明的是,本申请实施例中,涉及到文本等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
[0038]需要注意的是,这里所使用的术语仅是为了描述具体实施本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于规则和语义的多标签文本分类方法,其特征在于,包括以下步骤:获取文本数据,对文本数据进行标签标注,根据标签语义构建分类规则;其中,根据标签语义构建分类规则的具体步骤为:对已标注的文本数据进行分析确定标签语义,将相同标签的文本数据进行汇总;从相同标签的文本数据中提取特征词;根据标签语义寻找相同的词、短语或词语组合构建分类规则;根据标点符号位置将文本数据进行拆分;通过词性分析去除拆分后文本中的干扰信息,对去除干扰信息后的文本进行分词;根据分类规则对分词后的文本进行词语匹配,得到匹配到的带有分类标签的词语记录;对词语记录中的标签进行评分,根据分数阈值得到文本分类结果。2.如权利要求1所述的基于规则和语义的多标签文本分类方法,其特征在于,对已标注的文本数据进行分析确定标签语义包括对每个标签中的文本进行句法结构和词性分析,确定每个词语的词性和所扮演的句子成分。3.如权利要求1所述的基于规则和语义的多标签文本分类方法,其特征在于,从相同标签的文本数据中提取特征词的具体步骤为:对文本数据进行分词,每个标签按词频从高到底排序,找到频次靠前的若干词作为候选特征词;不同标签的候选特征词进行比较,排除掉同时在多个标签候选的特征词,记录只在对应标签文本中出现频次高、其它标签中出现频次低的词作为特征词。4.如权利要求3所述的基于规则和语义的多标签文本分类方法,其特征在于,特征词提取过程中,部分含义相反的标签特征词提取不排除在两者中出现频次均较多的词,并额外记录出现的否定词。5.如权利要求1所述的基于规则和语义的多标签文本分类方法,其特征在于,分类规则包括:白名单规则、词语组合规则和黑名单规则;白名单规则:将与标签语义含义相同的词、短语或关联程度强的特征词组成白名单,文本数据中出现处于白名单中的词或短语就会给文本数据打上对应标签;词语组合规则:无法用一个词或短语概括标签语义的标签利用词语组合进行标签语义表征,根据词语组合...

【专利技术属性】
技术研发人员:梁果敢宗云兵刘传彬李旭胡代国贺作华
申请(专利权)人:金现代信息产业股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1