一种更新分类标签的优化方法及系统技术方案

技术编号:35793707 阅读:21 留言:0更新日期:2022-12-01 14:43
本发明专利技术涉及数据处理技术领域,具体涉及一种更新分类标签的优化方法及系统,该方法通过获取L个待匹配的分类标签,第i个待匹配的分类标签D

【技术实现步骤摘要】
一种更新分类标签的优化方法及系统


[0001]本专利技术涉及数据处理
,具体涉及一种更新分类标签的优化方法及系统。

技术介绍

[0002]在对某一个文本条目进行分类时,工作人员会根据文本条目的实际内容将相应的文本条目进行分类,一般情况下文本条目的分类是将有明确类别的赋予相应类别,没有明确类别的归为其他类别。但是由于工作人员的主观因素的影响以及有些文本条目中涉及多个类别的关键词时,工作人员可能会将本应属于A类别的文本条目标注为其他类别,或者将A类别的文本条目标注为B类别,因此工作人员分类中会存在较多分类错误的类别,当前常规的做法是人工更正文本条目分类的错误问题,但是人工更正的方式不仅耗费人力,而且依然无法消除人为主观因素对分类的影响。

技术实现思路

[0003]为了解决上述技术问题,本专利技术的目的在于提供一种更新分类标签的优化方法及系统,所采用的技术方案具体如下:
[0004]第一方面,本专利技术一个实施例提供了一种更新分类标签的优化方法,其特征在于,该
[0005]优化方法包括:
[0006]S100,获取用户指定的L个待匹配的分类标签{D1,D2,

,D
L
},其中,第i个待匹配的分类标签D
i
具有J个关键词其中i的取值范围为1到L;
[0007]S200,获取用户指定的第m个待更新的分类标签中的第q个文本条目获取的R个词向量集合其中R为正整数;
[0008]S300,计算分别与每个待匹配的分类标签中所有关键词的综合相似度分别与每个待匹配的分类标签中所有关键词的综合相似度其中,与第i个待匹配的分类标签D
i
的综合相似度的综合相似度为中R个词向量与D
i
中J个关键词之间的向量相似度的加权求和;第r个词向量的权重的获取步骤包括:
[0009]S351,获取语料库中所有A个父标签seg={seg1,seg2,

,seg
A
},第a个父标签包括Sum(a)个子标签seg
a
={seg
a,1
,seg
a,2
,

,seg
a,Sum(a)
},a的取值范围为1到A,且子标签的总数量SA满足其中,Sum(a)的函数值为整数;
[0010]S352,获取所在的第m个待更新的分类标签seg
a,m
,根据对seg
a,m
中所有的文本条目进行分词得到的MX个词,统计对应的词在seg
a,m
中出现的次数得到
[0011]S353,获取在SA个子标签中包括对应的词的子标签的数量
[0012]S354,根据和SA计算其中分别与和SA正相关、与
负相关;
[0013]S400,获取中的最大值,在最大值大于相似度阈值时,将第m个类别中第q个文本条目的类别标签更新为最大值对应的类别标签。
[0014]第二方面,本专利技术另一个实施例提供了一种更新分类标签的优化系统,所述系统包括处理器和非瞬时性计算机可读存储介质,所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现上述更新方法。
[0015]本专利技术具有如下有益效果:
[0016]通过提取第m个待更新的分类标签中第q个文本条目中的词向量,并通过提取待匹配的分类标签对应的关键词,计算中词向量与关键词之间的相似度,为了计算与第i个待匹配的分类标签之间的相似度,需要计算第i个待匹配的分类标签中每个关键词分别与中每个词向量之间的综合相似度,在综合相似度大于相似度阈值时,将第q个文本条目对应的分类标签更新为最大值对应的分类标签,解决了现有技术中无法消除人为主观因素对分类的影响的技术问题。同时在聚类时将重复的词去除,不仅能够使聚类的过程中不受重复词的影响,提高聚类的准确性,同时统计重复词出现的频率以及包括该重复词的分类标签的数量,计算权重利用调整词向量对于相似度的权重,使最终得到匹配结果更加准确。
附图说明
[0017]为了更清楚地说明本专利技术实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
[0018]图1为本专利技术一个实施例所提供的一种更新分类标签的优化方法流程图。
具体实施方式
[0019]为了更进一步阐述本专利技术为达成预定专利技术目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本专利技术提出的一种更新分类标签的优化方法及系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一个或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。
[0020]除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同。
[0021]下面结合附图具体的说明本专利技术所提供的一种分类标签的更新方法,该方法包括以下步骤:
[0022]S100,获取用户指定的L个待匹配的分类标签{D1,D2,

,D
L
},其中,第i个待匹配的分类标签D
i
具有J个关键词其中i的取值范围为1到L。
[0023]需要说明的是,在语料库中用户输入多个文本条目,每个文本条目具有用户指定的分类标签。其中,每个文本条目是指用户记录的一个事件的描述文字。多个文本条目为多个事件的文本描述。例如用户记录了一条报警记录,则这一条报警记录为一个文本条目。其中,分类标签为用户指定的标签,例如按照预设的分类规则将一条文本条目的标签标记为“盗窃”标签或者“抢劫”标签等。每个文本条目对应一个分类标签。
[0024]其中,待匹配的分类标签为用户指定的标签,用于作为标准标签来更正其他文本条目的分类标签。需要说明的是,待匹配的分类标签和待更新的分别标签均为用户预先标注的分类标签,例如,分类标签可以是“盗窃手机”、“盗窃机动车”、“抢劫”、“酒驾”、“故意伤害”等,用户将其中的“抢劫”和“故意伤害”指定为待匹配的分类标签,将其中的“盗窃手机”指定为待更新的分类标签。
[0025]可选的,关键词的获取方法为:将第i个待匹配的分类标签D
i
对应的所有词向量进行聚类得到R个簇,每个簇中对应的词向量为关键词。
[0026]可选的,第i个待匹配的分类标签D
i
的关键词的获取步骤包括:
[0027]S110,根据第i个待匹配的分类标签D
i
索引所有的相应文本条目,得到待匹配的N个文本条目集合其中N为正整数。
[0028]S120,对W
...

【技术保护点】

【技术特征摘要】
1.一种更新分类标签的优化方法,其特征在于,该优化方法包括:S100,获取用户指定的L个待匹配的分类标签{D1,D2,

,D
L
},其中,第i个待匹配的分类标签D
i
具有J个关键词其中i的取值范围为1到L;S200,获取用户指定的第m个待更新的分类标签中的第q个文本条目获取的R个词向量集合其中R为正整数;S300,计算分别与每个待匹配的分类标签中所有关键词的综合相似度分别与每个待匹配的分类标签中所有关键词的综合相似度其中,与第i个待匹配的分类标签D
i
的综合相似度的综合相似度为中R个词向量与D
i
中J个关键词之间的向量相似度的加权求和;第r个词向量的权重的获取步骤包括:S351,获取语料库中所有A个父标签seg={seg1,seg2,

,seg
A
},第a个父标签包括Sum(a)个子标签seg
a
={seg
a,1
,seg
a,2
,

,seg
a,Sum(a)
},a的取值范围为1到A,且子标签的总数量SA满足其中,Sum(a)的函数值为整数;S352,获取所在的第m个待更新的分类标签seg
a,m
,根据对seg
a,m
中所有的文本条目进行分词得到的MX个词,统计对应的词在seg
a,m
中出现的次数得到S353,获取在SA个子标签中包括对应的词的子标签的数量S354,根据和SA计算其中分别与和SA正相关、与负相关;S400,获取中的最大值,在最大值大于相似度阈值时,将第m个类别中第q个文本条...

【专利技术属性】
技术研发人员:石江枫王全修于伟靳雯赵洲洋王明超
申请(专利权)人:日照睿安信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1