一种打标签的方法、系统及其存储介质技术方案

技术编号:35098659 阅读:33 留言:0更新日期:2022-10-01 17:03
本发明专利技术公开一种打标签的方法、系统及其存储介质,属于文本打标签技术领域。该打标签的方法,包括:将语义文本进行预处理;根据预处理后的语义文本构建深度学习模型并使用训练集数据训练模型得到训练后的模型;通过遍历或者扫描待打标文本得到匹配次数,计算标签关键词和标签关键字的第一分数;将待打标文本经过所述训练后的模型计算第二分数;根据所述第一分数和所述第二分数得出所述待标记文本对应的标签的第三分数,根据所述第三分数决定是否给所述待标记文本打上对应的标签。本发明专利技术还包括上述打标签的系统以及存储介质。该方法可以发现或标记更多潜在语义上一致的标记语句。现或标记更多潜在语义上一致的标记语句。现或标记更多潜在语义上一致的标记语句。

【技术实现步骤摘要】
一种打标签的方法、系统及其存储介质


[0001]本专利技术涉及文本打标签
,具体涉及一种打标签的方法、系统及其存储介质。

技术介绍

[0002]现有的打标签方法主要是基于关键字、关键词,当待标记文本段落中出现打标规则对应的关键字、关键词时,对该段文本打上相应的标签。但此种方法较为机械,并且无法发现潜在语义上一致的关键词和关键字进而打标签。
[0003]针对用户不同的业务需求,标签体系和规则的定义灵活多变。当前的一些方法在修改标签体系或改变规则后,需要改变模型逻辑代码,或重新训练分类模型后再次部署模型,增加了复杂度,打断了业务连贯性,如何在不改变模型逻辑代码的基础上,发现潜在语义上一致的标签关键词和标签关键字(标签关键词和标签关键字即标记语句)进而打标签是现有技术的难题。

技术实现思路

[0004]本专利技术的目的在于克服上述技术不足,提供一种打标签的方法、系统及其存储介质,解决现有技术中如何在不改变模型逻辑代码的基础上,发现潜在语义上一致的标签关键词和标签关键字进而打标签是现有技术的技术问题。
[0005]为达到上述技术目的,本专利技术的技术方案提供一种打标签的方法,包括以下步骤:
[0006]S1、将语义文本进行预处理;
[0007]S2、根据预处理后的语义文本构建深度学习模型并使用训练集数据训练模型得到训练后的模型;
[0008]S3、通过遍历或者扫描待打标文本得到待打标文本中的标签关键字和标签关键词的匹配次数,根据所述匹配分数计算标签关键词和标签关键字的第一分数,记为a;将待打标文本经过所述训练后的模型计算得到标签关键字和标签关键词的第二分数,记为b;
[0009]S4、根据所述第一分数和所述第二分数得出所述待标记文本对应的标签的第三分数,记为c,根据所述第三分数决定是否给所述待标记文本打上对应的标签。
[0010]进一步地,在步骤S1中,所述将语义文本进行预处理包括:将句子分割得到分词列表,将分词列表分为训练集、验证集和测试集,之后训练词嵌入模型或字符嵌入模型得到文本的表征,所述分词列表用于统计标签关键字和标签关键词。
[0011]进一步地,在步骤S3中,所述第一分数的计算方法为标签关键词和标签关键字的匹配次数小于3次,按实际次数计分;标签关键词和标签关键字的匹配次数大于或者等于3次,且小于5次,计为3分;标签关键词和标签关键字的匹配次数大于或者等于5次,且小于10次,计为5分;标签关键词和标签关键字的匹配次数大于或者等于10次,计为10分。
[0012]进一步地,在步骤S3中,所述第二分数的计算方法为X
max

示深度学习模型的计算分数的最大取值,X
min
表示深度学习模型的计算分数的最小取值,X表示深度学习模型对待打标文本的实际计算分数。
[0013]进一步地,在步骤S4中,所述第三分数的计算公式为:c=0.5*a+0.5*b。
[0014]进一步地,在步骤S4中,当所述第三分数c大于或者等于6分时,将所述待打标文本打上当前标签,否则,不打上当前标签。
[0015]进一步地,在步骤S1中,所述训练集、所述验证集和所述测试集的划分比例设置为3:1:1。
[0016]进一步地,还包括步骤:S5、创建字典,所述字典用以存储第三分数大于或者等于8分的数据。
[0017]此外,本专利技术还提出一种上述的打标签的系统,包括:
[0018]预处理模块,用于将语义文本进行预处理;
[0019]训练模块,用于根据预处理后的语义文本构建深度学习模型并使用训练集数据训练模型得到训练后的模型;
[0020]计分模块,用于通过遍历或者扫描待打标文本得到待打标文本中的标签关键字或者标签关键词的匹配次数,根据所述匹配分数计算标签关键词和标签关键字的第一分数,记为a;将待打标文本经过所述训练后的模型计算得到标签关键字或者标签关键词的第二分数,记为b;
[0021]打标签模块,用于根据所述第一分数和所述第二分数得出所述待标记文本对应的标签的第三分数,记为c,所述第三分数决定是否给所述待标记文本打上对应的标签。
[0022]此外,本专利技术还提出一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述的打标签的方法的步骤。
[0023]与现有技术相比,本专利技术的有益效果包括:将语义文本进行预处理;之后根据预处理后的语义文本构建深度学习模型并使用训练集数据训练模型得到训练后的模型;之后通过遍历或者扫描待打标文本得到待打标文本中的标签关键字或者标签关键词的匹配次数,根据所述匹配分数计算标签关键词和标签关键字的第一分数,记为a;将待打标文本经过所述训练后的模型计算得到标签关键字或者标签关键词的第二分数,记为b;之后根据所述第一分数和所述第二分数得出所述待标记文本对应的标签的第三分数,记为c,所述第三分数决定是否给所述待标记文本打上对应的标签,标签的第三分数的得分是结合了标签关键字、标签关键词及语义的方式获得,该方法可以发现或标记更多潜在语义上一致的标记语句,另外标签的定义、训练、打标全流程在系统中操作,减少了系统之外的操作,使用户在使用上保持连贯性。
附图说明
[0024]图1是本专利技术具体实施方式的打标签的方法的流程图;
[0025]图2是本专利技术具体实施方式的打标签的系统的结构框图。
具体实施方式
[0026]结合图1,本具体实施方式提供了一种打标签的方法,包括以下步骤:
[0027]S1、将语义文本进行预处理;具体地,将句子分割得到分词列表,将分词列表分为
训练集、验证集和测试集,之后训练词嵌入模型或字符嵌入模型得到文本的表征,所述分词列表用于统计标签关键字和标签关键词;进一步地,所述训练集、所述验证集和所述测试集的划分比例优选设置为3:1:1;
[0028]S2、根据预处理后的语义文本构建深度学习模型并使用训练集数据训练模型得到训练后的模型;
[0029]S3、通过遍历或者扫描待打标文本得到待打标文本中的标签关键字和标签关键词的匹配次数,根据所述匹配分数计算标签关键词和标签关键字的第一分数,记为a;将待打标文本经过所述训练后的模型计算得到标签关键字和标签关键词的第二分数,记为b;所述第一分数的计算方法为标签关键词和标签关键字的匹配次数小于3次,按实际次数计分;标签关键词和标签关键字的匹配次数大于或者等于3次,且小于5次,计为3分;标签关键词和标签关键字的匹配次数大于或者等于5次,且小于10次,计为5分;标签关键词和标签关键字的匹配次数大于或者等于10次,计为10分;所述第二分数的计算方法为X
max
表示深度学习模型的计算分数的最大取值,X
min
表示深度学习模型的计算分数的最小取值,X表示深度学习模型对待打标文本的实际计算分数;
[0030]S4、根据所述第一分数和所述第二分数得出所述待标记文本对应的标签的第三分数,记为c,根据所述第三分数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种打标签的方法,其特征在于,包括以下步骤:S1、将语义文本进行预处理;S2、根据预处理后的语义文本构建深度学习模型并使用训练集数据训练模型得到训练后的模型;S3、通过遍历或者扫描待打标文本得到待打标文本中的标签关键字和标签关键词的匹配次数,根据所述匹配分数计算标签关键词和标签关键字的第一分数,记为a;将待打标文本经过所述训练后的模型计算得到标签关键字和标签关键词的第二分数,记为b;S4、根据所述第一分数和所述第二分数得出所述待标记文本对应的标签的第三分数,记为c,根据所述第三分数决定是否给所述待标记文本打上对应的标签。2.根据权利要求1所述的打标签的方法,其特征在于,在步骤S1中,所述将语义文本进行预处理包括:将句子分割得到分词列表,将分词列表分为训练集、验证集和测试集,之后训练词嵌入模型或字符嵌入模型得到文本的表征,所述分词列表用于统计标签关键字和标签关键词。3.根据权利要求1所述的打标签的方法,其特征在于,在步骤S3中,所述第一分数的计算方法为标签关键词和标签关键字的匹配次数小于3次,按实际次数计分;标签关键词和标签关键字的匹配次数大于或者等于3次,且小于5次,计为3分;标签关键词和标签关键字的匹配次数大于或者等于5次,且小于10次,计为5分;标签关键词和标签关键字的匹配次数大于或者等于10次,计为10分。4.根据权利要求1所述的打标签的方法,其特征在于,在步骤S3中,所述第二分数的计算方法为X
max
表示深度学习模型的计算分数的最大取值,X
min
表示深度学习模型的计算分...

【专利技术属性】
技术研发人员:邓彪薛晨
申请(专利权)人:北京中科凡语科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1