一种打标签的方法、系统及其存储介质技术方案

技术编号：35098659 阅读：33 留言：0更新日期：2022-10-01 17:03

本发明专利技术公开一种打标签的方法、系统及其存储介质，属于文本打标签技术领域。该打标签的方法，包括：将语义文本进行预处理；根据预处理后的语义文本构建深度学习模型并使用训练集数据训练模型得到训练后的模型；通过遍历或者扫描待打标文本得到匹配次数，计算标签关键词和标签关键字的第一分数；将待打标文本经过所述训练后的模型计算第二分数；根据所述第一分数和所述第二分数得出所述待标记文本对应的标签的第三分数，根据所述第三分数决定是否给所述待标记文本打上对应的标签。本发明专利技术还包括上述打标签的系统以及存储介质。该方法可以发现或标记更多潜在语义上一致的标记语句。现或标记更多潜在语义上一致的标记语句。现或标记更多潜在语义上一致的标记语句。

全部详细技术资料下载

【技术实现步骤摘要】
一种打标签的方法、系统及其存储介质

[0001]本专利技术涉及文本打标签
，具体涉及一种打标签的方法、系统及其存储介质。

技术介绍

[0002]现有的打标签方法主要是基于关键字、关键词，当待标记文本段落中出现打标规则对应的关键字、关键词时，对该段文本打上相应的标签。但此种方法较为机械，并且无法发现潜在语义上一致的关键词和关键字进而打标签。
[0003]针对用户不同的业务需求，标签体系和规则的定义灵活多变。当前的一些方法在修改标签体系或改变规则后，需要改变模型逻辑代码，或重新训练分类模型后再次部署模型，增加了复杂度，打断了业务连贯性，如何在不改变模型逻辑代码的基础上，发现潜在语义上一致的标签关键词和标签关键字(标签关键词和标签关键字即标记语句)进而打标签是现有技术的难题。

技术实现思路

[0004]本专利技术的目的在于克服上述技术不足，提供一种打标签的方法、系统及其存储介质，解决现有技术中如何在不改变模型逻辑代码的基础上，发现潜在语义上一致的标签关键词和标签关键字进而打标签是现有技术的技术问题。
[0005]为达到上述技术目的，本专利技术的技术方案提供一种打标签的方法，包括以下步骤：
[0006]S1、将语义文本进行预处理；
[0007]S2、根据预处理后的语义文本构建深度学习模型并使用训练集数据训练模型得到训练后的模型；
[0008]S3、通过遍历或者扫描待打标文本得到待打标文本中的标签关键字和标签关键词的匹配次数，根据所述匹配分数计算标签关键词和标签关键...

【技术保护点】

【技术特征摘要】
1.一种打标签的方法，其特征在于，包括以下步骤：S1、将语义文本进行预处理；S2、根据预处理后的语义文本构建深度学习模型并使用训练集数据训练模型得到训练后的模型；S3、通过遍历或者扫描待打标文本得到待打标文本中的标签关键字和标签关键词的匹配次数，根据所述匹配分数计算标签关键词和标签关键字的第一分数，记为a；将待打标文本经过所述训练后的模型计算得到标签关键字和标签关键词的第二分数，记为b；S4、根据所述第一分数和所述第二分数得出所述待标记文本对应的标签的第三分数，记为c，根据所述第三分数决定是否给所述待标记文本打上对应的标签。2.根据权利要求1所述的打标签的方法，其特征在于，在步骤S1中，所述将语义文本进行预处理包括：将句子分割得到分词列表，将分词列表分为训练集、验证集和测试集，之后训练词嵌入模型或字符嵌入模型得到文本的表征，所述分词列表用于统计标签关键字和标签关键词。3.根据权利要求1所述的打标签的方法，其特征在于，在步骤S3中，所述第一分数的计算方法为标签关键词和标签关键字的匹配次数小于3次，按实际次数计分；标签关键词和标签关键字的匹配次数大于或者等于3次，且小于5次，计为3分；标签关键词和标签关键字的匹配次数大于或者等于5次，且小于10次，计为5分；标签关键词和标签关键字的匹配次数大于或者等于10次，计为10分。4.根据权利要求1所述的打标签的方法，其特征在于，在步骤S3中，所述第二分数的计算方法为X
max
表示深度学习模型的计算分数的最大取值，X
min
表示深度学习模型的计算分...

【专利技术属性】
技术研发人员：邓彪，薛晨，
申请(专利权)人：北京中科凡语科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人