一种文本标识的方法、装置、电子设备及存储介质制造方法及图纸

技术编号：20588926 阅读：20 留言：0更新日期：2019-03-16 07:10

本发明专利技术实施例公开了一种文本标识的方法、装置、电子设备及存储介质，该方法包括：基于预设的判别模型确定待标识文本的初始标识；基于所述初始标识和预设的过滤规则确定所述待标识文本的最终标识；其中，所述标识包括：垃圾文本或非垃圾文本。在判别模型确定待标识文本标识的基础上，进一步利用过滤规则进行再次的核查并确认是为垃圾文本还是非垃圾文本，避免判别模型由于没有及时更新造成错误判别的问题，实现更准确的对待标识文本的垃圾判断标识，可以高效的对海量文本数据实现数据清洗。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本标识的方法、装置、电子设备及存储介质
本专利技术涉及数据挖掘
，尤其涉及一种文本标识的方法、装置、电子设备及存储介质。
技术介绍
垃圾文本标识的目的是为了将用户不关注的文章进行标识，在进行文章检索时，过滤与领域关注无关文本，从而降低用户的无效信息浏览时长，提升用户的浏览效率，该技术广泛应用于海量文本数据的数据清洗技术中。对于垃圾文本标识，现有技术常采用以下几种方式来进行处理：1.采用非领域关注词库的方法，对文章内容进行关键词匹配。通过预设的“垃圾”关键词，匹配文章是否存在垃圾词，从而判断当前文本是否属于垃圾文本。显然，该方法严重依赖于垃圾词库，且当垃圾词出现于文本中时，即被判断为垃圾文本，而在实际中人工在对垃圾文本判断时，远复杂于当前判断逻辑，具有很高的误判率，导致较多的有价值文本被误判为垃圾文本而被遗漏。2.采用向量空间模型的方法，对垃圾文本进行标识。通过人工标注垃圾文本，建立行业相关的垃圾文本语料库，基于机器学习算法，建立垃圾文本向量空间模型，基于该模型，判断文本是否为垃圾文本。但是由于垃圾文本的形式不断增加，若要保持向量模型的有效性，需要持续的对模型进行更新迭代，导致较高的人工成本用于更新行业相关的垃圾文本语料库。
技术实现思路
本专利技术提供一种文本标识的方法、装置、电子设备及存储介质，提升垃圾文本标识的准确性，同时，降低了相关判别模型的维护成本。第一方面，本专利技术实施例提供了一种文本标识的方法，包括：基于预设的判别模型确定待标识文本的初始标识；基于所述初始标识和预设的过滤规则确定所述待标识文本的最终标识；其中，所述标识包括：垃圾文本或...

【技术保护点】
1.一种文本标识的方法，其特征在于，所述方法包括：基于预设的判别模型确定待标识文本的初始标识；基于所述初始标识情况和预设的过滤规则确定所述待标识文本的最终标识；其中，所述标识包括：垃圾文本或非垃圾文本。

【技术特征摘要】
1.一种文本标识的方法，其特征在于，所述方法包括：基于预设的判别模型确定待标识文本的初始标识；基于所述初始标识情况和预设的过滤规则确定所述待标识文本的最终标识；其中，所述标识包括：垃圾文本或非垃圾文本。2.根据权利要求1所述的方法，其特征在于，基于所述初始标识和预设的过滤规则确定所述待标识文本的最终标识，包括：如果所述初始标识为非垃圾文本，则基于预设的黑名单规则确定所述待标识文本的最终标识；其中，所述预设的黑名单规则包括：黑名单词库规则、黑名单域名规则和黑名单正则规则中的一个或多个。3.根据权利要求1所述的方法，其特征在于，基于所述初始标识和预设的过滤规则确定所述待标识文本的最终标识，包括：如果所述初始标识为垃圾文本，则基于预设的白名单词库规则确定所述待标识文本的最终标识。4.根据权利要求2所述的方法，其特征在于，基于预设的黑名单规则确定所述待标识文本的最终标识，包括：如果基于预设的黑名单规则确定所述待标识文本为垃圾文本，则基于预设的白名单词库规则确定所述待标识文本的最终标识。5.根据权利要求1-4中任一所述的方法，其特征在于，在基于预设的垃圾判别模型确定待标识文本的初始标识之前，所述方法还包括：利用预设的分词规则对所述待标识文本进行分词；相应的，基于预设的垃圾...

【专利技术属性】
技术研发人员：万月亮，火一莽，任众，
申请(专利权)人：北京锐安科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人