一种文本标识的方法、装置、电子设备及存储介质制造方法及图纸

技术编号:20588926 阅读:20 留言:0更新日期:2019-03-16 07:10
本发明专利技术实施例公开了一种文本标识的方法、装置、电子设备及存储介质,该方法包括:基于预设的判别模型确定待标识文本的初始标识;基于所述初始标识和预设的过滤规则确定所述待标识文本的最终标识;其中,所述标识包括:垃圾文本或非垃圾文本。在判别模型确定待标识文本标识的基础上,进一步利用过滤规则进行再次的核查并确认是为垃圾文本还是非垃圾文本,避免判别模型由于没有及时更新造成错误判别的问题,实现更准确的对待标识文本的垃圾判断标识,可以高效的对海量文本数据实现数据清洗。

【技术实现步骤摘要】
一种文本标识的方法、装置、电子设备及存储介质
本专利技术涉及数据挖掘
,尤其涉及一种文本标识的方法、装置、电子设备及存储介质。
技术介绍
垃圾文本标识的目的是为了将用户不关注的文章进行标识,在进行文章检索时,过滤与领域关注无关文本,从而降低用户的无效信息浏览时长,提升用户的浏览效率,该技术广泛应用于海量文本数据的数据清洗技术中。对于垃圾文本标识,现有技术常采用以下几种方式来进行处理:1.采用非领域关注词库的方法,对文章内容进行关键词匹配。通过预设的“垃圾”关键词,匹配文章是否存在垃圾词,从而判断当前文本是否属于垃圾文本。显然,该方法严重依赖于垃圾词库,且当垃圾词出现于文本中时,即被判断为垃圾文本,而在实际中人工在对垃圾文本判断时,远复杂于当前判断逻辑,具有很高的误判率,导致较多的有价值文本被误判为垃圾文本而被遗漏。2.采用向量空间模型的方法,对垃圾文本进行标识。通过人工标注垃圾文本,建立行业相关的垃圾文本语料库,基于机器学习算法,建立垃圾文本向量空间模型,基于该模型,判断文本是否为垃圾文本。但是由于垃圾文本的形式不断增加,若要保持向量模型的有效性,需要持续的对模型进行更新迭代,导致较高的人工成本用于更新行业相关的垃圾文本语料库。
技术实现思路
本专利技术提供一种文本标识的方法、装置、电子设备及存储介质,提升垃圾文本标识的准确性,同时,降低了相关判别模型的维护成本。第一方面,本专利技术实施例提供了一种文本标识的方法,包括:基于预设的判别模型确定待标识文本的初始标识;基于所述初始标识和预设的过滤规则确定所述待标识文本的最终标识;其中,所述标识包括:垃圾文本或非垃圾文本。第二方面,本专利技术实施例还提供了一种文本标识的装置,包括:初始标识模块,用于基于预设的判别模型确定待标识文本的初始标识;最终标识模块,用于基于所述初始标识和预设的过滤规则确定所述待标识文本的最终标识;其中,所述标识包括:垃圾文本或非垃圾文本。第三方面,本专利技术实施例还提供了一种电子设备,所述电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本专利技术任意实施例所述的文本标识的方法。第四方面,本专利技术实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如本专利技术任意实施例所述的文本标识的方法。本专利技术实施例的技术方案,通过基于预设的判别模型确定待标识文本的初始标识;基于所述初始标识和预设的过滤规则确定所述待标识文本的最终标识其中,所述标识包括:垃圾文本或非垃圾文本。通过该实施例的方案,在模型判别的基础上,进一步利用过滤规则进行识别,实现无需频繁维护垃圾文本标识模型,同时降低标识误判率的目的。附图说明图1是本专利技术实施例一中的一种文本标识的方法的流程图。图2是本专利技术实施例二中的一种文本标识的方法的流程图。图3是本专利技术实施例二中的另一种文本标识的方法的流程图。图4是本专利技术实施例三中的一种文本标识的装置的结构示意图。图5是本专利技术实施例四中的一种电子设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1为本专利技术实施例一提供的一种文本标识的方法的流程图,本实施例可适用于垃圾文本标识的情况,该方法可以由文本标识的装置来执行,该装置可以采用硬件和/或软件实现,可以配置于电子设备中,该方法具体包括如下步骤:S110、基于预设的判别模型确定待标识文本的初始标识。待标识文本可以是需要确定该文本是否为垃圾文本的数据,比如可以是从互联网上获取到的文本数据,也可以是从其他数据源获取到的文本数据。示例性的,数据库维护人员可以通过将其他来源的文本数据进行标识以后才可以存入数据库,以方便用户使用或进行后续其他操作。预设的判别模型可以是预先训练好的用于判断待标识文本是否为垃圾文本的模型,比如可以是通过机器学习算法或神经网络训练得到的空间向量判别模型。通过判别模型确定待标识文本是否为垃圾文本的结果作为初始标识,其中,所述标识包括:垃圾文本或非垃圾文本。例如,通过判别模型确定了待标识文本为垃圾文本,则待标识文本的初始标识即为垃圾文本。S120、基于所述初始标识和预设的过滤规则确定所述待标识文本的最终标识。具体的,结合预设判别模型对待标识文本的初始标识以及预设的过滤规则共同确定待标识文本的最终标识。其中,最终标识可以是通过本实施例的方案最终确定的待标识文本是为垃圾文本还是非垃圾文本。预设的过滤规则可以是预先设定的用于判断待标识文本是否属于垃圾文本或非垃圾文本的规则,比如白名单规则和/或黑名单规则等。在判别模型确定标识基础上,进一步利用过滤规则进行再次确认是否为垃圾文本或非垃圾文本,避免判别模型由于没有及时更新造成的错误判别的问题,提高标识的准确度。可选的,在基于预设的垃圾判别模型确定待标识文本的初始标识之前,所述方法还包括:利用预设的分词规则对所述待标识文本进行分词;相应的,基于预设的垃圾判别模型确定待标识文本的初始标识,包括:基于分词结果和预设的判别模型确定待标识文本的初始标识。在本实施例中,在接收到待标识的文本之后,可以基于预设的分词规则对待标识文本进行分词,其中预设的分词规则可以是利用预设的分词词库对所述待标识的文本执行分词操作。预设的分词词库是由预先从行业相关文本样本库中的行业相关文本中提取的容易产生分词歧义的关键词组成的词库。需要说明的是,所述分词词库不仅包括关键词,还可以包括各关键词对应的分词权重值信息。例如,所述分词词库中包含行业关键词“红黄蓝”,所述分词词库还可以以进一步的包括该关键词的相关分词权重值(比如,0-100之间)。在进行分词操作以后,得到的分词结果可以是按照分词规则从待标识文本提取出相关的关键词。在本实施例中,可以利用预置的行业相关文本样本库中的行业相关样本文本训练判别模型,具体的,该判别模型可以包括一个分类器,该分类器在接收到所述待标识的文本及分词结果后,能够给出所述待标识的文本是为垃圾文本或非垃圾文本的判别结果,并且对待标识文本进行相应的垃圾或非垃圾标识。可选的,基于所述初始标识和预设的过滤规则确定所述待标识文本的最终标识,包括:如果所述初始标识为垃圾文本,则基于预设的白名单词库规则确定所述待标识文本的最终标识。当判别模型确定待标识文本为垃圾文本时,需要利用白名单词库规则再次确认是否确实为垃圾文本,避免有价值文本被误判为垃圾文本而被遗漏等问题。其中,白名单词库规则可以是通过判断待标识文本是否与白名单词库中的非垃圾的关键词匹配或相似,来确定待标识文本是否为垃圾文本的规则。示例性的,如果待标识文本与白名单词库中的非垃圾的关键词匹配,则认为是非垃圾文本。反之,则认为是垃圾文本。其中,白名单词库中包括了可以视为非垃圾文本的关键词,可以根据行业领域的具体需求设计白名单词库。当然,在白名单词库规则中也可以预先设定关键词匹配的具体规则,比如预设数量的关键词同时匹配即认为是非垃圾文本,或者预设数量的关键词中只要有一个匹配即认为是非垃圾文本,还可以是其本文档来自技高网...

【技术保护点】
1.一种文本标识的方法,其特征在于,所述方法包括:基于预设的判别模型确定待标识文本的初始标识;基于所述初始标识情况和预设的过滤规则确定所述待标识文本的最终标识;其中,所述标识包括:垃圾文本或非垃圾文本。

【技术特征摘要】
1.一种文本标识的方法,其特征在于,所述方法包括:基于预设的判别模型确定待标识文本的初始标识;基于所述初始标识情况和预设的过滤规则确定所述待标识文本的最终标识;其中,所述标识包括:垃圾文本或非垃圾文本。2.根据权利要求1所述的方法,其特征在于,基于所述初始标识和预设的过滤规则确定所述待标识文本的最终标识,包括:如果所述初始标识为非垃圾文本,则基于预设的黑名单规则确定所述待标识文本的最终标识;其中,所述预设的黑名单规则包括:黑名单词库规则、黑名单域名规则和黑名单正则规则中的一个或多个。3.根据权利要求1所述的方法,其特征在于,基于所述初始标识和预设的过滤规则确定所述待标识文本的最终标识,包括:如果所述初始标识为垃圾文本,则基于预设的白名单词库规则确定所述待标识文本的最终标识。4.根据权利要求2所述的方法,其特征在于,基于预设的黑名单规则确定所述待标识文本的最终标识,包括:如果基于预设的黑名单规则确定所述待标识文本为垃圾文本,则基于预设的白名单词库规则确定所述待标识文本的最终标识。5.根据权利要求1-4中任一所述的方法,其特征在于,在基于预设的垃圾判别模型确定待标识文本的初始标识之前,所述方法还包括:利用预设的分词规则对所述待标识文本进行分词;相应的,基于预设的垃圾...

【专利技术属性】
技术研发人员:万月亮火一莽任众
申请(专利权)人:北京锐安科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1