【技术实现步骤摘要】
关键词识别方法、装置、设备及介质
[0001]本说明书涉及网络信息安全领域,尤其涉及一种关键词识别方法、装置、设备及介质。
技术介绍
[0002]随着移动互联网的发展,用户可以在各个网络平台发布信息,并且还可以对各网络平台上的媒体资源进行评论、与媒体资源的作者进行互动等等,文本信息中的信息量非常大。但是,所有的良好互动均建立在优质的媒体资源以及良好的网络氛围的基础上。而构建良好的网络氛围,首先需要识别文本信息中特定信息,以便于后续对特定信息进行拦截、过滤,以净化网络,保证网络环境信息传播安全可靠。因此,准确高效地从大量的文本信息中提取特定信息变得十分重要。
[0003]相关技术中,通常只对单独特定信息进行提取,难以针对性地处理组合式信息。而在现实语义中,识别组合式信息甚至比识别单独特定信息更具意义。
技术实现思路
[0004]为更加准确可靠识别组合式特定信息,本说明书提供了如下的关键词识别方法、装置、设备及介质。
[0005]根据本说明书实施例的第一方面,提供一种关键词识别方法,所述方法包括: ...
【技术保护点】
【技术特征摘要】
1.一种关键词识别方法,其特征在于,所述方法包括:确定目标组合词组,所述目标组合词组包括至少一个第一关键词和至少一个第二关键词,并且所述第一关键词和所述第二关键词满足指定的约束关系;基于所述至少一个第一关键词和所述至少一个第二关键词建立字典树;基于所述字典树对待识别文本进行检索,以检索所述待识别文本中的所述第一关键词和所述第二关键词;如果在所述待识别文本中检索到属于同一个所述目标组合词组的所述第一关键词和所述第二关键词,则基于对应的所述约束关系,确定检索到的所述第一关键词和所述第二关键词是否命中对应的所述目标组合词组。2.根据权利要求1所述的方法,其特征在于:所述约束关系包括下列中的至少一者:所述第一关键词和所述第二关键词在所述待识别文本中的前后关系约束;所述第一关键词和所述第二关键词在所述待识别文本中的间距约束。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:得到检索到的属于同一个所述目标组合词组的所述第一关键词和所述第二关键词在所述待识别文本中的位置;基于所述第一关键词和所述第二关键词的所述位置,确定所述第一关键词和所述第二关键词在所述待识别文本中的前后关系。4.根据权利要求2所述的方法,其特征在于,所述方法还包括:得到检索到的属于同一个所述目标组合词组的所述第一关键词和所述第二关键词在所述待识别文本中的位置;基于所述第一关键词和所述第二关键词的所述位置的差,确定所述第一关键词和所述第二关键词在所述待识别文本中的间距。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:在建立所述字典树时,在所述字典树中每个检索关键词的最后一个字符处标识结束标记,所述检索关键词包括所述至少一个第一关键词和所述至少一个第二关键词;在基于所述字典树对所述待识别文本进行检索时,当检索至所述结束标记时,确定已检索到对应的检索关键词,并将所述最后一个字符在所述待识别文本中的位置作为对应的检索关键词在所述待识别文本中的位置。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:在所述字典树中属于同一个所...
【专利技术属性】
技术研发人员:刘振豪,吴宝良,
申请(专利权)人:北京金山办公软件股份有限公司武汉金山办公软件有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。