关键词识别方法、装置、设备及介质制造方法及图纸

技术编号:34344115 阅读:26 留言:0更新日期:2022-07-31 04:28
本申请提供关键词识别方法、装置、设备及介质。根据本申请公开的技术方案,通过配置包括至少一个第一关键词和至少一个第二关键词的目标组合词组,且指定第一关键词和第二关键词间的约束关系,然后基于全部第一关键词和全部第二关键词建立字典树,并基于所述字典树检索待识别文本中是否存在相应关键词,以及检索到的关键词是否满足对应约束关系,来识别待识别文本中的目标组合词组,从而可以准确高效地识别组合式信息,进一步确保网络环境信息传播的安全可靠。的安全可靠。的安全可靠。

【技术实现步骤摘要】
关键词识别方法、装置、设备及介质


[0001]本说明书涉及网络信息安全领域,尤其涉及一种关键词识别方法、装置、设备及介质。

技术介绍

[0002]随着移动互联网的发展,用户可以在各个网络平台发布信息,并且还可以对各网络平台上的媒体资源进行评论、与媒体资源的作者进行互动等等,文本信息中的信息量非常大。但是,所有的良好互动均建立在优质的媒体资源以及良好的网络氛围的基础上。而构建良好的网络氛围,首先需要识别文本信息中特定信息,以便于后续对特定信息进行拦截、过滤,以净化网络,保证网络环境信息传播安全可靠。因此,准确高效地从大量的文本信息中提取特定信息变得十分重要。
[0003]相关技术中,通常只对单独特定信息进行提取,难以针对性地处理组合式信息。而在现实语义中,识别组合式信息甚至比识别单独特定信息更具意义。

技术实现思路

[0004]为更加准确可靠识别组合式特定信息,本说明书提供了如下的关键词识别方法、装置、设备及介质。
[0005]根据本说明书实施例的第一方面,提供一种关键词识别方法,所述方法包括:
[0006本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种关键词识别方法,其特征在于,所述方法包括:确定目标组合词组,所述目标组合词组包括至少一个第一关键词和至少一个第二关键词,并且所述第一关键词和所述第二关键词满足指定的约束关系;基于所述至少一个第一关键词和所述至少一个第二关键词建立字典树;基于所述字典树对待识别文本进行检索,以检索所述待识别文本中的所述第一关键词和所述第二关键词;如果在所述待识别文本中检索到属于同一个所述目标组合词组的所述第一关键词和所述第二关键词,则基于对应的所述约束关系,确定检索到的所述第一关键词和所述第二关键词是否命中对应的所述目标组合词组。2.根据权利要求1所述的方法,其特征在于:所述约束关系包括下列中的至少一者:所述第一关键词和所述第二关键词在所述待识别文本中的前后关系约束;所述第一关键词和所述第二关键词在所述待识别文本中的间距约束。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:得到检索到的属于同一个所述目标组合词组的所述第一关键词和所述第二关键词在所述待识别文本中的位置;基于所述第一关键词和所述第二关键词的所述位置,确定所述第一关键词和所述第二关键词在所述待识别文本中的前后关系。4.根据权利要求2所述的方法,其特征在于,所述方法还包括:得到检索到的属于同一个所述目标组合词组的所述第一关键词和所述第二关键词在所述待识别文本中的位置;基于所述第一关键词和所述第二关键词的所述位置的差,确定所述第一关键词和所述第二关键词在所述待识别文本中的间距。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:在建立所述字典树时,在所述字典树中每个检索关键词的最后一个字符处标识结束标记,所述检索关键词包括所述至少一个第一关键词和所述至少一个第二关键词;在基于所述字典树对所述待识别文本进行检索时,当检索至所述结束标记时,确定已检索到对应的检索关键词,并将所述最后一个字符在所述待识别文本中的位置作为对应的检索关键词在所述待识别文本中的位置。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:在所述字典树中属于同一个所...

【专利技术属性】
技术研发人员:刘振豪吴宝良
申请(专利权)人:北京金山办公软件股份有限公司武汉金山办公软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1