关键词提取方法及装置制造方法及图纸

技术编号:40831000 阅读:15 留言:0更新日期:2024-04-01 14:54
本发明专利技术实施例提供一种关键词提取方法及装置,涉及数据处理技术领域,其中方法包括:对原始数据进行预处理,得到待提取数据;确定所述待提取数据的语言类型;基于所述待提取数据的语言类型对所述待提取数据进行关键词提取,得到目标关键词。本发明专利技术实施例提供的关键词提取方法及装置,基于待提取数据的语言类型对待提取数据进行关键词的自动提取,从而提高了关键词提取的效率。

【技术实现步骤摘要】

本专利技术涉及数据处理,尤其涉及一种关键词提取方法及装置


技术介绍

1、失陷指标(indicator of compromise,ioc)可以是网际协议地址(internetprotocol,ip)、域名、统一资源定位系统(uniform resource locator,url)、哈希(hash)、文件路径、注册表项等。可以通过一条ioc的命中来判断对应的主机上是否已经运行了木马病毒、或者内网中是否有主机访问了僵木蠕的控制命令服务器;通常通过ioc的关键词提取来检测是否有被攻陷的主机。

2、相关技术中,在词表中存储多个预设关键词,并制定上下文规则,首先将待提取数据与词表进行匹配,得到待提取数据中的候选关键词;然后基于上下文规则对候选关键词进行过滤,得到最终的关键词。

3、但上述相关技术中,需要人工制定词表和上下文规则,从而导致关键词提取的效率较低。


技术实现思路

1、针对现有技术中的问题,本专利技术实施例提供一种关键词提取方法及装置。

2、具体地,本专利技术实施例提供了本文档来自技高网...

【技术保护点】

1.一种关键词提取方法,其特征在于,包括:

2.根据权利要求1所述的关键词提取方法,其特征在于,所述对原始数据进行预处理,得到待提取数据,包括:

3.根据权利要求2所述的关键词提取方法,其特征在于,所述将过滤后的文章数据转化为所述预设格式的数据,包括:

4.根据权利要求3所述的关键词提取方法,其特征在于,所述将所述目标文章数据转化为所述预设格式的数据,包括:

5.根据权利要求1-4任一项所述的关键词提取方法,其特征在于,所述基于所述待提取数据的语言类型对所述待提取数据进行关键词提取,得到目标关键词,包括:

6.根据权利要求5所述...

【技术特征摘要】

1.一种关键词提取方法,其特征在于,包括:

2.根据权利要求1所述的关键词提取方法,其特征在于,所述对原始数据进行预处理,得到待提取数据,包括:

3.根据权利要求2所述的关键词提取方法,其特征在于,所述将过滤后的文章数据转化为所述预设格式的数据,包括:

4.根据权利要求3所述的关键词提取方法,其特征在于,所述将所述目标文章数据转化为所述预设格式的数据,包括:

5.根据权利要求1-4任一项所述的关键词提取方法,其特征在于,所述基于所述待提取数据的语言类型对所述待提取数据进行关键词提取,得到目标关键词,包括:

6.根据权利要求5所述的关键词提取方法,其特征在于,所述将所述待提取数据输入至目标语义识别模型中,得到所述目标语义识别模型输出的所述待提取数据中每个词对应的语义向量,包括:

7.根据权利要求5所述的关键词提取方法,其特征在于,所述方法还包括:

8.根据权利要求7所述的关键词提取方法,其特征在于,在所述将所述训练数据样本和所述训练数据样本中每个词的标注标签输入至初始语义识别模型中之前,所述方法包括:

9.根据权利要求2-4任一项所述的关键词提取方法,其特征在于,所述基于所述待提取数据的语言类型对所述待提取数据进行关键词提取,得到目标关键词,包括:

10.根据权利...

【专利技术属性】
技术研发人员:王宇张超王占一
申请(专利权)人:奇安信网神信息技术北京股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1