【技术实现步骤摘要】
一种基于BiLSTM
‑
CRF的HTTP报文关键词提取方法
[0001]本专利技术属于网络数据人工智能分析
,尤其涉及基于BiLSTM
‑
CRF的HTTP报文关键词提取方法。
技术介绍
[0002]随着互联网的快速发展,网页、博客、社交网络、即时通信软件等应用迅速普及,产生了大量的HTTP(Hyper Text Transfer Protocol)报文数据,如何在这些报文中挖掘出有价值的信息,成为很多互联网企业研究的重点。目前,针对HTTP报文中关键词的提取,公开的工程化做法主要是以下两种方式:基于规则的方法,依赖人工制定的规则,比如正则表达式匹配、特定领域专属的实体词典匹配等;针对已有的http报文建立关键词特征库,基于特征库提取与之匹配的关键信息。
[0003]虽然通过基于规则或者特征库的方法都可以提取出HTTP报文中有价值的信息,但是对于发现和挖掘HTTP报文中未出现过的关键词或者存在突破人工制定规则的关键词,这两种方法就会出现明显的无法提取的现象,导致部分有效信息数据 ...
【技术保护点】
【技术特征摘要】
1.一种基于BiLSTM
‑
CRF的HTTP报文关键词提取方法,其特征在于包括以下步骤:步骤S1,建立关键词特征库:利用已有报文建立关键词特征库,将关键词标签、关键词提取规则和原始报文全文地址信息存储在数据库,以供Bi
‑
LSTM
‑
CRF模型从所述数据库中提取数据作为模型训练样本和测试样本来源;所述报文中关键词以key
‑
value成对出现,关键词必须同时存在key值和value值;步骤S2,数据预处理:对步骤S1建立的关键词特征库的数据依次进行预处理,包括:数据库中的脏数据的过滤,根据“回车符+换行符”规则对原始HTTP报文的分割,包含特殊字符的关键词的特殊字符转换,根据捞取的关键词标签和提取规则对关键词进行关键词标注,并将部分预处理的数据作为训练样本,剩余部分作为测试样本;步骤S3,建立Bi
‑
LSTM
‑
CRF模型(1)报文样本切分后的字符进入look
‑
up层,通过word2ver方法将第i个字符w
i
映射为m维的字符嵌入向量x
i
,所述字符嵌入向量x
i
的维度通过预先设置;(2)将字符嵌入向量x
i
作为BiLSTM层时刻t的输入,前向隐藏状态和后向隐藏状态进行直接拼接得到该时刻完整的m维的隐藏状态通过线性层公式(1)将隐藏状态h
t
从m维映射为k维的预测概率p
i
,所述k维为预先设置的关键词标注的标签总量;p
i
=W
h
·
h
t
+b
h
(1)式中,W
h
为连接权重矩阵,b
h
为偏置向量;(3)对字符序列w={w1,w2,
…
,w
i
,
…
,w
n
}进行标注得到标签序列y={y1,y2,
…
,y
i
,
…
,y
n
},然后根据BiLSTM层输出的预测概率p
i
和CRF层具有的状态转移概率矩阵A,通过Viterbi算法(2)求解得到最优标注y
*
;式中,y
*
表示模型输出的最优标注,表示标签y
i
到标签y
i+1
的转移概率,表示第i个字符w
i
预测为标签y
i
的概率;n表示字符序列w中字符数量;步骤S4,以步骤S2数据预处理生成的测试集中的有效报文样本为对象,代入步骤S3建立的BiLSTM
‑
CRF模型,得到模型预测的结果,将预测结果与步骤S2得到测试样本中已标注标签的...
【专利技术属性】
技术研发人员:祝远鉴,李祥,马小玥,汪晓猛,朱灿鹏,汪盼,
申请(专利权)人:南京烽火星空通信发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。