一种文本中特定内容识别存储方法及系统技术方案

技术编号:35523374 阅读:14 留言:0更新日期:2022-11-09 14:43
本发明专利技术公开了一种文本中特定内容识别存储方法及系统,属于文特定词识别的技术领域,其方法包括生成特定词库和规则库;获取待识别的文本集合;提取当前特定文本数据集中的新特定词,得到新特定词集合;将需要训练的词组输入BERT模型;从特定文本中获取疑似新特定词集合,利用BERT模型计算特定词库中各词的特征向量与疑似新特定词集合中各词的特征向量的余弦相似度,并基于计算结果判定新特定词。本发明专利技术解决了现有技术中基于预构建模式规则的匹配方式仅局限于特定匹配规则模式,匹配方式不够灵活,结果不够全面,难以及时识别海量新出现的特定词及其变体词,且由于文本中涉及大量错综复杂的词语,容易造成特定词的模糊匹配,导致误识别的问题。导致误识别的问题。导致误识别的问题。

【技术实现步骤摘要】
一种文本中特定内容识别存储方法及系统


[0001]本专利技术涉及特定词识别的
,尤其涉及一种文本中特定内容识别存储方法及系统。

技术介绍

[0002]随着信息技术的快速发展,社交平台等互联网内容类产品也以爆炸式的速度涌现,随着活跃用户量的增加,这些产品会产生大量的帖子等文本。然而这些文本中是否存在特定词汇与特定文本,需要快速判断。
[0003]特定词是特定文本最重要的识别标志,利用特定词可以对特定文本进行高效而准确的检测和过滤。随着时间的推移,新的特定词层出不穷,规避特定词检测的方式和手段也不断增加,亟需对新出现的特定词及变体词进行识别、对现有特定词库进行更新扩充。
[0004]我国专利申请号:201910945463.8公开了一种敏感词检测方法及装置,其中,方法包括:获取目标文本,对目标文本进行分词处理;将分词处理后的目标文本输入文本分类模型,所述文本分类模型是带有注意力机制的循环神经网络模型,获取文本分类模型输出的目标文本的类别和分词处理后的目标文本中每个词语的注意力权重,所述类别包括:敏感和正常;若文本分类模型输出的目标文本的类别为敏感,则将分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词;其中,所述文本分类模型是基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的。
[0005]但申请人在实现本申请实施例中专利技术技术方案的过程中,发现上述技术至少存在如下技术问题:
[0006]现有技术中,基于预构建模式规则的匹配方式仅局限于特定匹配规则模式,匹配方式不够灵活,结果不够全面,难以及时识别海量新出现的特定词及其变体词,且由于文本中涉及大量错综复杂的词语,容易造成特定词的模糊匹配,导致误识别。

技术实现思路

[0007]本专利技术针对现有技术存在的不足,提供一种文本中特定内容识别存储方法及系统,解决了现有技术中基于预构建模式规则的匹配方式仅局限于特定匹配规则模式,匹配方式不够灵活,结果不够全面,难以及时识别海量新出现的特定词及其变体词,且由于文本中涉及大量错综复杂的词语,容易造成特定词的模糊匹配,导致误识别。
[0008]本专利技术公开一种文本中特定内容识别存储方法。
[0009]一种文本中特定内容识别存储方法,包括:
[0010]S1、基于已有特定词和特定字生成特定词库和规则库,所述特定词由若干特定字组成;
[0011]S2、获取待识别的文本集合,所述待识别的文本集合包含若干文本,每个文本由文本语料数据组成,所述文本语料数据包含社交软件等群组的记录语料和论坛的中文语料等,文本集合中含有一定数量的特定文本,所述特定文本为含有特定词的文本;
[0012]S3、基于特定文本数据集提取当前特定文本数据集中的新特定词,得到新特定词集合,从特定词库中筛选出的特定词作为特定文本数据集;
[0013]S4、将需要训练的词组输入BERT模型,所述需要训练的词组包括特定词集合和原词集合;
[0014]S5、从特定文本中获取疑似新特定词集合,利用BERT模型计算特定词库中各词的特征向量与疑似新特定词集合中各词的特征向量的余弦相似度,并基于计算结果判定新特定词。
[0015]进一步的,所述规则库利用与或非的规则结合分隔符集合与特定字对应的拼音以及多维检测规则。
[0016]进一步的,所述分隔符集合由从文本样本集合中提取的表情符号和标点分割符号组成;所述文本样本集合为用户选取的专门用于提取分隔符集合的固定数量的文本集合。
[0017]进一步的,所述多维检测规则包括:若文本中任一特定词的所有特定字中间有分隔符的存在,则将此情况视为当前特定词;若文本中任一特定词的所有特定字以文字或拼音的形式同时存在,则将此情况视为当前特定词。
[0018]进一步的,所述疑似新特定词集合基于上下文相关性算法与位置加权法从特定文本的原词中选取,具体包括:
[0019]选取特定词库中各特定词所在的M个文本作为样本,基于M个文本样本计算各特定词的上下文相关度,所述上下文相关度的计算公式为:
[0020][0021]其中,G(w)表示特定词W的上下文相关度,w
l
表示特定词w的左邻接字,s
l
表示特定词w的左邻接字集合,P(w
l
w)表示文本样本集中特定词w的左邻接字是w
l
的概率,P(w)表示文本样本集中出现特定词w的概率,w
r
表示特定词w的右邻接字,s
r
表示特定词w的右邻接字集合,P(w
r
w)表示文本样本集中特定词w的右邻接字是w
r
的概率;
[0022]将上下文相关度与词组的位置信息相结合,首先使用句法依赖解析器spacy 将特定文本构造成依赖树,然后基于依赖树构造邻接矩阵:
[0023][0024]其中,C为m阶邻接矩阵,i,j∈[1,m],i≠j,m为词组总数,C 矩阵中的任一元素用C
ij
表示,C
ij
是指词w
i
与词w
j
直接的依赖关系。
[0025]计算邻接矩阵中每个元素的位置权重:
[0026][0027]其中,W
ij
表示特定文本中词w
i
与词w
j
的位置权重,A为特定词集合, h(w
i
)表示词w
i
的位置,h(w
j
)表示词w
j
的位置。将原词的上下文相关度与其他词组的位置权重相乘,若结果大于预设的阈值,则当前原词为疑似新特定词。
[0028]进一步的,所述疑似新特定词集合基于文本聚类的TF

ICF(术语频率

逆语料库频率)算法提取;所述TF

ICF算法的计算过程为:
[0029][0030]其中,ω
uv
表示文本u中第v个词的权重,f
uv
表示第v个词在文本u 中出现的次数,即术语频率,N是语料库中的文本总数,n
v
为第v个词在语料库中出现一次或多次的文本数,即逆语料库频率。根据文本中原词与特定词的距离进行位置加权,所述位置加权由实验获得。将原词的位置加权与权重相乘,若结果大于预设的阈值,则当前原词为疑似新特定词。
[0031]本专利技术还公开一种文本中特定内容识别存储系统,采用如下技术方案:
[0032]一种文本中特定内容识别存储系统,包括:
[0033]特定词库,用于存储已有的特定词,特定词库与特定词识别模块、BERT 模块通过数据传输的方式连接;
[0034]规则库,用于存储特定字,规则库与特定词识别模块通过数据传输的方式连接;
[0035]文本获取模块,用于获取待识别的文本集合,文本获取模块与特定词识别模块通过数据传输的方式连接;
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本中特定内容识别存储方法,其特征在于,包括:S1、基于已有特定词和特定字生成特定词库和规则库,所述特定词由若干特定字组成;S2、获取待识别的文本集合,所述待识别的文本集合包含若干文本,每个文本由文本语料数据组成,所述文本语料数据包含社交软件等群组的记录语料和论坛的中文语料等,文本集合中含有一定数量的特定文本,所述特定文本为含有特定词的文本;S3、基于特定文本数据集提取当前特定文本数据集中的新特定词,得到新特定词集合,从特定词库中筛选出的特定词作为特定文本数据集;S4、将需要训练的词组输入BERT模型,所述需要训练的词组包括特定词集合和原词集合;S5、从特定文本中获取疑似新特定词集合,利用BERT模型计算特定词库中各词的特征向量与疑似新特定词集合中各词的特征向量的余弦相似度,并基于计算结果判定新特定词。2.根据权利要求1所述的一种文本中特定内容识别存储方法,其特征在于:所述规则库利用与或非的规则结合分隔符集合与特定字对应的拼音以及多维检测规则。3.根据权利要求2所述的一种文本中特定内容识别存储方法,其特征在于:所述分隔符集合由从文本样本集合中提取的表情符号和标点分割符号组成;所述文本样本集合为用户选取的专门用于提取分隔符集合的固定数量的文本集合。4.根据权利要求2所述的一种文本中特定内容识别存储方法,其特征在于,所述多维检测规则包括:若文本中任一特定词的所有特定字中间有分隔符的存在,则将此情况视为当前特定词;若文本中任一特定词的所有特定字以文字或拼音的形式同时存在,则将此情况视为当前特定词。5.根据权利要求1所述的一种文本中特定内容识别存储方法,其特征在于:所述疑似新特定词集合基于上下文相关性算法与位置加权法从特定文本的原词中选取,具体包括:选取特定词库中各特定词所在的M个文本作为样本,基于M个文本样本计算各特定词的上下文相关度,所述上下文相关度的计算公式为:其中,G(w)表示特定词w的上下文相关度,w
l
表示特定词w的左邻接字,s
l
表示特定词w的左邻接字集合,P(w
l
w)表示文本样本集中特定词w的左邻接字是w
l
的概率,P(w)表示文本样本集中出现特定词w的概率,w
r
表示特定词w的右邻接字,s
r
表示特定词w的右邻接字集合,P(w
r
w)表示文本样本集中特定词w的右邻接字是w
r
的概率;将上下文相关度与词组的位置信息相结合,首先使用句法依赖解析器spacy将特定文本构造成依赖树,然后基于依赖树构造邻接矩阵:其中,C为m阶邻接矩阵,i,j∈[1,m],i≠j,m为词组总数,c矩阵中的任一元素用C
ij
表示,C
ij
是指词w
i
与词w
j
直接的依赖关系。
计算邻接矩阵中每个元素的位置权重:其中,W
ij
表示特定文本中词w
i
与词w
j
的位置权重,A为特定词集合,h(w
i
)表示词w
i
的位置,h(w
j
)表示词w
j
的位置。将原词的上下文相关度与其他词组的位置权重相乘,若结果大于预设的阈值,则当前原词为疑似新特定词。6.根据权利要...

【专利技术属性】
技术研发人员:李鹏霄项菲翟羽佳王海洋王红兵时磊侯炜马宏远王媛媛艾政阳闫玮佳
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1