一种文本中特定内容识别存储方法及系统技术方案

技术编号：35523374 阅读：26 留言：0更新日期：2022-11-09 14:43

本发明专利技术公开了一种文本中特定内容识别存储方法及系统，属于文特定词识别的技术领域，其方法包括生成特定词库和规则库；获取待识别的文本集合；提取当前特定文本数据集中的新特定词，得到新特定词集合；将需要训练的词组输入BERT模型；从特定文本中获取疑似新特定词集合，利用BERT模型计算特定词库中各词的特征向量与疑似新特定词集合中各词的特征向量的余弦相似度，并基于计算结果判定新特定词。本发明专利技术解决了现有技术中基于预构建模式规则的匹配方式仅局限于特定匹配规则模式，匹配方式不够灵活，结果不够全面，难以及时识别海量新出现的特定词及其变体词，且由于文本中涉及大量错综复杂的词语，容易造成特定词的模糊匹配，导致误识别的问题。导致误识别的问题。导致误识别的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本中特定内容识别存储方法及系统

[0001]本专利技术涉及特定词识别的
，尤其涉及一种文本中特定内容识别存储方法及系统。

技术介绍

[0002]随着信息技术的快速发展，社交平台等互联网内容类产品也以爆炸式的速度涌现，随着活跃用户量的增加，这些产品会产生大量的帖子等文本。然而这些文本中是否存在特定词汇与特定文本，需要快速判断。
[0003]特定词是特定文本最重要的识别标志，利用特定词可以对特定文本进行高效而准确的检测和过滤。随着时间的推移，新的特定词层出不穷，规避特定词检测的方式和手段也不断增加，亟需对新出现的特定词及变体词进行识别、对现有特定词库进行更新扩充。
[0004]我国专利申请号：201910945463.8公开了一种敏感词检测方法及装置，其中，方法包括：获取目标文本，对目标文本进行分词处理；将分词处理后的目标文本输入文本分类模型，所述文本分类模型是带有注意力机制的循环神经网络模型，获取文本分类模型输出的目标文本的类别和分词处理后的目标文本中每个词语的注意力权重，所述类别包括：敏感和正常；...

【技术保护点】

【技术特征摘要】
1.一种文本中特定内容识别存储方法，其特征在于，包括：S1、基于已有特定词和特定字生成特定词库和规则库，所述特定词由若干特定字组成；S2、获取待识别的文本集合，所述待识别的文本集合包含若干文本，每个文本由文本语料数据组成，所述文本语料数据包含社交软件等群组的记录语料和论坛的中文语料等，文本集合中含有一定数量的特定文本，所述特定文本为含有特定词的文本；S3、基于特定文本数据集提取当前特定文本数据集中的新特定词，得到新特定词集合，从特定词库中筛选出的特定词作为特定文本数据集；S4、将需要训练的词组输入BERT模型，所述需要训练的词组包括特定词集合和原词集合；S5、从特定文本中获取疑似新特定词集合，利用BERT模型计算特定词库中各词的特征向量与疑似新特定词集合中各词的特征向量的余弦相似度，并基于计算结果判定新特定词。2.根据权利要求1所述的一种文本中特定内容识别存储方法，其特征在于：所述规则库利用与或非的规则结合分隔符集合与特定字对应的拼音以及多维检测规则。3.根据权利要求2所述的一种文本中特定内容识别存储方法，其特征在于：所述分隔符集合由从文本样本集合中提取的表情符号和标点分割符号组成；所述文本样本集合为用户选取的专门用于提取分隔符集合的固定数量的文本集合。4.根据权利要求2所述的一种文本中特定内容识别存储方法，其特征在于，所述多维检测规则包括：若文本中任一特定词的所有特定字中间有分隔符的存在，则将此情况视为当前特定词；若文本中任一特定词的所有特定字以文字或拼音的形式同时存在，则将此情况视为当前特定词。5.根据权利要求1所述的一种文本中特定内容识别存储方法，其特征在于：所述疑似新特定词集合基于上下文相关性算法与位置加权法从特定文本的原词中选取，具体包括：选取特定词库中各特定词所在的M个文本作为样本，基于M个文本样本计算各特定词的上下文相关度，所述上下文相关度的计算公式为：其中，G(w)表示特定词w的上下文相关度，w
l
表示特定词w的左邻接字，s
l
表示特定词w的左邻接字集合，P(w
l
w)表示文本样本集中特定词w的左邻接字是w
l
的概率，P(w)表示文本样本集中出现特定词w的概率，w
r
表示特定词w的右邻接字，s
r
表示特定词w的右邻接字集合，P(w
r
w)表示文本样本集中特定词w的右邻接字是w
r
的概率；将上下文相关度与词组的位置信息相结合，首先使用句法依赖解析器spacy将特定文本构造成依赖树，然后基于依赖树构造邻接矩阵：其中，C为m阶邻接矩阵，i，j∈[1，m]，i≠j，m为词组总数，c矩阵中的任一元素用C
ij
表示，C
ij
是指词w
i
与词w
j
直接的依赖关系。
计算邻接矩阵中每个元素的位置权重：其中，W
ij
表示特定文本中词w
i
与词w
j
的位置权重，A为特定词集合，h(w
i
)表示词w
i
的位置，h(w
j
)表示词w
j
的位置。将原词的上下文相关度与其他词组的位置权重相乘，若结果大于预设的阈值，则当前原词为疑似新特定词。6.根据权利要...

【专利技术属性】
技术研发人员：李鹏霄，项菲，翟羽佳，王海洋，王红兵，时磊，侯炜，马宏远，王媛媛，艾政阳，闫玮佳，
申请(专利权)人：国家计算机网络与信息安全管理中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人