一种基于短语边界的关键信息匹配方法、装置及存储介质制造方法及图纸

技术编号：35781406 阅读：17 留言：0更新日期：2022-12-01 14:26

本发明专利技术提出了一种基于短语边界的关键信息匹配方法，该方法包括如下步骤：S1、获取训练数据集，基于获取的所述训练数据集构建短语边界识别模型，并进行模型的训练；S2、获取文本数据，导入所述短语边界识别模型将所述文本数据切分成短语；S3、从所述文本数据的文本切分结果中匹配出目标短语。通过本发明专利技术方案的关键短语匹配方法，在进行短语匹配时，不仅充分考虑分析上下文的语义信息，得到更精准的短语边界信息，有效排除目标语境下非短语的匹配结果。有效排除目标语境下非短语的匹配结果。有效排除目标语境下非短语的匹配结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于短语边界的关键信息匹配方法、装置及存储介质

[0001]本专利技术属于关键信息匹配的
，具体涉及一种基于短语边界的关键信息匹配方法、装置及存储介质。

技术介绍

[0002]随着互联网技术的迅速普及，互联网应用也蓬勃发展。高质量的内容不断涌现，越来越多的网民享受着互联网带来的便利。但同时，互联网的便捷性也成了不法分子传播非法信息的重要渠道。比如在网络中发布大量虚假信息，使用低俗等违禁用语，严重危害广大网民安全和用户体验。如何对不良违禁用语、违禁物品等关键短语信息进行精准匹配和处理成为了越来越多网络应用程序所需要解决的问题。
[0003]在现阶段的研究当中，常见的关键短语匹配方法有两种，一种是基于精准匹配的方法，另一种是基于分词匹配的方法；基于精准匹配的方法，即通过一个窗口大小和关键短语大小一致，滑窗遍历待检测的全文，通过比对出现在滑窗中的内容与关键短语是否一致进行匹配判断，但是这种方法虽然能够保证召回，无法解决精度问题，与目标短语相同的相邻的字词组合都会被匹配，会有较多被误识别的短语；另一种基于分词匹配的方法，即使用现有的分词框架对目标进行分词或者对待检测全文进行分词，然后在对分词结果进匹配，这种方法虽然能够提升匹配的精度，但受到现有分词算法对于未登陆词、多歧义嵌套短语以及长实体短语的分词效果差，会将目标短语分成多个短语等问题，直接影响了这类短语匹配结果，导致无法匹配到关键短语的现象时有发生。所以这种方法同样存在明显局限性和不足。
[0004]因而，现有的相关技术在关键信息匹配应用中存在以...

【技术保护点】

【技术特征摘要】
1.一种基于短语边界的关键信息匹配方法，其特征在于，该方法包括如下步骤：S1、获取训练数据集，基于获取的所述训练数据集构建短语边界识别模型，并进行模型的训练；S2、获取文本数据，导入所述短语边界识别模型将所述文本数据切分成短语；S3、从所述文本数据的文本切分结果中匹配出目标短语。2.根据权利要求1所述的基于短语边界的关键信息匹配方法，其特征在于，在S1中所述短语边界识别模型基于BiLSTMs+CRF算法模型构建。3.根据权利要求2所述的基于短语边界的关键信息匹配方法，其特征在于，训练数据的构建包括：S11、对训练数据进行分词处理，得到初步分词的结果；S12、进一步根据语境进行分词结果校正和短语边界标注；S13、得到以短语边界为标注点的训练数据集。4.根据权利要求3所述的基于短语边界的关键信息匹配方法，其特征在于，在S1中模型的训练具体包括：S14、以字为文本节点对目标文本进行切分，得到字集合W＝{w1,w2,
···
,w
n
}；S15、进一步选择和构建预训练模型，从中获取得到字的分布表示S16、通过构建Bi
‑
LSTMs层来获取目标文本的上下文信息，得到文本节点的表示x
w
：：：其中，θ
lstm
是Bi
‑
LSTMs的参数。5.根据权利要求4所述的基于短语边界的关键信息匹配方法，其特征在于，还包括引入CRF层自动学习约束，具体步骤如下：S21、将Bi
‑
LSTMs提取得到特征矩阵P
mn
作为CRF层的输入，其中P
ij
代表X
i
到标签Y
j
的非归一化概率，n为标签的类别数；S22、进一步由CRF层输出相应的边界...

【专利技术属性】
技术研发人员：陈志明，刘晓芳，赵建强，庄灿波，曹荣鑫，郭小强，
申请(专利权)人：厦门市美亚柏科信息股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人