一种基于短语边界的关键信息匹配方法、装置及存储介质制造方法及图纸

技术编号:35781406 阅读:17 留言:0更新日期:2022-12-01 14:26
本发明专利技术提出了一种基于短语边界的关键信息匹配方法,该方法包括如下步骤:S1、获取训练数据集,基于获取的所述训练数据集构建短语边界识别模型,并进行模型的训练;S2、获取文本数据,导入所述短语边界识别模型将所述文本数据切分成短语;S3、从所述文本数据的文本切分结果中匹配出目标短语。通过本发明专利技术方案的关键短语匹配方法,在进行短语匹配时,不仅充分考虑分析上下文的语义信息,得到更精准的短语边界信息,有效排除目标语境下非短语的匹配结果。有效排除目标语境下非短语的匹配结果。有效排除目标语境下非短语的匹配结果。

【技术实现步骤摘要】
一种基于短语边界的关键信息匹配方法、装置及存储介质


[0001]本专利技术属于关键信息匹配的
,具体涉及一种基于短语边界的关键信息匹配方法、装置及存储介质。

技术介绍

[0002]随着互联网技术的迅速普及,互联网应用也蓬勃发展。高质量的内容不断涌现,越来越多的网民享受着互联网带来的便利。但同时,互联网的便捷性也成了不法分子传播非法信息的重要渠道。比如在网络中发布大量虚假信息,使用低俗等违禁用语,严重危害广大网民安全和用户体验。如何对不良违禁用语、违禁物品等关键短语信息进行精准匹配和处理成为了越来越多网络应用程序所需要解决的问题。
[0003]在现阶段的研究当中,常见的关键短语匹配方法有两种,一种是基于精准匹配的方法,另一种是基于分词匹配的方法;基于精准匹配的方法,即通过一个窗口大小和关键短语大小一致,滑窗遍历待检测的全文,通过比对出现在滑窗中的内容与关键短语是否一致进行匹配判断,但是这种方法虽然能够保证召回,无法解决精度问题,与目标短语相同的相邻的字词组合都会被匹配,会有较多被误识别的短语;另一种基于分词匹配的方法,即使用现有的分词框架对目标进行分词或者对待检测全文进行分词,然后在对分词结果进匹配,这种方法虽然能够提升匹配的精度,但受到现有分词算法对于未登陆词、多歧义嵌套短语以及长实体短语的分词效果差,会将目标短语分成多个短语等问题,直接影响了这类短语匹配结果,导致无法匹配到关键短语的现象时有发生。所以这种方法同样存在明显局限性和不足。
[0004]因而,现有的相关技术在关键信息匹配应用中存在以下不足:基于精准匹配的方法没有分析上下文的语义信息,得到的匹配结果可能在目标语境下并非是短语;基于现有分词匹配的方法在面对未登陆词时,由于无法正确分词导致无法正确匹配关键短语。
[0005]本专利技术的技术方案就是针对如上所述现有关键短语匹配存在的不足及现有研究技术存在的问题,提出了一种有效的基于短语边界的关键信息匹配方法、装置及存储介质,是非常有意义的。

技术实现思路

[0006]为了解决现有关键短语匹配存在基于精准匹配的方法没有分析上下文的语义信息,得到的匹配结果可能在目标语境下并非是短语;基于现有分词匹配的方法在面对未登陆词时,由于无法正确分词导致无法正确匹配关键短语等不足和缺陷的问题,本专利技术提供一种基于短语边界的关键信息匹配方法、装置及存储介质,以解决上述存在的技术缺陷问题。
[0007]第一方面,本专利技术提出了一种基于短语边界的关键信息匹配方法,该方法包括如下步骤:
[0008]S1、获取训练数据集,基于获取的所述训练数据集构建短语边界识别模型,并进行
模型的训练;
[0009]S2、获取文本数据,导入所述短语边界识别模型将所述文本数据切分成短语;
[0010]S3、从所述文本数据的文本切分结果中匹配出目标短语。
[0011]优选的,在S1中所述短语边界识别模型基于BiLSTMs+CRF算法模型构建。
[0012]进一步优选的,训练数据的构建包括:
[0013]S11、对训练数据进行分词处理,得到初步分词的结果;
[0014]S12、进一步根据语境进行分词结果校正和短语边界标注;
[0015]S13、得到以短语边界为标注点的训练数据集。
[0016]进一步优选的,在S1中模型的训练具体包括:
[0017]S14、以字为文本节点对目标文本进行切分,得到字集合W={w1,w2,

,w
n
};
[0018]S15、进一步选择和构建预训练模型,从中获取得到字的分布表示
[0019]S16、通过构建Bi

LSTMs层来获取目标文本的上下文信息,得到文本节点的表示x
w

[0020][0021][0022][0023]其中,θ
lstm
是Bi

LSTMs的参数。
[0024]进一步优选的,还包括引入CRF层自动学习约束,具体步骤如下:
[0025]S21、将Bi

LSTMs提取得到特征矩阵P
mn
作为CRF层的输入,其中P
ij
代表X
i
到标签Y
j
的非归一化概率,n为标签的类别数;
[0026]S22、进一步由CRF层输出相应的边界信息y∈(B

Words,M

Words,E

Words,S);
[0027]S23、根据边界信息的标签类型,进行短语切分,得到文本的短语切分结果S。
[0028]优选的,还包括:S4、将短语切分结果按字数长度进行区分存放,将同字数长度的短语存放在同一个集合中,通过判断目标短语的长度选择匹配集合。
[0029]进一步优选的,具体包括:
[0030]S41、获取切分结果S中短语的长度l
i
(i∈(1,2,...,n),其中n为S中短语数量;
[0031]S42、根据不同的字数长度l
i
将S中的短语存储到不同的子集合W中,同一个集合中的短语字数保持相同;
[0032]S43、获取目标短语的长度判断是否存在存储短语字数长度为的短语集合若不存在返回目标短语未匹配成功信息,若存在继续步骤S44;
[0033]S44、将目标短语与短语集合中的短语进行匹配,若成功,返回短语位置信息,否则返回目标短语未匹配成功信息。
[0034]第二方面,本专利技术实施例还公开了一种基于短语边界的关键信息匹配装置,包括:
[0035]获取单元:用于获取训练数据集、文本数据;
[0036]构建单元:用于基于获取的所述训练数据集构建短语边界识别模型,构建训练数据;
[0037]训练单元:用于对构建的短语边界识别模型进行训练;
[0038]切分单元:用于将所述文本数据切分成短语;
[0039]匹配单元:用于从所述文本数据的文本切分结果中匹配出目标短语。
[0040]第三方面,本专利技术实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。
[0041]第四方面,本专利技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。
[0042]与现有技术相比,本专利技术的有益成果在于:
[0043](1)通过本专利技术方案的关键短语匹配方法,在进行短语匹配时,不仅充分考虑分析上下文的语义信息,得到更精准的短语边界信息,有效排除目标语境下非短语的匹配结果。
[0044](2)通过构建短语边界识别模型使得本方案不依赖于现有分词框架及其分词效果,能够有效解决当前分词算法对于未登陆词、多歧本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于短语边界的关键信息匹配方法,其特征在于,该方法包括如下步骤:S1、获取训练数据集,基于获取的所述训练数据集构建短语边界识别模型,并进行模型的训练;S2、获取文本数据,导入所述短语边界识别模型将所述文本数据切分成短语;S3、从所述文本数据的文本切分结果中匹配出目标短语。2.根据权利要求1所述的基于短语边界的关键信息匹配方法,其特征在于,在S1中所述短语边界识别模型基于BiLSTMs+CRF算法模型构建。3.根据权利要求2所述的基于短语边界的关键信息匹配方法,其特征在于,训练数据的构建包括:S11、对训练数据进行分词处理,得到初步分词的结果;S12、进一步根据语境进行分词结果校正和短语边界标注;S13、得到以短语边界为标注点的训练数据集。4.根据权利要求3所述的基于短语边界的关键信息匹配方法,其特征在于,在S1中模型的训练具体包括:S14、以字为文本节点对目标文本进行切分,得到字集合W={w1,w2,
···
,w
n
};S15、进一步选择和构建预训练模型,从中获取得到字的分布表示S16、通过构建Bi

LSTMs层来获取目标文本的上下文信息,得到文本节点的表示x
w
:::其中,θ
lstm
是Bi

LSTMs的参数。5.根据权利要求4所述的基于短语边界的关键信息匹配方法,其特征在于,还包括引入CRF层自动学习约束,具体步骤如下:S21、将Bi

LSTMs提取得到特征矩阵P
mn
作为CRF层的输入,其中P
ij
代表X
i
到标签Y
j
的非归一化概率,n为标签的类别数;S22、进一步由CRF层输出相应的边界...

【专利技术属性】
技术研发人员:陈志明刘晓芳赵建强庄灿波曹荣鑫郭小强
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1