应用于社会治理场景下的复杂文本相似度计算方法技术

技术编号:39493873 阅读:8 留言:0更新日期:2023-11-24 11:19
本发明专利技术公开了一种应用于社会治理场景下的复杂文本相似度计算方法,其针对基层治理工作人员统一上报至平台的数据存在格式类似

【技术实现步骤摘要】
应用于社会治理场景下的复杂文本相似度计算方法


[0001]本专利技术属于自然语言处理
,具体涉及一种应用于社会治理场景下的复杂文本相似度计算方法


技术介绍

[0002]随着社会经济的发展和民众权利意识的觉醒,近年来基层社会矛盾呈现出新趋势

新动向和新特征;矛盾纠纷调处化解工作需要从预防“民转刑”、
降低高频纠纷重复发生率着手,因此需要搭建矛盾风险“重点人

重点事

重点行业

重点区域”四大智能预警模型;显然,“重点事”预警模型构建难度较大,需要用人工智能算法判断两个事件描述的是否相似

[0003]目前文本相似度的计算方法主要是基于大规模语料的预训练模型,但矛盾调解数据量大且数据来源复杂,一部分数据由基层治理工作人员统一上报至平台,存在格式类似

事件背景占比高的特点;一部分数据来自民众自主上报,存在信息大量冗余

对同一事件的描述出入较大的特点

使用基于大规模语料的预训练模型会有以下问题:事件之间匹配慢

无法匹配文本长度不一样的相同事件

难以甄别事件背景占比过大的事件背景相同的不同事件

[0004]公开号为
CN115203365A
的中国专利申请提供了一种应用于综治领域的社会事件处理方法,其通过
RE2
模型计算输入事件与库中事件的相似性,辅助对事件的分类;但该专利技术没有考虑到输入数据的复杂性,当输入事件格式类似

事件背景占比高时,该种方法效果不佳

[0005]公开号为
CN115982324A
的中国专利申请提供了一种基于改进的自然语言处理的采购文件检验方法,其通过
sentence

bert
模型计算输入文件中的句子和数据库中文件的句子的相似度,判断输入文件是否合规,但该方法仅能作用于句子长度近似的情况,在面对样本对长度不一的情况时,效果不佳


技术实现思路

[0006]鉴于上述,本专利技术提供了一种应用于社会治理场景下的复杂文本相似度计算方法,通过对长度近似正样本进行词重复,解决长短不一相似文本匹配问题,通过实体识别算法构建事件背景相同的不同事件对,解决难以甄别事件背景占比过大且事件背景相同的不同事件问题

[0007]一种应用于社会治理场景下的复杂文本相似度计算方法,包括如下步骤:
[0008](1)
获取大量文本相似度训练数据和实体识别训练数据;
[0009](2)
获取实体识别预训练模型以及文本相似度预训练模型;
[0010](3)
利用实体识别训练数据对实体识别预训练模型进行微调,得到实体识别模型;
[0011](4)
对于文本相似度训练数据中长度近似的正样本对,使用词重复算法重构这类正样本对,使其句子对长度不一;
[0012](5)
对文本相似度训练数据中的负样本对进行数据增强;
[0013](6)
利用经过步骤
(4)

(5)
后的文本相似度训练数据对文本相似度预训练模型进行微调,得到文本相似度模型;
[0014](7)
通过矛盾调解平台接入数据,利用文本相似度模型对每一接入数据进行编码得到相应的句向量并形成事件数据存入语料库中;
[0015](8)
接收矛盾调解数据,将矛盾调解数据与语料库中事件数据的句向量进行相似度计算,并将计算结果同步至事件监控数据库中,从而对相应的事件进行预警

[0016]进一步地,所述文本相似度训练数据为带有是否相似标签的句子对,所述实体识别训练数据为带有序列标注的句子

[0017]进一步地,所述文本相似度预训练模型为
paraphrase

multilingual

MiniLM

L12

v2
;所述实体识别预训练模型为
chinese_pretrain_mrc_roberta_wwm_ext_large。
[0018]进一步地,所述步骤
(4)
的具体实现方式为:首先从文本相似度训练数据中选取长度近似的正样本对,所述正样本对为文本相似的句子对;对于长度近似的正样本对,任取其中的一个句子,使用
jieba
分词方法将该句子分成
n
个词
{W0,W1,

,W
n
‑1}
,然后使用
random
函数从0至
n
‑1中选取
n/4
个数字
{X1,X2,

,X
n/4
}
,最后将
{W
X1
,W
X2
,

,W
Xn/4
}
复制插入至原句子中对应词的后面

[0019]进一步地,所述步骤
(5)
的具体实现方式为:首先从文本相似度训练数据中随机选取
N
个句子构成一个队列,利用实体识别模型提取队列中每个句子的事件背景文本和事件内容文本;然后随机从队列中挑选一个句子
s
,将其事件背景文本与队列中其余
N
‑1个句子的事件内容文本拼接得到
N
‑1个新句子,最后将句子
s
分别与这
N
‑1个新句子组合成
N
‑1个负样本对,
N
为大于1的自然数

[0020]进一步地,所述步骤
(7)
的具体实现方式为:对于任一接入数据,首先利用实体识别模型提取其事件背景文本,所述接入数据为描述矛盾纠纷事件的文本,然后利用文本相似度模型对该接入数据的事件背景文本和完整文本分别进行编码对应生成两个句向量并形成事件数据存入语料库中,所述语料库中每一组事件数据包含了事件编号

事件完整文本

事件背景文本

完整文本句向量

背景文本句向量

[0021]进一步地,所述步骤
(8)
中相似度计算的具体过程为:首先利用实体识别模型提取矛盾调解数据的事件背景文本,然后利用文本相似度模型对该矛盾调解数据的事件背景文本和完整文本分别进行编码对应生成两个句向量
code1

code2
;对于语料库中的任一事件数据,计算该事件数据的背景文本句向量与
code1
的相似度,若相似度达到设定阈值,则进一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种应用于社会治理场景下的复杂文本相似度计算方法,包括如下步骤:
(1)
获取大量文本相似度训练数据和实体识别训练数据;
(2)
获取实体识别预训练模型以及文本相似度预训练模型;
(3)
利用实体识别训练数据对实体识别预训练模型进行微调,得到实体识别模型;
(4)
对于文本相似度训练数据中长度近似的正样本对,使用词重复算法重构这类正样本对,使其句子对长度不一;
(5)
对文本相似度训练数据中的负样本对进行数据增强;
(6)
利用经过步骤
(4)

(5)
后的文本相似度训练数据对文本相似度预训练模型进行微调,得到文本相似度模型;
(7)
通过矛盾调解平台接入数据,利用文本相似度模型对每一接入数据进行编码得到相应的句向量并形成事件数据存入语料库中;
(8)
接收矛盾调解数据,将矛盾调解数据与语料库中事件数据的句向量进行相似度计算,并将计算结果同步至事件监控数据库中,从而对相应的事件进行预警
。2.
根据权利要求1所述的复杂文本相似度计算方法,其特征在于:所述文本相似度训练数据为带有是否相似标签的句子对,所述实体识别训练数据为带有序列标注的句子
。3.
根据权利要求1所述的复杂文本相似度计算方法,其特征在于:所述文本相似度预训练模型为
paraphrase

multilingual

MiniLM

L12

v2
;所述实体识别预训练模型为
chinese_pretrain_mrc_roberta_wwm_ext_large。4.
根据权利要求1所述的复杂文本相似度计算方法,其特征在于:所述步骤
(4)
的具体实现方式为:首先从文本相似度训练数据中选取长度近似的正样本对,所述正样本对为文本相似的句子对;对于长度近似的正样本对,任取其中的一个句子,使用
jieba
分词方法将该句子分成
n
个词
{W0,W1,

,W
n
‑1}
,然后使用
random
函数从0至
n
‑1中选取
n/4
个数字
{X1,X2,

,X
n/4
}
,最后将
{W
X1
,W
X2
,

,W...

【专利技术属性】
技术研发人员:卢煜航马汉杰宗佳敏俞健王昶庆
申请(专利权)人:杭州码全信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1