【技术实现步骤摘要】
应用于社会治理场景下的复杂文本相似度计算方法
[0001]本专利技术属于自然语言处理
,具体涉及一种应用于社会治理场景下的复杂文本相似度计算方法
。
技术介绍
[0002]随着社会经济的发展和民众权利意识的觉醒,近年来基层社会矛盾呈现出新趋势
、
新动向和新特征;矛盾纠纷调处化解工作需要从预防“民转刑”、
降低高频纠纷重复发生率着手,因此需要搭建矛盾风险“重点人
、
重点事
、
重点行业
、
重点区域”四大智能预警模型;显然,“重点事”预警模型构建难度较大,需要用人工智能算法判断两个事件描述的是否相似
。
[0003]目前文本相似度的计算方法主要是基于大规模语料的预训练模型,但矛盾调解数据量大且数据来源复杂,一部分数据由基层治理工作人员统一上报至平台,存在格式类似
、
事件背景占比高的特点;一部分数据来自民众自主上报,存在信息大量冗余
、
对同一事件的描述出入较大的特点
。
使用基于大规模语料的预训练模型会有以下问题:事件之间匹配慢
、
无法匹配文本长度不一样的相同事件
、
难以甄别事件背景占比过大的事件背景相同的不同事件
。
[0004]公开号为
CN115203365A
的中国专利申请提供了一种应用于综治领域的社会事件处理方法,其通过
RE2
模型计算输入事件与库中事件的相似性,辅助对事 ...
【技术保护点】
【技术特征摘要】
1.
一种应用于社会治理场景下的复杂文本相似度计算方法,包括如下步骤:
(1)
获取大量文本相似度训练数据和实体识别训练数据;
(2)
获取实体识别预训练模型以及文本相似度预训练模型;
(3)
利用实体识别训练数据对实体识别预训练模型进行微调,得到实体识别模型;
(4)
对于文本相似度训练数据中长度近似的正样本对,使用词重复算法重构这类正样本对,使其句子对长度不一;
(5)
对文本相似度训练数据中的负样本对进行数据增强;
(6)
利用经过步骤
(4)
和
(5)
后的文本相似度训练数据对文本相似度预训练模型进行微调,得到文本相似度模型;
(7)
通过矛盾调解平台接入数据,利用文本相似度模型对每一接入数据进行编码得到相应的句向量并形成事件数据存入语料库中;
(8)
接收矛盾调解数据,将矛盾调解数据与语料库中事件数据的句向量进行相似度计算,并将计算结果同步至事件监控数据库中,从而对相应的事件进行预警
。2.
根据权利要求1所述的复杂文本相似度计算方法,其特征在于:所述文本相似度训练数据为带有是否相似标签的句子对,所述实体识别训练数据为带有序列标注的句子
。3.
根据权利要求1所述的复杂文本相似度计算方法,其特征在于:所述文本相似度预训练模型为
paraphrase
‑
multilingual
‑
MiniLM
‑
L12
‑
v2
;所述实体识别预训练模型为
chinese_pretrain_mrc_roberta_wwm_ext_large。4.
根据权利要求1所述的复杂文本相似度计算方法,其特征在于:所述步骤
(4)
的具体实现方式为:首先从文本相似度训练数据中选取长度近似的正样本对,所述正样本对为文本相似的句子对;对于长度近似的正样本对,任取其中的一个句子,使用
jieba
分词方法将该句子分成
n
个词
{W0,W1,
…
,W
n
‑1}
,然后使用
random
函数从0至
n
‑1中选取
n/4
个数字
{X1,X2,
…
,X
n/4
}
,最后将
{W
X1
,W
X2
,
…
,W...
【专利技术属性】
技术研发人员:卢煜航,马汉杰,宗佳敏,俞健,王昶庆,
申请(专利权)人:杭州码全信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。