融合主题与实体知识的新闻匹配方法组成比例

技术编号:35475424 阅读:14 留言:0更新日期:2022-11-05 16:23
本发明专利技术提出一种融合主题与实体知识的新闻匹配方法,属于自然语言处理技术领域。该方法通过把待匹配的文本分别通过主题分析模型和实体识别工具得到主题与实体知识,提取到的主题和实体知识的特征对新闻文本进行进一步的理解,构成伪孪生网络的形式,计算两者的相似分数,判断其是否匹配。本发明专利技术提出的方法能够基于多种形式的新闻文本有效地提升匹配的准确率,适用于新闻与案件的新闻相关性匹配。适用于新闻与案件的新闻相关性匹配。适用于新闻与案件的新闻相关性匹配。

【技术实现步骤摘要】
融合主题与实体知识的新闻匹配方法


[0001]本专利技术提出一种融合主题与实体知识的新闻匹配方法,属于自然语言处理


技术介绍

[0002]随着舆情信息监管力度的逐步提升,准确地从海量新闻中匹配到特定案件对应的新闻是舆情信息监管的重要部分。新闻的匹配是法律领域更深层次任务研究的基础工作,比如智能问答、信息检索等,也是法律领域舆情信息监管的关键任务之一,主要是通过计算待匹配文本的相似分数,从而根据相似分数判断其是否匹配。
[0003]现阶段新闻匹配的研究工作较少,本专利技术根据任务特性可将其视为文本相似度计算任务,主要是指带匹配文本在语义层面的相似性。然而常规的文本相似度计算主要针对结构相似或对称的短文本,而新闻数据来源广泛、内容表述多样化,导致新闻文本语义、结构差异加大,并且包含较多冗余信息。因此常规的文本相似度计算方法不适用于新闻匹配任务。
[0004]新闻的主题主要包含“动词”为主的手段及过程,实体知识主要包含时间、地点、人物、组织机构,显而易见主题与实体知识具有相似或相同的特性。基于此分析,提出一种融合主题与实体知识的新闻匹配方法。

技术实现思路

[0005]本专利技术提供一种融合主题与实体知识的新闻匹配方法。增强了待匹配文本的语义信息,辅助计算待匹配文本的相似性,从而改进新闻匹配的性能;该方法通过主题信息生成模型 (BERT

ECTM)获取主题分布向量,然后利用主流实体识别模型识别出新闻的实体知识 (人名、时间、地点和机构名称),并通过模板化词向量的方法获取实体知识嵌入向量,同时将两个向量与新闻上下文语义表示向量进行融合,得到待匹配文本的表示向量,再利用曼哈顿距离计算两者匹配度。
[0006]本专利技术的专利技术技术方案是:融合主题与实体知识的新闻匹配方法,所述方法通过主题信息生成模型获取主题分布向量,然后利用主流实体识别模型识别出新闻的实体知识,并通过模板化词向量的方法获取实体知识嵌入向量,同时将主题分布向量、实体知识嵌入向量两个向量与新闻上下文语义表示向量进行融合,得到具备偏好的待匹配新闻上下文语义文本嵌入向量,再利用曼哈顿距离计算两者匹配度。
[0007]作为本专利技术的进一步方案,所述融合主题与实体知识的新闻匹配方法的具体步骤如下:
[0008]Step1、语料预处理:预处理不同规模的平行训练语料、验证语料和测试语料,用于模型训练、参数调优和效果测试;
[0009]Step2、文本编码:获取预处理的新闻文档数据后,将其通过WoBERT模型进行训练获得具有上下文语义信息的词嵌入表征,从而得到新闻文本的词袋表示向量和词嵌入向
量;训练过程中的输入编码向量是词、句和位置三个嵌入表征的结合;
[0010]Step3、主题提取:利用主题信息生成模型BERT

ECTM获取主题分布向量,以获取新闻语料;具体为:将Step2中获取的新闻文本的词袋表示向量和词嵌入向量输入到主题分析模型中,获取具有新闻的主题分布;
[0011]Step4、实体知识提取:当输入待匹配新闻进行命名实体识别后,输出其命名实体标注信息,选取其中的“NR、NS、NT和T”词性标签;利用模板Embedding方法获取新闻中的实体嵌入,使用“e”的嵌入来表示实体知识嵌入向量,利用最大池化中的平滑方式获取每个实体的实体嵌入;将Step2得到的BERT编码的新闻文本的词嵌入向量进行线性变换后将其与Step3得到的新闻的主题分布向量和Step4得到的实体知识嵌入向量进行拼接,获取具备偏好的待匹配新闻上下文语义文本嵌入向量,用于后续文本匹配计算;
[0012]Step5、匹配:根据得到的具有偏好的待匹配新闻的上下文语义文本嵌入向量,先计算两个的语义表示向量的曼哈顿距离,然后经过sigmoid函数进行归一化处理,从而计算新闻a和新闻b的匹配度,也就是相似分数。
[0013]作为本专利技术的进一步方案,所述Step1的具体步骤为:
[0014]Step1.1、选取若干个热点案件,爬取相关的新闻,并经过人工校对的方法,选取若干个案件相关的热点新闻;
[0015]Step1.2、在Step1.1的所获得的热点新闻语料上,利用新闻匹配数据集构建方法,构成“新闻

新闻”对的形式,其中每个类别新闻正负例各500对,共13000对;
[0016]Step1.3、在Step1.2的基础上,将整个数据集划分为10600对训练集、1200对验证集和1200对测试集。
[0017]作为本专利技术的进一步方案,所述Step3的具体步骤为:
[0018]Step3.1、将编码模块中获取的新闻文本的词袋表示向量和词嵌入向量输入到主题分析模型中,获取具有偏好的主题分布;
[0019]Step3.2、从主题中采样,利用第n个单词的主题,根据主题,结合新闻的词嵌入向量进行解码,得到具备偏好的主题

词分布W
dn

[0020]Step3.3、然后将主题

词分布向量W
dn
输入多头自注意力机制中进行计算,从而得到新的更具偏好的主题分布向量:
[0021]W
dn
~BERT

ECTM(Q
d
,N
d
)
[0022][0023]其中W
dn
表示具有偏好主题分布

词分布向量,Mulit

Head

Attention表示多头自注意力机制的计算过程,M
d
表示更具偏好的主题分布向量,将其融入到新闻匹配中,以提升其性能,d表示主题分布向量的维度大小。
[0024]作为本专利技术的进一步方案,所述Step4的具体步骤为:
[0025]Step4.1、采用的中文命名实体识别工具jieba识别新闻中案件相关实体知识,当文本输入待匹配新闻进行命名实体识别后,输出其命名实体标注信息,选取其中的“NR、NS、 NT和T”词性标签,其中NR对应人名这一实体类别,NS对应地名,NT对应组织机构名, T对应时间,实体用m
i
表示;
[0026]Step4.2、因为新闻的实体知识数量有限,常规的实体嵌入编码方法并不合理,因
此利用模板Embedding方法获取新闻中的实体嵌入e
i
;具体做法为:使用“e”的嵌入来表示后文中提到的实体知识嵌入向量,利用最大池化中的平滑方式,即log

sumexp pooling获取每个实体m
i
的实体嵌入e
i

[0027][0028]其中i表示实体知识的数量,p表示实体知识嵌入的维度大小,p等于主题分布向量的维度大小d;n表示整个篇章中的词汇数目,n
i
表示实体词汇在句子中的排位;
[0029]Step4.3、首先将BER本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.融合主题与实体知识的新闻匹配方法,其特征在于:通过主题信息生成模型获取主题分布向量,然后利用主流实体识别模型识别出新闻的实体知识,并通过模板化词向量的方法获取实体知识嵌入向量,同时将主题分布向量、实体知识嵌入向量两个向量与新闻上下文语义表示向量进行融合,得到具备偏好的待匹配新闻上下文语义文本嵌入向量,再利用曼哈顿距离计算两者匹配度。2.根据权利要求1所述的融合主题与实体知识的新闻匹配方法,其特征在于:所述融合主题与实体知识的新闻匹配方法的具体步骤如下:Step1、语料预处理:预处理不同规模的平行训练语料、验证语料和测试语料,用于模型训练、参数调优和效果测试;Step2、文本编码:获取预处理的新闻文档数据后,将其通过WoBERT模型进行训练获得具有上下文语义信息的词嵌入表征,从而得到新闻文本的词袋表示向量和词嵌入向量;训练过程中的输入编码向量是词、句和位置三个嵌入表征的结合;Step3、主题提取:利用主题信息生成模型BERT

ECTM获取主题分布向量,以获取新闻语料;具体为:将Step2中获取的新闻文本的词袋表示向量和词嵌入向量输入到主题分析模型中,获取具有新闻的主题分布;Step4、实体知识提取:当输入待匹配新闻进行命名实体识别后,输出其命名实体标注信息,选取其中的“NR、NS、NT和T”词性标签;利用模板Embedding方法获取新闻中的实体嵌入,使用“e”的嵌入来表示实体知识嵌入向量,利用最大池化中的平滑方式获取每个实体的实体嵌入;将Step2得到的BERT编码的新闻文本的词嵌入向量进行线性变换后将其与Step3得到的新闻的主题分布向量和Step4得到的实体知识嵌入向量进行拼接,获取具备偏好的待匹配新闻上下文语义文本嵌入向量,用于后续文本匹配计算;Step5、匹配:根据得到的具有偏好的待匹配新闻的上下文语义文本嵌入向量,先计算两个的语义表示向量的曼哈顿距离,然后经过sigmoid函数进行归一化处理,从而计算新闻a和新闻b的匹配度,也就是相似分数。3.根据权利要求1所述的融合主题与实体知识的新闻匹配方法,其特征在于:所述Step1的具体步骤为:Step1.1、选取若干个热点案件,爬取相关的新闻,并经过人工校对的方法,选取若干个案件相关的热点新闻;Step1.2、在Step1.1的所获得的热点新闻语料上,利用新闻匹配数据集构建方法,构成“新闻

新闻”对的形式,其中每个类别新闻正负例各500对,共13000对;Step1.3、在Step1.2的基础上,将整个数据集划分为10600对训练集、1200对验证集和1200对测试集。4.根据权利要求1所述的融合主题与实体知识的新闻匹配方法,其特征在于:所述Step3的具体步骤为:Step3.1、将编码模块中获取的新闻文本的词袋表示向量和词嵌入向量输入到主题分析模型中,获取具有偏好的主题分布;Step3.2、从主题中采样,利用第n个单词的主题,根据主题,结合新闻的词嵌入向量进行解码,得到具备偏好的主题

词分布W
dn

Step3.3、然后将主题

词分布向量W
dn
输入多头自注意力机制中进行计算,从而得到新的更具偏好的主题分布向量:W
dn
~BERT
...

【专利技术属性】
技术研发人员:余正涛梁胤朱恩昌
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1