一种新闻事件脉络关系检测方法及装置制造方法及图纸

技术编号:36087617 阅读:13 留言:0更新日期:2022-12-24 11:03
本申请公开了一种新闻事件脉络关系检测方法及装置,在该方法中,将第一新闻事件和第二新闻事件进行拼接,获得拼接新闻事件;通过脉络关系检测模型对拼接新闻事件进行检测,获得第一新闻事件和第二新闻事件之间的第一脉络关系检测结果;脉络关系检测模型是根据多个新闻事件样本中各个已标注的两个新闻事件样本和两个新闻事件样本之间的脉络关系标签训练预设检测网络得到的。可见,该方法既利用了新闻事件本身的语义信息,又利用了新闻事件之间的交互信息,能够更加准确地检测新闻事件之间的脉络关系,从而提高新闻事件脉络关系检测结果的准确性。结果的准确性。结果的准确性。

【技术实现步骤摘要】
一种新闻事件脉络关系检测方法及装置


[0001]本申请涉及自然语言处理
,尤其涉及一种新闻事件脉络关系检测方法及装置。

技术介绍

[0002]随着信息技术的快速发展,各类新闻事件层出不穷,而多个新闻事件之间存在脉络关系,例如新闻事件之间的相关关系、因果关系、时序关系以及连带关系等,检测新闻事件之间是否具有脉络关系有利于对新闻事件进行分析和判断。
[0003]现有技术中,新闻事件脉络关系检测的方法为:首先,基于字符和词语级别对新闻事件进行分词;然后,进行字符和词语的频率统计,以字符和词语同时出现的频率与重复程度作为脉络关系检测的匹配标准;最后,对新闻事件的文本相似度进行计算,从而根据新闻事件的相似度来判断新闻事件之间是否具有脉络关系。
[0004]然而,在上述新闻事件脉络关系检测的方法中,由于字符和词语是相互独立的,在进行新闻事件脉络关系检测的过程中,未考虑到字符和词语的本身语义含义,也未考虑到句子之间、词语之间的语义关系,缺少对新闻事件之间信息交互的表示,容易出现检测错误的情况,导致新闻事件脉络关系检测结果的准确性较低。

技术实现思路

[0005]有鉴于此,本申请实施例提供了一种新闻事件脉络关系检测方法及装置,旨在提高新闻事件脉络关系检测结果的准确性。
[0006]第一方面,本申请实施例提供了一种新闻事件脉络关系检测方法,所述方法包括:
[0007]将第一新闻事件和第二新闻事件进行拼接,获得拼接新闻事件;
[0008]通过脉络关系检测模型对所述拼接新闻事件进行检测,获得所述第一新闻事件和所述第二新闻事件之间的第一脉络关系检测结果;所述脉络关系检测模型是根据多个新闻事件样本中各个已标注的两个新闻事件样本和所述两个新闻事件样本之间的脉络关系标签训练预设检测网络得到的。
[0009]可选地,所述脉络关系检测模型包括嵌入层、编码层、解码层和输出层;
[0010]所述通过脉络关系检测模型对所述拼接新闻事件进行检测,获得所述第一新闻事件和所述第二新闻事件之间的第一脉络关系检测结果,包括:
[0011]通过所述嵌入层对所述拼接新闻事件进行转换,获得嵌入序列;
[0012]通过所述编码层对所述嵌入序列进行编码,获得脉络关系表示序列;
[0013]通过所述解码层对所述脉络关系表示序列进行解码,获得脉络关系检测序列;
[0014]通过所述输出层对所述脉络关系检测序列进行归一化处理,获得所述第一脉络关系检测结果。
[0015]可选地,所述嵌入层包括标识嵌入层、分区层和注意力遮蔽层;
[0016]所述通过所述嵌入层对所述拼接新闻事件进行转换,获得嵌入序列,包括:
[0017]通过所述标识嵌入层对所述拼接新闻事件中的字符进行标识转换,获得标识信息;
[0018]通过所述分区层对所述拼接新闻事件中的所述第一新闻事件和所述第二新闻事件进行分区标记,获得分区位置信息;
[0019]通过所述注意力遮蔽层对所述拼接新闻事件进行注意力标记,获得注意力位置信息;
[0020]对所述标识信息、所述分区位置信息和所述注意力位置信息进行叠加,获得所述嵌入序列。
[0021]可选地,所述脉络关系检测模型的训练步骤,包括:
[0022]获取所述多个新闻事件样本和所述多个新闻事件样本中各个已标注的两个新闻事件样本之间的脉络关系标签;
[0023]将所述两个新闻事件样本进行拼接,获得拼接新闻事件样本;
[0024]通过所述预设检测网络对所述拼接新闻事件样本进行检测,获得所述两个新闻事件样本之间的第二脉络关系检测结果。
[0025]根据所述第二脉络关系检测结果、所述脉络关系标签和所述预设检测网络的损失函数,训练所述预设检测网络的参数;
[0026]将训练完成的所述预设检测网络确定为所述脉络关系检测模型。
[0027]可选地,所述脉络关系检测模型具体为N个脉络关系检测模型,所述N个脉络关系检测模型的训练步骤,包括:
[0028]将所述多个新闻事件样本平均分成M份新闻事件样本,M≥2;
[0029]将所述M份新闻事件样本中每份新闻事件样本分别作为验证集,将所述M份新闻事件样本中除所述验证集之外的剩余M

1份新闻事件样本作为所述验证集对应的训练集,确定M个训练集和M个训练集对应的M个验证集;
[0030]根据所述M个训练集中各个已标注的两个新闻事件样本和所述两个新闻事件样本之间的脉络关系标签,分别训练N个所述预设检测网络,获得训练完成的N个所述预设检测网络,N>2,N为奇数;
[0031]根据所述M个验证集分别验证所述训练完成的N个所述预设检测网络,获得N个所述脉络关系检测模型。
[0032]可选地,所述通过脉络关系检测模型对所述拼接新闻事件进行检测,获得所述第一新闻事件和所述第二新闻事件之间的第一脉络关系检测结果,包括:
[0033]通过N个脉络关系检测模型对所述拼接新闻事件分别进行检测,获得所述第一新闻事件和所述第二新闻事件之间的N个第三脉络关系检测结果;
[0034]对所述N个第三脉络关系检测结果进行投票表决,获得所述第一脉络关系检测结果。
[0035]可选地,在所述将第一新闻事件和第二新闻事件进行拼接,获得拼接新闻事件之前,所述方法还包括:
[0036]对所述第一新闻事件和所述第二新闻事件分别进行预处理,获得预处理后的第一新闻事件和预处理后的第二新闻事件;
[0037]所述将第一新闻事件和第二新闻事件进行拼接,获得拼接新闻事件,包括:
[0038]将所述预处理后的第一新闻事件和所述预处理后的第二新闻事件进行拼接,获得所述拼接新闻事件。
[0039]可选地,所述对所述第一新闻事件和所述第二新闻事件分别进行预处理,获得预处理后的第一新闻事件和预处理后的第二新闻事件,包括:
[0040]对所述第一新闻事件和所述第二新闻事件分别进行分词处理,获得多个第一新闻分词和多个第二新闻分词;
[0041]对所述多个第一新闻分词和所述多个第二新闻分词分别进行去停用词处理,获得所述预处理后的第一新闻事件和预处理后的第二新闻事件。
[0042]第二方面,本申请实施例提供了一种新闻事件脉络关系检测装置,所述装置包括:
[0043]拼接模块,用于将第一新闻事件和第二新闻事件进行拼接,获得拼接新闻事件;
[0044]检测模块,用于通过脉络关系检测模型对所述拼接新闻事件进行检测,获得所述第一新闻事件和所述第二新闻事件之间的第一脉络关系检测结果;所述脉络关系检测模型是根据多个新闻事件样本中各个已标注的两个新闻事件样本和所述两个新闻事件样本之间的脉络关系标签训练预设检测网络得到的。
[0045]第三方面,本申请实施例提供了一种新闻事件脉络关系检测设备,所述设备包括:
[0046]存储器,用于存储计算机程序;
[0047]处理器,用于执行所述计算机程序本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种新闻事件脉络关系检测方法,其特征在于,所述方法包括:将第一新闻事件和第二新闻事件进行拼接,获得拼接新闻事件;通过脉络关系检测模型对所述拼接新闻事件进行检测,获得所述第一新闻事件和所述第二新闻事件之间的第一脉络关系检测结果;所述脉络关系检测模型是根据多个新闻事件样本中各个已标注的两个新闻事件样本和所述两个新闻事件样本之间的脉络关系标签训练预设检测网络得到的。2.根据权利要求1所述的方法,其特征在于,所述脉络关系检测模型包括嵌入层、编码层、解码层和输出层;所述通过脉络关系检测模型对所述拼接新闻事件进行检测,获得所述第一新闻事件和所述第二新闻事件之间的第一脉络关系检测结果,包括:通过所述嵌入层对所述拼接新闻事件进行转换,获得嵌入序列;通过所述编码层对所述嵌入序列进行编码,获得脉络关系表示序列;通过所述解码层对所述脉络关系表示序列进行解码,获得第一脉络关系检测序列;通过所述输出层对所述第一脉络关系检测序列进行归一化处理,获得所述第一脉络关系检测结果。3.根据权利要求2所述的方法,其特征在于,所述嵌入层包括标识嵌入层、分区层和注意力遮蔽层;所述通过所述嵌入层对所述拼接新闻事件进行转换,获得嵌入序列,包括:通过所述标识嵌入层对所述拼接新闻事件中的字符进行标识转换,获得标识信息;通过所述分区层对所述拼接新闻事件中的所述第一新闻事件和所述第二新闻事件进行分区标记,获得分区位置信息;通过所述注意力遮蔽层对所述拼接新闻事件进行注意力标记,获得注意力位置信息;对所述标识信息、所述分区位置信息和所述注意力位置信息进行叠加,获得所述嵌入序列。4.根据权利要求1所述的方法,其特征在于,所述脉络关系检测模型的训练步骤,包括:获取所述多个新闻事件样本和所述多个新闻事件样本中各个已标注的两个新闻事件样本之间的脉络关系标签;将所述两个新闻事件样本进行拼接,获得拼接新闻事件样本;通过所述预设检测网络对所述拼接新闻事件样本进行检测,获得所述两个新闻事件样本之间的第二脉络关系检测结果。根据所述第二脉络关系检测结果、所述脉络关系标签和所述预设检测网络的损失函数,训练所述预设检测网络的参数;将训练完成的所述预设检测网络确定为所述脉络关系检测模型。5.根据权利要求1所述的方法,其特征在于,所述脉络关系检测模型具体为N个脉络关系检测模型,所述N个脉络关系检测模型的训练步骤,包括:将所述多个新闻事件样本平均分成M份新闻事件样本,M≥2;将所述M份新闻事件样本中每份新闻事件样本分别作为验证集,将所述M份新闻事件样本中除所述验证集之外的剩...

【专利技术属性】
技术研发人员:黄明彤
申请(专利权)人:太保科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1