文本处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:38995886 阅读:9 留言:0更新日期:2023-10-07 10:26
本发明专利技术实施例提供一种文本处理方法、装置、电子设备及存储介质。其中,所述方法包括:获取第一文本中包括的事件对数据;采用依存句法分析工具对所述事件对数据进行处理,得到所述事件对数据对应的事件短句对数据;确定所述事件对数据的第一线性相似度和第一非线性相似度以及所述事件短句对数据的第二线性相似度和第二非线性相似度;基于所述事件对数据、所述事件短句对数据、所述第一线性相似度、所述第一非线性相似度、所述第二线性相似度和所述第二非线性相似度确定所述事件对数据的置信度;所述置信度表征所述事件对数据具有同指关系的程度。关系的程度。关系的程度。

【技术实现步骤摘要】
文本处理方法、装置、电子设备及存储介质


[0001]本专利技术涉及数据处理技术,具体涉及一种文本处理方法、装置、电子设备及存储介质。

技术介绍

[0002]如今,随着互联网科技快速的发展,人们在互联网中产生的交互信息日益剧增,可以随时随地通过互联网获得自己想要的信息。互联网虽然给人们提供越来越快捷、多样化的信息,但它同时也产生了大量的垃圾信息,这就导致人们在寻找自己所需要的信息时耗费大量的精力,甚至无功而返。在大数据时代,如何处理大数据并筛选出有价值的信息成为了一个重要的课题。事件抽取可以帮助机器在文本中发现有价值的事件信息,将语义同指的文本内容归为一类,从而进行事件同指消解。
[0003]事件同指消解是判断不同描述方法的事件句是否指向现实生活中的同一件事,主要依赖于二者的相似度。难点就在于如何准确的计算出两个事件句之间的相似度值,如何提高相似度计算的准确性。而针对该问题,目前尚无有效解决方案。

技术实现思路

[0004]有鉴于此,本专利技术的主要目的在于提供一种文本处理方法、装置、电子设备及存储介质。
[0005]为达到上述目的,本专利技术的技术方案是这样实现的:
[0006]本专利技术实施例提供一种文本处理方法,包括:
[0007]获取第一文本中包括的事件对数据;
[0008]采用依存句法分析工具对所述事件对数据进行处理,得到所述事件对数据对应的事件短句对数据;
[0009]确定所述事件对数据的第一线性相似度和第一非线性相似度以及确定所述事件短句对数据的第二线性相似度和第二非线性相似度;
[0010]基于所述事件对数据、所述事件短句对数据、所述第一线性相似度、所述第一非线性相似度、所述第二线性相似度和所述第二非线性相似度确定所述事件对数据的置信度;所述置信度表征所述事件对数据具有同指关系的程度。
[0011]在上述方案中,所述采用依存句法分析工具对所述事件对数据进行处理,得到所述事件对数据对应的事件短句对数据,包括:
[0012]采用所述依存句法分析工具确定所述事件对数据中触发词的论元和依存词;
[0013]确定所述论元与所述触发词的第一距离,以及确定所述依存词与所述触发词的第二距离;
[0014]对所述第一距离以及所述第二距离进行排序,得到排序结果;
[0015]确定所述排序结果中距离最大值对应的两个论元或触发词,将所述距离最大值对应的两个论元或触发词作为所述事件短句对数据的起始词和结束词;
[0016]基于所述起始词和所述结束词对所述事件对数据进行截取,得到所述事件短句对数据。
[0017]在上述方案中,所述基于所述事件对数据、所述事件短句对数据、所述第一线性相似度、所述第一非线性相似度、所述第二线性相似度和所述第二非线性相似度确定所述第一文本中的事件对数据的置信度,包括:
[0018]基于所述事件对数据、所述事件短句对数据、所述第一线性相似度、所述第一非线性相似度、所述第二线性相似度和所述第二非线性相似度确定所述第一文本中的事件对数据的置信度向量;
[0019]基于全连接分类器对所述置信度向量进行处理,得到所述事件对数据的置信度。
[0020]在上述方案中,所述方法还包括:
[0021]采用预训练模型(Bidirectional Encoder Representation from Transformers,BERT)对所述事件对数据进行预测,得到所述事件对数据对应的词向量对。
[0022]在上述方案中,所述事件对数据包括多个单词对数据;所述方法还包括:
[0023]获取所述事件对数据中多个单词对数据的第一信息对和第二信息对;所述第一信息对表征单词对数据的词性信息对;所述第二信息对表征所述单词对数据的位置信息对;
[0024]基于所述词向量对、所述事件对数据、所述第一信息对和所述第二信息对,确定所述事件对数据对应的第一事件向量对。
[0025]在上述方案中,所述方法还包括:
[0026]采用长短时记忆网络(Bi

directional Long Short

Term Memory,Bi

LSTM)对所述第一事件向量对进行抽取,得到所述第一事件向量对对应的全局信息对;
[0027]采用卷积神经网络(Convolutional Neural Network,CNN)对所述第一事件向量对进行抽取,得到所述第一事件向量对对应的局部信息对;
[0028]对所述全局信息对和所述局部信息对进行融合,得到所述第一事件向量对对应的融合向量对;
[0029]对所述融合向量对进行第一全局最大池化层处理,得到所述第一事件向量对对应的第二事件向量对。
[0030]在上述方案中,所述确定所述事件对数据的第一线性相似度和第一非线性相似度,包括:
[0031]根据所述第二事件向量对确定所述事件对数据的第一线性相似度和第一非线性相似度;
[0032]其中,所述第一线性相似度包括第一余弦距离;所述第一非线性相似度包括第一双线性距离和第一单层网络距离中的至少一项。
[0033]在上述方案中,所述方法还包括:
[0034]基于所述词向量对和所述事件短句对数据,确定所述事件短句对数据对应的第一事件短句向量对;
[0035]对所述第一事件短句向量对进行第二全局最大池化层处理,得到所述第一事件短句向量对对应的第二事件短句向量对。
[0036]在上述方案中,所述确定所述事件短句对数据的第二线性相似度和第二非线性相似度,包括:
[0037]根据所述第二事件短句向量对确定所述事件短句对数据的第二线性相似度和第二非线性相似度;
[0038]其中,所述第二线性相似度包括第二余弦距离;所述第二非线性相似度包括第二双线性距离和第二单层网络距离中的至少一项。
[0039]本专利技术实施例提供一种文本处理装置,包括:
[0040]第一获取模块,用于获取第一文本中包括的事件对数据;
[0041]第一处理模块,用于采用依存句法分析工具对所述事件对数据进行处理,得到所述事件对数据对应的事件短句对数据;
[0042]第一确定模块,用于确定所述事件对数据的第一线性相似度和第一非线性相似度以及确定所述事件短句对数据的第二线性相似度和第二非线性相似度;
[0043]第二确定模块,用于基于所述事件对数据、所述事件短句对数据、所述第一线性相似度、所述第一非线性相似度、所述第二线性相似度和所述第二非线性相似度确定所述事件对数据的置信度;所述置信度表征所述事件对数据具有同指关系的程度。
[0044]本专利技术实施例提供一种文本处理设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现上述任一项所述的方法。
[0045]本专利技术实施例提供一种存储介质,所述存储介质存储有可执行指令,当所述可执行指令本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:获取第一文本中包括的事件对数据;采用依存句法分析工具对所述事件对数据进行处理,得到所述事件对数据对应的事件短句对数据;确定所述事件对数据的第一线性相似度和第一非线性相似度以及确定所述事件短句对数据的第二线性相似度和第二非线性相似度;基于所述事件对数据、所述事件短句对数据、所述第一线性相似度、所述第一非线性相似度、所述第二线性相似度和所述第二非线性相似度确定所述事件对数据的置信度;所述置信度表征所述事件对数据具有同指关系的程度。2.根据权利要求1所述的方法,其特征在于,所述采用依存句法分析工具对所述事件对数据进行处理,得到所述事件对数据对应的事件短句对数据,包括:采用所述依存句法分析工具确定所述事件对数据中触发词的论元和依存词;确定所述论元与所述触发词的第一距离,以及确定所述依存词与所述触发词的第二距离;对所述第一距离以及所述第二距离进行排序,得到排序结果;确定所述排序结果中距离最大值对应的两个论元或触发词,将所述距离最大值对应的两个论元或触发词作为所述事件短句对数据的起始词和结束词;基于所述起始词和所述结束词对所述事件对数据进行截取,得到所述事件短句对数据。3.根据权利要求1所述的方法,其特征在于,所述基于所述事件对数据、所述事件短句对数据、所述第一线性相似度、所述第一非线性相似度、所述第二线性相似度和所述第二非线性相似度确定所述第一文本中的事件对数据的置信度,包括:基于所述事件对数据、所述事件短句对数据、所述第一线性相似度、所述第一非线性相似度、所述第二线性相似度和所述第二非线性相似度确定所述第一文本中的事件对数据的置信度向量;基于全连接分类器对所述置信度向量进行处理,得到所述事件对数据的置信度。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:采用预训练模型BERT对所述事件对数据进行预测,得到所述事件对数据对应的词向量对。5.根据权利要求4所述的方法,其特征在于,所述事件对数据包括多个单词对数据;所述方法还包括:获取所述事件对数据中多个单词对数据的第一信息对和第二信息对;所述第一信息对表征单词对数据的词性信息对;所述第二信息对表征所述单词对数据的位置信息对;基于所述词向量对、所述事件对数据、所述第一信息对和所述第二信息对,确定所述事件对数据对应的第一事件向量对。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:采用长短时记忆网络Bi

...

【专利技术属性】
技术研发人员:程昊熠
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1