【技术实现步骤摘要】
基于预设神经网络的事件抽取方法、装置、计算机设备及存储介质
本专利技术涉及计算机
,特别涉及一种基于预设神经网络的事件抽取方法、装置、计算机设备及存储介质。
技术介绍
目前互联网上每天都会发布大量的非结构化文本信息,这些信息包含新闻,财报,快讯等等。如何从这些非结构的文本中进行事件抽取,即抽取出相关的事件类信息为舆情监控、风险控制和智能投研提供数据支持,便显得尤为重要。事件抽取是自然语言处理领域一项基本研究方向。它一般分为事件类型分类与论元识别两大任务。在现有的技术方案中,早期人们利用预先构建的一些触发词,来判断事件类型,然后依据定义好的事件角色,从文本中抽取出相应的论元,由于这种方法依赖大量的人工构建特征,且移植性很差,不适合大规模的工业应用。目前随着深度学习的发展,人们开始利用深度学习技术来抽取文本中相关事件,其方法为先利用分类模型确定事件类型,再利用序列标注模型识别出文本中的论元,由于序列标注模型的好坏直接依赖于分类模型的好坏,当分类模型出现问题时可导致一些不必要的出错,从而降低了论元抽取的准确率 ...
【技术保护点】
1.一种基于预设神经网络的事件抽取方法,其特征在于,所述预设神经网络包括向量转换层、特征提取层、论元首字符预测输出层和论元尾字符预测输出层,所述方法包括:/n采集文本数据生成输入文本;/n向量转换层将所述输入文本转换为向量矩阵;/n特征提取层对所述向量矩阵进行编码,以提取出所述输入文本的序列特征;/n论元首字符预测输出层基于所述序列特征预测所述输入文本中论元的首字符位置和论元类型标识并输出;/n论元尾字符预测输出层基于所述序列特征预测所述输入文本中论元的尾字符位置和论元类型标识并输出;/n在预设的论元类型标识与事件类型的对应关系表中查找输出的论元类型标识对应的事件类型,并根 ...
【技术特征摘要】
1.一种基于预设神经网络的事件抽取方法,其特征在于,所述预设神经网络包括向量转换层、特征提取层、论元首字符预测输出层和论元尾字符预测输出层,所述方法包括:
采集文本数据生成输入文本;
向量转换层将所述输入文本转换为向量矩阵;
特征提取层对所述向量矩阵进行编码,以提取出所述输入文本的序列特征;
论元首字符预测输出层基于所述序列特征预测所述输入文本中论元的首字符位置和论元类型标识并输出;
论元尾字符预测输出层基于所述序列特征预测所述输入文本中论元的尾字符位置和论元类型标识并输出;
在预设的论元类型标识与事件类型的对应关系表中查找输出的论元类型标识对应的事件类型,并根据输出的论元的首字符位置和尾字符位置,从输入文本中抽取出论元作为所述事件类型的事件要素。
2.根据权利要求1所述的方法,其特征在于,所述向量转换层包括文本数字化层和文本嵌入层;
所述特征提取层对所述向量矩阵进行编码,以提取出所述输入文本的序列特征,包括:
文本数字化层利用bert词表将所述输入文本转化为相应数字ID形式;
文本嵌入层根据所述输入文本中各字符对应的数字ID,获取各字符的向量值得到向量矩阵。
3.根据权利要求1所述的方法,其特征在于,还包括按照如下方式生成所述预设神经网络:
采集各种事件类型的文本样本生成文本样本集合;
针对所述文本样本集合中各样本标注论元类型标识,生成标注后的文本样本集合;
创建神经网络模型;
将所述标注后的文本样本集合输入神经网络模型进行优化训练,生成预设神经网络。
4.根据权利要求3所述的方法,其特征在于,所述预设神经网络中的论元首字符预测输出层利用一个损失函数进行优化,论元尾字符预测输出层利用一个损失函数进行优化。
5.根据权利要求1所述的方法,其特征在于,所述从输入文本中抽取...
【专利技术属性】
技术研发人员:胡晓辉,
申请(专利权)人:深圳壹账通智能科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。