【技术实现步骤摘要】
信息分析方法及装置、电子设备和计算机可读存储介质
本公开涉及数据处理
,特别涉及信息分析方法及装置、电子设备和计算机可读存储介质。
技术介绍
舆情是指在一定的社会空间内,围绕社会事件的发生、发展和变化,作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。随着互联网技术的快速发展,网络的开发性和灵活性让其成为反映社会舆情的主要载体之一。通过对企业的舆情新闻进行信息提取和结构化存储,可以让用户方便的获取到其关注企业的全面舆情信息,并且有利于对企业的舆情信息进行析,准确判断企业的发展趋势,还可以进一步生成舆情报告和各种统计报表,以便于决策。现有技术对企业的舆情新闻进行信息提取时,采用基于事件与论元的流水线(pipeline)方式来提取舆情新闻中的事件与论元值,先识别事件(如收购),识别出事件则抽取相应事件的论元值(如时间、收购物)。在实现本公开的过程中,本专利技术人通过研究发现,上述基于事件与论元的流水线方式来提取舆情新闻中的事件与论元值的方法, ...
【技术保护点】
1.一种信息分析方法,其特征在于,包括:/n获取信息文本;/n基于所述信息文本中的触发词对所述信息文本添加所述触发词对应的事件先验信息,得到待分析文本;/n利用第一抽取模型,预测所述待分析文本中的事件信息和论元信息,得到预测结果;其中,所述第一抽取模型预先基于多个第一训练语料训练得到,所述第一训练语料标注有事件标注信息和论元角色标注信息;/n基于所述预测结果,确定所述信息文本对应的事件信息和论元信息。/n
【技术特征摘要】
1.一种信息分析方法,其特征在于,包括:
获取信息文本;
基于所述信息文本中的触发词对所述信息文本添加所述触发词对应的事件先验信息,得到待分析文本;
利用第一抽取模型,预测所述待分析文本中的事件信息和论元信息,得到预测结果;其中,所述第一抽取模型预先基于多个第一训练语料训练得到,所述第一训练语料标注有事件标注信息和论元角色标注信息;
基于所述预测结果,确定所述信息文本对应的事件信息和论元信息。
2.根据权利要求1所述的方法,其特征在于,所述基于所述信息文本中的触发词对所述信息文本添加所述触发词对应的事件先验信息,包括:
检测所述信息文本中的触发词;
确定所述触发词对应的事件先验信息;
在所述信息文本前后分别添加所述事件先验信息,或者,在所述信息文本前添加所述事件先验信息,或者,在所述信息文本后添加所述事件先验信息。
3.根据权利要求1或2所述的方法,其特征在于,所述事件先验信息包括:事件类别的先验信息;
所述第一训练语料还标注有触发词标注信息;
所述利用第一抽取模型,预测所述待分析文本中的事件信息和论元信息,得到预测结果,包括:
利用所述第一抽取模型,预测所述待分析文本中的事件信息、论元信息和触发词信息,得到预测结果,所述预测结果包括事件类别预测信息、论元角色预测信息和触发词预测信息;
所述基于所述预测结果,确定所述信息文本对应的事件信息和论元信息,包括:
基于所述事件类别预测信息确定所述信息文本对应的事件类别,基于事件类别预测信息和所述触发词预测信息确定所述信息文本对应的事件类型,基于所述论元角色预测信息确定所述信息文本中包括的论元角色和所述论元角色的论元值。
4.根据权利要求1或2所述的方法,其特征在于,所述事件先验信息包括:事件类型和所述事件类型所属的事件类别的先验信息;
所述预测结果包括事件预测信息和论元角色预测信息;其中,所述事件预测信息包括事件类别预测信息和事件类型预测信息;
所述基于所述预测结果,确定所述信息文本对应的事件信息和论元信息,包括:
基于所述事件类别预测信息确定所述信息文本对应的事件类别,基于事件类型预测信息确定所述信息文本对应的事件类型,基于所述论元角色预测信息确定所述信息文本中包括的论元角色和所述论元角色的论元值。
5.根据权利要求1-4任一所述的方法,其特征在于,所述利用第一抽取模型,预测所述待分析文本中的事件信息和论元信息,得到预测结果,包括:
利用所述第一抽取模型,对所述待分析文本中的事件先验信息进行事件信息的BIO标注,对所述待分析文本中的论元值进行论元信息的BIO标注,得到预测结果,所述预测结果包括携带事件信息的BIO标注信息和论元信息的BIO标注信息的待分析文本;
所述基于所述预测结果,确定所述信息文本对应的事件信息和论元信息,包括:
基于所述待分析文本和所述事件信息的BIO标注信息,确定所述信息文本对应的事件信息;基于所述待分析文本和所述论元信息的BIO标注信息,确定所述信息文本中包括的论元角色和所述论元角色的论元值。
6.根据权利要求5所述的方法,其特征在于,所述利用第一抽取模型,预测所述待分析文本中的事件信息和论元信息,得到预测结果,还包括:
利用所述第一抽取模型,对所述待分析文本中的触发词进行标注,所述预测结果还包括触发词的BIO标注信息;
所述基于所述预测结果,确定所述信息文本对应的事件信息和论元信息,还包括:
基于所述待分析文本和所述触发词的BIO标注信息,确定所述信息文本中的触发词。
7.根据权利要求1-6任一所述的方法,其特征在于,所述第一抽取模型包括:预训练语言模型。
8.根据权利要求1-7任一所述的方法,其特征在于,预先基于多个第一训练语料训练得到所述第一抽取模型,包括:
分别针对多个初始语料中的每个初始语料添加事件先验信息,并针对添加事件先验信息后的初始语料标注事件标注信息和论元角色标注信息,得到第一训练语料;
将所述多个第一训练语料分别输入所述第一抽取模型,以使所述第一抽取模...
【专利技术属性】
技术研发人员:刘文强,
申请(专利权)人:北京金堤科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。