【技术实现步骤摘要】
信息抽取方法、装置、电子设备及存储介质
[0001]本专利技术实施例涉及自然语言处理
,尤其涉及一种信息抽取方法、装置、电子设备及存储介质。
技术介绍
[0002]互联网为公众提供了自由表达意见的渠道和平台,实现了海量信息的共享,消弭了人与人之间的地理隔阂。然而,互联网上信息纷繁复杂,网民观点各不相同,在一些事件发生后,有些网民甚至在未辨真伪的情况下就匆忙发表了自己的观点,从而导致互联网信息良莠不齐、真假难辨,也为相关人员快速掌握事件真实有用的信息带来了难度与考验。
[0003]获取专家对于特定事件的观点则为从海量信息中获取有价值的信息提供了重要途径。一方面,专家在结合了自己的背景知识之后给出的观点更具有可信性及思想深度;另一方面,专家的发言具有权威性且具有较大的影响力,在网络上往往发表也能够引起较多人的关注,可能作为事件的引爆点或者降温点。因此,提取专家观点有助于相关人员深入的了解事件的走向、及时掌握网民的视觉焦点。
[0004]针对如何提取专家观点的技术问题,目前尚未提出有效的解决方案。
专 ...
【技术保护点】
【技术特征摘要】
1.一种信息抽取方法,其特征在于,包括:利用预设规则从至少一个信息通道中获取目标事件的相关文本;对所述相关文本进行分割,得到多个句子;对每一所述句子进行句法分析,根据句法分析结果得到所述句子中的目标专家实体和目标发言指示词;根据所述目标专家实体和目标发言指示词从所述句子中抽取目标专家职称和目标专家观点。2.根据权利要求1所述的方法,其特征在于,所述对每一所述句子进行句法分析,根据句法分析结果得到所述句子中的目标专家实体和目标发言指示词,包括:针对每一所述句子,对所述句子进行句法分析,得到所述句子中的主谓关系元组;根据所述主谓关系元组中的谓语查找预设的发言指示词集;如果在所述发言指示词集中查找到所述谓语,则根据所述主谓关系元组中的主语查找预设的专家实体库;如果在所述专家实体库中查找到所述主语,则将所述主谓关系元组中的主语确定为目标专家实体,将所述主谓关系元组中的谓语确定为目标发言指示词。3.根据权利要求2所述的方法,其特征在于,在所述将所述主谓关系元组中的主语确定为目标专家实体,将所述主谓关系元组中的谓语确定为目标发言指示词之前,还包括:获取所述专家实体库中与所述主语对应的目标专家领域;利用预设的文本分类算法确定所述相关文本的目标信息类型;若所述目标专家领域与所述目标信息类型相匹配,则执行所述将所述主谓关系元组中的主语确定为目标专家实体,将所述主谓关系元组中的谓语确定为目标发言指示词的步骤。4.根据权利要求1所述的方法,其特征在于,所述根据所述目标专家实体和目标发言指示词从所述句子中抽取目标专家职称和目标专家观点,包括:确定所述句子中每一字符对应于预设的标注标签体系的概率分布向量,所述概率分布向量包括所述字符与所述标注标签体系中各标注标签相匹配的概率;对所述目标专家实体对应的所有字符的概率分布向量和所述目标发言指示词对应的所有字符的概率分布向量分别进行校正;根据校正后的每一所述字符对应的所述概率分布向量从所述句子中抽取目标专家职称和目标专家观点。5.根据权利要求4所述的方法,其特征在于,所述对所述目标专家实体对应的所有字符的概率分布向量和所述目标发言指示词对应的所有的概率分布向量分别进行校正,包括:将所述目标专家实体对应的所有字符的概率分布向量中,专家名称标注标签对应的概率置为第一预设值,除所述专家名称标注标签以外的其他标注标签对应的概率置为第二预设值;将所述目标发言指示词对应的所有字符的概率分布向量中,发言指示词标注标签对应的概率置为第一预设值,除所述发言指示词标注标签以外的其他标注标签对应的概率置为第二预设值。6.一种信息抽取装置,其特征在于,包括:
文本获取模块,用于利用预设规则从至少一个信息通道中获取目标事件的相关文本;文本分割模块,用于对所述相关...
【专利技术属性】
技术研发人员:贾玉改,彭鑫,王品,王宇琪,孔庆超,柳力多,张东雷,曲宝玉,罗引,王磊,盘浩军,
申请(专利权)人:国科智安北京科技有限公司深圳中科闻歌科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。