【技术实现步骤摘要】
一种关键句提取方法及装置
本申请涉及互联网
,特别涉及一种关键句提取方法及装置、计算设备及计算机可读存储介质。
技术介绍
随着互联网的高速发展,越来越多的信息以电子文本的形式呈现给用户。为了帮助用户在海量信息中快速找到所需要的信息,提出了信息抽取的概念。信息抽取是指从自然语言文本中抽取事实信息,并且以结构化的形式描述信息。事件抽取是信息抽取中的一个重要研究方向,主要是指从含有事件信息的文本数据中抽取出感兴趣的事件信息,并且将用自然语言表达事件以结构化的形式呈现,比如,什么人、什么地方、什么时间、做了什么事。目前,事件抽取中的关键句提取主要采用人工提取法、关键词筛选法或深度学习法。但是人工抽取法需耗费大量人工,且信息实时性差,效果不稳定,关键词筛选法准确度较低,且关键词也无法实时更新,深度学习法需要生成大量标注数据,成本大,且无法保证抽取的完整性。
技术实现思路
有鉴于此,本申请实施例提供了一种关键句提取方法及装置、计算设备及计算机可读存储介质,以解决现有技术中存在的技术缺陷。本申请实 ...
【技术保护点】
1.一种关键句提取方法,其特征在于,包括:/n获取至少一个目标句单元;/n将每一个所述目标句单元分别进行匹配提取处理、模板提取处理和模型提取处理,生成匹配事件要素信息集、模板事件要素信息集和模型事件要素信息集;/n将所述匹配事件要素信息集、模板事件要素信息集和模型事件要素信息集进行融合处理,生成融合事件要素信息集;/n将所述目标句单元的融合事件要素信息集分别与预设数据库以及预设事件要素进行对比,基于对比结果确定并提取关键句。/n
【技术特征摘要】
1.一种关键句提取方法,其特征在于,包括:
获取至少一个目标句单元;
将每一个所述目标句单元分别进行匹配提取处理、模板提取处理和模型提取处理,生成匹配事件要素信息集、模板事件要素信息集和模型事件要素信息集;
将所述匹配事件要素信息集、模板事件要素信息集和模型事件要素信息集进行融合处理,生成融合事件要素信息集;
将所述目标句单元的融合事件要素信息集分别与预设数据库以及预设事件要素进行对比,基于对比结果确定并提取关键句。
2.根据权利要求1所述的关键句提取方法,其特征在于,所述获取至少一个目标句单元,包括:
获取目标文本;
对所述目标文本进行分句处理,得到至少一个句单元;
通过滑动窗口沿预设的滑动路径,以预设的滑动步长滑动,并提取滑动过程中所述滑动窗口内的句单元,得到目标句单元。
3.根据权利要求1所述的关键句提取方法,其特征在于,所述将每一个所述目标句单元分别进行匹配提取处理、模板提取处理和模型提取处理,生成匹配事件要素信息集、模板事件要素信息集和模型事件要素信息集,包括:
在预设数据库中匹配与所述目标句单元相对应的已存储事件要素信息集,在匹配到与所述目标句单元相对应的已存储事件要素信息集的情况下,将所述已存储事件要素信息集作为匹配事件要素信息集,在未匹配到与所述目标句单元相对应的已存储事件要素信息集的情况下,匹配事件要素信息集为空集;
基于预设的规则模板在所述目标句单元中提取事件信息,生成模板事件要素信息集;
将所述目标句单元输入至识别模型中提取事件信息,生成模型事件要素信息集。
4.根据权利要求1所述的关键句提取方法,其特征在于,所述将所述匹配事件要素信息集、模板事件要素信息集和模型事件要素信息集进行融合处理,生成融合事件要素信息集,包括:
将所述匹配事件要素信息集、模板事件要素信息集和模型事件要素信息集进行合并,生成所述匹配事件要素信息集、所述模板事件要素信息集和所述模型事件要素信息集的并集,并将所述并集作为融合事件要素信息集。
5.根据权利要求1所述的关键句提取方法,其特征在于,所述将所述匹配事件要素信息集、模板事件要素信息集和模型事件要素...
【专利技术属性】
技术研发人员:樊骏锋,李长亮,汪美玲,
申请(专利权)人:北京金山数字娱乐科技有限公司,成都金山数字娱乐科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。