【技术实现步骤摘要】
信息提取方法、装置、电子设备和介质
[0001]本公开涉及数据处理
,尤其涉及信息抽取、云计算及知识图谱
,特别涉及一种信息提取方法、装置、电子设备和介质。
技术介绍
[0002]随着互联网技术的迅速发展,新闻传播的方式由传统的纸质媒体传播转变为了网络媒体传播。人们只需要在互联网中输入查询词,便可以随时随地查看当前时刻或历史时刻发布的新闻,极大的方便了人们的日常生活。
[0003]目前的新闻查询方法会根据用户输入的查询词,直接召回相关的新闻原文。
技术实现思路
[0004]本公开提供了一种用于自动从文本原文中提取用户感兴趣的内容信息的方法、装置、电子设备和介质。
[0005]根据本公开的一方面,提供了一种信息提取方法,包括:
[0006]根据获取的查询请求,从候选文本原文中确定目标文本原文;
[0007]根据获取的目标内容类型,从所述目标文本原文中提取属于所述目标内容类型的目标内容信息。
[0008]根据本公开的另一方面,提供了一种信息提取装置,包括: />[0009]文本本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种信息提取方法,包括:根据获取的查询请求,从候选文本原文中确定目标文本原文;根据获取的目标内容类型,从所述目标文本原文中提取属于所述目标内容类型的目标内容信息。2.根据权利要求1所述的方法,其中,所述根据获取的目标内容类型,从所述目标文本原文中提取属于所述目标内容类型的目标内容信息,包括:将所述目标内容类型与候选内容类型和候选内容模板之间的关联关系进行匹配,确定所述目标内容类型关联的目标内容模板;根据所述目标内容模板,从所述目标文本原文中提取属于所述目标内容类型的目标内容信息。3.根据权利要求2所述的方法,其中,所述根据所述目标内容模板,从所述目标文本原文中提取属于所述目标内容类型的目标内容信息,包括:将所述目标内容模板中的模板关键词与所述目标文本原文进行匹配,确定包含有所述模板关键词的候选文本段落;根据所述候选文本段落的字符总数量和包含的模板关键词的字符数量,从所述候选文本中确定目标文本段落,并将所述目标文本段落作为所述目标内容信息。4.根据权利要求3所述的方法,其中,所述根据所述候选文本段落的字符总数量和包含的模板关键词的字符数量,从所述候选文本中确定目标文本段落,包括:根据所述字符数量以及所述字符总数量,确定所述候选文本段落包含的模板关键词的字符占比;根据所述字符占比以及字符占比门限值,从所述候选文本段落中确定目标文本段落。5.根据权利要求2所述的方法,其中,所述根据所述目标内容模板,从所述目标文本原文中提取属于所述目标内容类型的目标内容信息,包括:将所述目标内容模板中的起始模板句式和结束模板句式分别与所述目标文本原文进行匹配,确定属于所述起始模板句式的起始文本语句以及属于所述结束模板句式的结束文本语句;根据所述目标文本原文中处于所述起始文本语句和所述结束文本语句之间的文本原文,确定所述目标内容信息。6.根据权利要求1所述的方法,所述从所述目标文本原文中提取属于所述目标内容类型的目标内容信息之后,还包括:确定各所述目标内容信息之间的文本相似性;将文本相似性大于相似性门限值的至少两条目标内容信息,作为相似内容信息,并将除所述相似内容信息之外的目标内容信息作为非相似内容信息;根据各所述相似内容信息的字符数量,从所述相似内容信息中确定筛选内容信息;将所述筛选内容信息和所述非相似内容信息作为待展示内容信息,并将所述待展示内容信息进行展示。7.根据权利要求6所述的方法,其中,所述将所述待展示内容信息进行展示,包括:确定各所述待展示内容信息的发布时间,并按照所述发布时间对各所述待展示内容信息进行顺序展示。
8.根据权利要求1
‑
7中任一所述的方法,其中,所述根据获取的查询请求,从候选文本原文中确定目标文本原文,包括:将所述查询请求中包括的查询关键词,与所述候选文本原文的文本标题和/或文本正文进行匹配,并根据匹配结果从所述候选文本原文中确定目标文本原文。9.一种信息提取装置,包括:文本原文确定模块,用于根据获取的查询请求,从候选文本原文中确定目标文本原文;信息提取模块,用于根据获取的目标内容类型,从...
【专利技术属性】
技术研发人员:洪赛丁,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。