提取实体相关信息的方法、装置、电子设备和存储介质制造方法及图纸

技术编号:21184677 阅读:23 留言:0更新日期:2019-05-22 15:17
本公开的实施例提供了一种提取实体相关信息的方法、装置、电子设备和计算机可读存储介质。在该方法中,计算设备获得与预定实体和预定属性相关联的多个候选文本。此外,计算设备基于由预定实体和预定属性形成的实体属性对的语义,从多个候选文本中确定至少一个目标文本。进一步地,计算设备基于至少一个目标文本,确定预定实体的预定属性的属性值。本公开的实施例可以在提取实体相关信息时改进时效性并减少人工成本。

Methods, devices, electronic devices and storage media for extracting entity-related information

An embodiment of the present disclosure provides a method, device, electronic device and computer readable storage medium for extracting entity-related information. In this method, the computing device obtains multiple candidate texts associated with a predetermined entity and a predetermined attribute. In addition, the computing device determines at least one target text from multiple candidate texts based on the semantics of the entity attribute pairs formed by the predefined entity and the predefined attribute. Further, the computing device determines the attribute value of the predetermined attribute of the predetermined entity based on at least one target text. Embodiments of the present disclosure can improve timeliness and reduce labor costs by extracting entity-related information.

【技术实现步骤摘要】
提取实体相关信息的方法、装置、电子设备和存储介质
本公开的实施例一般地涉及信息处理
,并且更特别地,涉及一种提取实体相关信息的方法、装置、电子设备和计算机可读存储介质。
技术介绍
传统地,存在两种提取实体相关信息的方式。一种方式是纯开放的提取,其主要包括针对自由文本和半结构网页的开放提取。也即,在互联网的自由文本和半结构网页中,开放性地挖掘实体和实体之间的相关语义关系,其中半结构化网页是指具有一定结构性的网页,这种结构性的表现基于超文本标记语言(HTML)。例如,在文本“姚明,1980年9月12日出生于上海市徐汇区”中直接挖掘出(姚明,出生日期,1980年9月12日)以及(姚明,出生地,上海市徐汇区)这样的三元组。另一种方式是结构化的提取,其主要指通过人工来配置映射关系以提取实体相关信息。也即,针对固定垂类的固定网站,人工地对每个网站配置多个映射关系模板,例如,人工地定义网页正则模板、可扩展标记语言路径(xPath)等,来对网页中固定结构的数据进行定向提取。然而,这些提取实体相关信息的传统方案还存在各种问题和不足,在许多场合无法满足对于提取实体相关信息的性能要求,从而在实体推荐等应用中导致了不良的用户体验。
技术实现思路
本公开的实施例涉及一种提取实体相关信息的方法、装置、电子设备和计算机可读存储介质。在本公开的第一方面,提供了一种提取实体相关信息的方法。该方法包括:获得与预定实体和预定属性相关联的多个候选文本。该方法还包括:基于由预定实体和预定属性形成的实体属性对的语义,从多个候选文本中确定至少一个目标文本。该方法进一步包括:基于至少一个目标文本,确定预定实体的预定属性的属性值。在本公开的第二方面,提供了一种提取实体相关信息的装置。该装置包括:候选文本获得模块,被配置为获得与预定实体和预定属性相关联的多个候选文本。该装置还包括:目标文本确定模块,被配置为基于由预定实体和预定属性形成的实体属性对的语义,从多个候选文本中确定至少一个目标文本。该装置进一步包括:属性值确定模块,被配置为基于至少一个目标文本,确定预定实体的预定属性的属性值。在本公开的第三方面,提供了一种电子设备。该电子设备包括一个或多个处理器;以及存储装置,用于存储一个或多个程序。当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现第一方面的方法。在本公开的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现第一方面的方法。应当理解,
技术实现思路
部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其他特征通过以下的描述将变得容易理解。附图说明通过参考附图阅读下文的详细描述,本公开的实施例的上述以及其他目的、特征和优点将变得容易理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施例,其中:图1示出了本公开的一些实施例能够在其中实现的示例环境的示意图;图2示出了根据本公开的实施例的提取实体相关信息的方法的示意性流程图;图3示出了根据本公开的实施例的提取实体相关信息的装置的示意性框图;图4示出了根据本公开的实施例的提取实体属性的属性值的一种通用技术框架的示意性框图;以及图5示出了一种可以被用来实施本公开的实施例的设备的示意性框图。贯穿所有附图,相同或者相似的参考标号被用来表示相同或者相似的组件。具体实施方式下面将参考附图中所示出的若干示例性实施例来描述本公开的原理和精神。应当理解,描述这些具体的实施例仅是为了使本领域的技术人员能够更好地理解并实现本公开,而并非以任何方式限制本公开的范围。如上文提到的,传统的实体关系提取方式主要包括纯开放的提取方式和结构化的提取方式。然而,这两种传统的提取方式均存在一些问题和不足。例如,纯开放的提取方式主要用来处理知识的批量提取,但是对于新实体和新增知识的提取时延性较大,更新时间长,因此不能解决时效性的知识更新问题。另一方面,结构化的提取方式主要的缺点是人工成本较大,需要人工根据网页结构来配置提取模板,并且只能实现一定程度的定向提取。通过配置目标类目的模板,可以实现类目粒度的定向,但是还无法实现“实体+属性”粒度的定向。鉴于传统方案中存在的上述问题以及潜在的其他问题,本公开的实施例提出了一种提取实体相关信息的方法、装置、电子设备和计算机可读存储介质,以在提取实体相关信息时改进时效性并减少人工成本。具体地,本公开的实施例提出了一种定向知识提取技术,主要用于在给定“实体-属性”二元组的情况下,具有针对性地提取其对应的属性值。所提出的定向提取技术旨在从文本库(例如,海量的互联网文本)中通过信息提取技术定向提取出高置信度的实体关系数据。从知识图谱构建的角度上看,所提出的定向提取技术可以提取实体缺失的关系属性值,可以用于提升知识图谱的连通度,高效提升知识图谱的知识丰富度与完备性。从产品应用的角度来看,补充的实体关系数据可以直接满足用户对于实体关联的需求,也可以有效提高人们检索和浏览实体的效率,提升用户体验,典型的应用可以包括实体问答、实体推荐等。相较于传统的实体信息提取方案,本公开的实施例一方面解决了时效性问题。如果有新实体或者短时间内高热度实体的出现,由于更新时间短,各实施例可以快速地提取新实体或高热度实体的缺失的属性值,补充实体属性,提高知识图谱对于时效性“实体-属性-属性值”的覆盖。另一方面,本公开的实施例减少了人工成本,其例如使用深度学习模型对于所有“实体-属性-属性值”关系统一建模,因此不需要对领域知识有深入理解,也不需要设计复杂的高级特征,从而易于维护与扩展。下面结合附图来描述本公开的若干实施例。图1示出了本公开的一些实施例能够在其中实现的示例环境(或系统)100的示意图。如图1所示,在示例环境100中,预定实体105和预定属性110可以输入到计算设备120中,以便由计算设备120例如从文本库(未示出)的文本中获得预定实体105的预定属性110的属性值160。在一些实施例中,文本库可以包括从互联网中获得的文本集合。在其他实施例中,文本库可以包括描述任何实体的任何属性的任何适当的文本集合,包括但不限于各种用途和来源的文本汇集。在本公开的上下文中,术语“实体”是指具有可区别性且独立存在的某种事物,诸如某一个人、某一个城市、某一种植物、某一种商品,等等。世界万物由具体事物组成,均可以称为实体。例如,“中国”、“美国”、“日本”等。术语“属性”是指实体的某种性质或者实体与另一实体之间的关系。例如,属性可以是指某个人的身高、性别、出生地,等等。此外,属性还可以是指某个实体与另一实体的关系。例如,丈夫、父亲、朋友,等等。术语“属性值”是指实体属性的具体内容或者与实体具有某种关系的另一实体。例如,某个人的属性“性别”的属性值可以是“男”。又例如,与某个实体(例如,姚明)具有某种关系属性(例如,妻子)的属性值可以是另一个实体(例如,叶莉)。应当理解,上文关于各种术语的定义仅是示例性的以用于帮助理解本公开,无意以任何方式限制本公开的范围。在其他实施例中,本文使用的各种术语将符合由本领域的技术人员通常所理解的技术含义。继续参考图1,计算设备120可以基于输入的预定实体105和预定属性110,从文本库中获得与预定实体本文档来自技高网
...

【技术保护点】
1.一种提取实体相关信息的方法,包括:获得与预定实体和预定属性相关联的多个候选文本;基于由所述预定实体和所述预定属性形成的实体属性对的语义,从所述多个候选文本中确定至少一个目标文本;以及基于所述至少一个目标文本,确定所述预定实体的所述预定属性的属性值。

【技术特征摘要】
1.一种提取实体相关信息的方法,包括:获得与预定实体和预定属性相关联的多个候选文本;基于由所述预定实体和所述预定属性形成的实体属性对的语义,从所述多个候选文本中确定至少一个目标文本;以及基于所述至少一个目标文本,确定所述预定实体的所述预定属性的属性值。2.根据权利要求1所述的方法,其中获得所述多个候选文本包括:确定与所述预定实体相对应的实体检索词和与所述预定属性相对应的属性检索词;以及利用所述实体检索词和所述属性检索词,从文本库中检索所述多个候选文本。3.根据权利要求2所述的方法,其中所述实体检索词包括所述预定实体的名称和别名中的至少一个,并且所述属性检索词包括所述预定属性的名称、别名和引导词中的至少一个,所述引导词用于引导出所述预定实体的所述预定属性。4.根据权利要求1所述的方法,进一步包括:确定新出现的实体或搜索频率高于阈值的实体作为所述预定实体;以及基于所述预定实体来确定所述预定属性。5.根据权利要求1所述的方法,其中确定所述至少一个目标文本包括:针对所述多个候选文本中的给定候选文本,处理所述给定候选文本以确定所述给定候选文本的语义;确定所述给定候选文本的语义与所述实体属性对的语义之间的相似度;以及响应于所述相似度高于阈值,选择所述给定候选文本作为所述至少一个目标文本之一。6.根据权利要求1所述的方法,其中确定所述属性值包括:使用具有不同模型结构的多个不同的提取模型,基于所述预定实体和所述预定属性,从所述至少一个目标文本中提取多个候选属性值;确定所述多个候选属性值的置信度;以及从所述多个候选属性值中选择置信度高于阈值的属性值。7.根据权利要求6所述的方法,其中所述至少一个目标文本包括多个目标文本,并且其中确定所述多个候选属性值的置信度包括:针对所述多个候选属性值中的给定候选属性值,确定提取出所述给定候选属性值的提取模型与目标文本的多个配对;获得所述候选属性值的分别与所述多个配对相关联的多个置信度得分;以及将所述多个置信度得分相加,以得到所述给定候选属性值的置信度。8.一种提取实体相关信息的装置,包括:候选文本获得模块,被配置为获得与预定实体和预定属性相关联的多个候选文本;目标文本确定模块,被配置为基于由所述预定实体和所述预定属性形成的实体属性对的语义,从所述多个候选文本中确定至少一个目标文本;以及属性值确定模块,被配置为基于所述至少一个目标文本,确定所述预定实体的所述预定属性的属性值。9.根据权利...

【专利技术属性】
技术研发人员:贺薇李双婕史亚冰梁海金张扬朱勇
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1