An embodiment of the present disclosure provides a method, device, electronic device and computer readable storage medium for extracting entity-related information. In this method, the computing device obtains multiple candidate texts associated with a predetermined entity and a predetermined attribute. In addition, the computing device determines at least one target text from multiple candidate texts based on the semantics of the entity attribute pairs formed by the predefined entity and the predefined attribute. Further, the computing device determines the attribute value of the predetermined attribute of the predetermined entity based on at least one target text. Embodiments of the present disclosure can improve timeliness and reduce labor costs by extracting entity-related information.
【技术实现步骤摘要】
提取实体相关信息的方法、装置、电子设备和存储介质
本公开的实施例一般地涉及信息处理
,并且更特别地,涉及一种提取实体相关信息的方法、装置、电子设备和计算机可读存储介质。
技术介绍
传统地,存在两种提取实体相关信息的方式。一种方式是纯开放的提取,其主要包括针对自由文本和半结构网页的开放提取。也即,在互联网的自由文本和半结构网页中,开放性地挖掘实体和实体之间的相关语义关系,其中半结构化网页是指具有一定结构性的网页,这种结构性的表现基于超文本标记语言(HTML)。例如,在文本“姚明,1980年9月12日出生于上海市徐汇区”中直接挖掘出(姚明,出生日期,1980年9月12日)以及(姚明,出生地,上海市徐汇区)这样的三元组。另一种方式是结构化的提取,其主要指通过人工来配置映射关系以提取实体相关信息。也即,针对固定垂类的固定网站,人工地对每个网站配置多个映射关系模板,例如,人工地定义网页正则模板、可扩展标记语言路径(xPath)等,来对网页中固定结构的数据进行定向提取。然而,这些提取实体相关信息的传统方案还存在各种问题和不足,在许多场合无法满足对于提取实体相关信息的性能要求,从而在实体推荐等应用中导致了不良的用户体验。
技术实现思路
本公开的实施例涉及一种提取实体相关信息的方法、装置、电子设备和计算机可读存储介质。在本公开的第一方面,提供了一种提取实体相关信息的方法。该方法包括:获得与预定实体和预定属性相关联的多个候选文本。该方法还包括:基于由预定实体和预定属性形成的实体属性对的语义,从多个候选文本中确定至少一个目标文本。该方法进一步包括:基于至少一个目标文本,确定 ...
【技术保护点】
1.一种提取实体相关信息的方法,包括:获得与预定实体和预定属性相关联的多个候选文本;基于由所述预定实体和所述预定属性形成的实体属性对的语义,从所述多个候选文本中确定至少一个目标文本;以及基于所述至少一个目标文本,确定所述预定实体的所述预定属性的属性值。
【技术特征摘要】
1.一种提取实体相关信息的方法,包括:获得与预定实体和预定属性相关联的多个候选文本;基于由所述预定实体和所述预定属性形成的实体属性对的语义,从所述多个候选文本中确定至少一个目标文本;以及基于所述至少一个目标文本,确定所述预定实体的所述预定属性的属性值。2.根据权利要求1所述的方法,其中获得所述多个候选文本包括:确定与所述预定实体相对应的实体检索词和与所述预定属性相对应的属性检索词;以及利用所述实体检索词和所述属性检索词,从文本库中检索所述多个候选文本。3.根据权利要求2所述的方法,其中所述实体检索词包括所述预定实体的名称和别名中的至少一个,并且所述属性检索词包括所述预定属性的名称、别名和引导词中的至少一个,所述引导词用于引导出所述预定实体的所述预定属性。4.根据权利要求1所述的方法,进一步包括:确定新出现的实体或搜索频率高于阈值的实体作为所述预定实体;以及基于所述预定实体来确定所述预定属性。5.根据权利要求1所述的方法,其中确定所述至少一个目标文本包括:针对所述多个候选文本中的给定候选文本,处理所述给定候选文本以确定所述给定候选文本的语义;确定所述给定候选文本的语义与所述实体属性对的语义之间的相似度;以及响应于所述相似度高于阈值,选择所述给定候选文本作为所述至少一个目标文本之一。6.根据权利要求1所述的方法,其中确定所述属性值包括:使用具有不同模型结构的多个不同的提取模型,基于所述预定实体和所述预定属性,从所述至少一个目标文本中提取多个候选属性值;确定所述多个候选属性值的置信度;以及从所述多个候选属性值中选择置信度高于阈值的属性值。7.根据权利要求6所述的方法,其中所述至少一个目标文本包括多个目标文本,并且其中确定所述多个候选属性值的置信度包括:针对所述多个候选属性值中的给定候选属性值,确定提取出所述给定候选属性值的提取模型与目标文本的多个配对;获得所述候选属性值的分别与所述多个配对相关联的多个置信度得分;以及将所述多个置信度得分相加,以得到所述给定候选属性值的置信度。8.一种提取实体相关信息的装置,包括:候选文本获得模块,被配置为获得与预定实体和预定属性相关联的多个候选文本;目标文本确定模块,被配置为基于由所述预定实体和所述预定属性形成的实体属性对的语义,从所述多个候选文本中确定至少一个目标文本;以及属性值确定模块,被配置为基于所述至少一个目标文本,确定所述预定实体的所述预定属性的属性值。9.根据权利...
【专利技术属性】
技术研发人员:贺薇,李双婕,史亚冰,梁海金,张扬,朱勇,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。