建立映射关系的方法和装置、硬件设备、计算机可读介质制造方法及图纸

技术编号:21547891 阅读:22 留言:0更新日期:2019-07-06 21:26
本公开提供一种建立映射关系的方法,该方法包括:根据非结构化数据的原始题目确定所述非结构化数据的目标题目,所述目标题目为实体集合;从所述非结构化数据中提取出至少一个目标实体,并根据所述目标实体建立目标实体集合;建立所述目标题目和目标实体集合之间的映射关系。本公开还提供了一种建立映射关系的装置、硬件设备、计算机可读介质。

The Method and Device of Establishing Mapping Relation, Hardware Equipment, Computer Readable Media

【技术实现步骤摘要】
建立映射关系的方法和装置、硬件设备、计算机可读介质
本公开实施例涉及数据库
,特别涉及建立映射关系的方法和装置、硬件设备、计算机可读介质。
技术介绍
当用户就实体集合进行检索或提出问题时,需要给用户推荐与实体集合对应的实体,现在与实体集合对应的实体可通过以下方式得出:1)采用人工方法将实体与实体集合进行对应,但这种方法需要人工参与,耗时较长、准确度较低;2)通过分析结构化数据得出实体集合与实体的对应关系,但该方法仅适用于具有特定结构的结构化数据,对于非结构化数据、半结构化数据,或具体结构不同的结构化数据,并不适用。
技术实现思路
本公开实施例提供一种建立映射关系的方法和装置、硬件设备、计算机可读介质。第一方面,本公开实施例提供一种建立映射关系的方法,包括:根据非结构化数据的原始题目确定所述非结构化数据的目标题目,所述目标题目为实体集合;从所述非结构化数据中提取出至少一个目标实体,并根据所述目标实体建立目标实体集合;建立所述目标题目和目标实体集合之间的映射关系。在一些实施例中,所述非结构化数据为信息介绍类的非结构化数据;所述根据非结构化数据的原始题目确定所述非结构化数据的目标题目包括:根据预设的正则匹配模型从所述非结构化数据的原始题目中提取出目标题目。在一些实施例中,所述非结构化数据的原始题目包括预设的关键词。在一些实施例中,所述非结构化数据为问答类的非结构化数据;所述根据非结构化数据的原始题目确定所述非结构化数据的目标题目包括:将所述非结构化数据的原始题目与预设的词性序列模板进行匹配,所述词性序列模板包括至少一个名词;从所述原始题目中提取对应词性序列模板中预定名词的部分,得到至少两个候选题目;确定各所述候选题目与原始题目的相关度,以对应相关度最大的所述候选题目作为目标题目。在一些实施例中,所述从所述非结构化数据中提取出至少一个目标实体包括:识别所述非结构化数据中的实体;根据所识别的所述实体在所述非结构化数据中的分布特征,从所识别的所述实体中筛选出至少一个候选实体;根据所述候选实体与所述非结构化数据的相关度,从所述候选实体中筛选出至少一个目标实体。在一些实施例中,所述非结构化数据包括盘点块,所述盘点块包括连续的第一段落和第二段落,所述第一段落的长度小于或等于第一阈值,所述第二段落的长度大于或等于第二阈值,所述第二阈值大于第一阈值;所述识别所述非结构化数据中的实体包括:识别所述盘点块的第一段落中的实体;所述实体在所述非结构化数据中的分布特征包括所述实体在所述非结构化数据全文中的分布特征,以及所述实体在所述盘点块中的分布特征。在一些实施例中,所述非结构化数据中无盘点块,所述盘点块包括连续的第一段落和第二段落,所述第一段落的长度小于或等于第一阈值,所述第二段落的长度大于或等于第二阈值,所述第二阈值大于第一阈值;所述识别所述非结构化数据中的实体包括:识别所述非结构化数据中的实体;所述实体在所述非结构化数据中的分布特征包括所述实体在所述非结构化数据全文中的分布特征。在一些实施例中,所述根据所述候选实体与所述非结构化数据的相关度,从所述候选实体中筛选出至少一个目标实体包括:根据所述候选实体在预设的第一数据库中的相关信息得出第一向量,根据所述非结构化数据得出第二向量;计算所述第一向量与所述第二向量的相似度;根据所述相似度、所述候选实体的热度、所述第一数据库的权威度系数、所述候选实体在所述非结构化数据中的位置系数,计算所述候选实体的得分;根据各所述候选实体的得分,从各所述候选实体中筛选出至少一个目标实体。在一些实施例中,在所述建立所述目标题目和目标实体集合之间的映射关系后,还包括:将所述映射关系加入第二数据库。第二方面,本公开实施例提供一种建立映射关系的装置,包括:目标题目确定单元,用于根据非结构化数据的原始题目确定所述非结构化数据的目标题目,所述目标题目为实体集合;目标实体提取单元,用于从所述非结构化数据中提取出至少一个目标实体,并根据所述目标实体建立目标实体集合;映射关系建立单元,用于建立所述目标题目和目标实体集合之间的映射关系。在一些实施例中,所述非结构化数据为信息介绍类的非结构化数据;所述目标题目确定单元用于:根据预设的正则匹配模型从所述非结构化数据的原始题目中提取出目标题目。在一些实施例中,所述非结构化数据的原始题目包括预设的关键词。在一些实施例中,所述非结构化数据为问答类的非结构化数据;所述目标题目确定单元用于:将所述非结构化数据的原始题目与预设的词性序列模板进行匹配,所述词性序列模板包括至少一个名词;从所述原始题目中提取对应词性序列模板中预定名词的部分,得到至少两个候选题目;确定各所述候选题目与原始题目的相关度,以对应相关度最大的所述候选题目作为目标题目。在一些实施例中,所述目标实体提取单元包括:实体识别子单元,用于识别所述非结构化数据中的实体;候选实体筛选子单元,用于根据所识别的所述实体在所述非结构化数据中的分布特征,从所识别的所述实体中筛选出至少一个候选实体;目标实体筛选子单元,用于根据所述候选实体与所述非结构化数据的相关度,从所述候选实体中筛选出至少一个目标实体。在一些实施例中,所述非结构化数据包括盘点块,所述盘点块包括连续的第一段落和第二段落,所述第一段落的长度小于或等于第一阈值,所述第二段落的长度大于或等于第二阈值,所述第二阈值大于第一阈值;所述实体识别子单元用于:识别所述盘点块的第一段落中的实体;所述实体在所述非结构化数据中的分布特征包括所述实体在所述非结构化数据全文中的分布特征,以及所述实体在所述盘点块中的分布特征。在一些实施例中,所述非结构化数据中无盘点块,所述盘点块包括连续的第一段落和第二段落,所述第一段落的长度小于或等于第一阈值,所述第二段落的长度大于或等于第二阈值,所述第二阈值大于第一阈值;所述实体识别子单元用于:识别所述非结构化数据中的实体;所述实体在所述非结构化数据中的分布特征包括所述实体在所述非结构化数据全文中的分布特征。在一些实施例中,所述目标实体筛选子单元用于:根据所述候选实体在预设的第一数据库中的相关信息得出第一向量,根据所述非结构化数据得出第二向量;计算所述第一向量与所述第二向量的相似度;根据所述相似度、所述候选实体的热度、所述第一数据库的权威度系数、所述候选实体在所述非结构化数据中的位置系数,计算所述候选实体的得分;根据各所述候选实体的得分,从各所述候选实体中筛选出至少一个目标实体。在一些实施例中,建立映射关系的装置还包括:加入单元,用于将所述映射关系加入第二数据库。第三方面,本公开实施例提供一种硬件设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任意一种建立映射关系的方法。第四方面,本公开实施例提供一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现上述任意一种建立映射关系的方法。本公开实施例的建立映射关系的方法中,可分别从非结构化数据中提取出包括实体集合的原始题目,以及与实体集合对应的目标实体,从而确定实体集合是与哪些实体对应的,进而可用于反馈用户检索、为用户推荐信息、完善知识图谱等。而且,以上方法是自动实现的,不依赖人工,效率和本文档来自技高网...

【技术保护点】
1.一种建立映射关系的方法,包括:根据非结构化数据的原始题目确定所述非结构化数据的目标题目,所述目标题目为实体集合;从所述非结构化数据中提取出至少一个目标实体,并根据所述目标实体建立目标实体集合;建立所述目标题目和目标实体集合之间的映射关系。

【技术特征摘要】
1.一种建立映射关系的方法,包括:根据非结构化数据的原始题目确定所述非结构化数据的目标题目,所述目标题目为实体集合;从所述非结构化数据中提取出至少一个目标实体,并根据所述目标实体建立目标实体集合;建立所述目标题目和目标实体集合之间的映射关系。2.根据权利要求1所述的方法,其中,所述非结构化数据为信息介绍类的非结构化数据;所述根据非结构化数据的原始题目确定所述非结构化数据的目标题目包括:根据预设的正则匹配模型从所述非结构化数据的原始题目中提取出目标题目。3.根据权利要求2所述的方法,其中,所述非结构化数据的原始题目包括预设的关键词。4.根据权利要求1所述的方法,其中,所述非结构化数据为问答类的非结构化数据;所述根据非结构化数据的原始题目确定所述非结构化数据的目标题目包括:将所述非结构化数据的原始题目与预设的词性序列模板进行匹配,所述词性序列模板包括至少一个名词;从所述原始题目中提取对应词性序列模板中预定名词的部分,得到至少两个候选题目;确定各所述候选题目与原始题目的相关度,以对应相关度最大的所述候选题目作为目标题目。5.根据权利要求1所述的方法,其中,所述从所述非结构化数据中提取出至少一个目标实体包括:识别所述非结构化数据中的实体;根据所识别的所述实体在所述非结构化数据中的分布特征,从所识别的所述实体中筛选出至少一个候选实体;根据所述候选实体与所述非结构化数据的相关度,从所述候选实体中筛选出至少一个目标实体。6.根据权利要求5所述的方法,其中,所述非结构化数据包括盘点块,所述盘点块包括连续的第一段落和第二段落,所述第一段落的长度小于或等于第一阈值,所述第二段落的长度大于或等于第二阈值,所述第二阈值大于第一阈值;所述识别所述非结构化数据中的实体包括:识别所述盘点块的第一段落中的实体;所述实体在所述非结构化数据中的分布特征包括所述实体在所述非结构化数据全文中的分布特征,以及所述实体在所述盘点块中的分布特征。7.根据权利要求5所述的方法,其中,所述非结构化数据中无盘点块,所述盘点块包括连续的第一段落和第二段落,所述第一段落的长度小于或等于第一阈值,所述第二段落的长度大于或等于第二阈值,所述第二阈值大于第一阈值;所述识别所述非结构化数据中的实体包括:识别所述非结构化数据中的实体;所述实体在所述非结构化数据中的分布特征包括所述实体在所述非结构化数据全文中的分布特征。8.根据权利要求5所述的方法,其中,所述根据所述候选实体与所述非结构化数据的相关度,从所述候选实体中筛选出至少一个目标实体包括:根据所述候选实体在预设的第一数据库中的相关信息得出第一向量,根据所述非结构化数据得出第二向量;计算所述第一向量与所述第二向量的相似度;根据所述相似度、所述候选实体的热度、所述第一数据库的权威度系数、所述候选实体在所述非结构化数据中的位置系数,计算所述候选实体的得分;根据各所述候选实体的得分,从各所述候选实体中筛选出至少一个目标实体。9.根据权利要求1所述的方法,其中,在所述建立所述目标题目和目标实体集合之间的映射关系后,还包括:将所述映射关系加入第二数据库。10.一种建立映射关系的装置,包括:目标题目确定单元,用于根据非结构化数据的原始题目确定所述非结构化数据的目标题目,所述...

【专利技术属性】
技术研发人员:李千史亚冰梁海金张扬朱勇
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1