核心实体确定方法及其系统、服务器和计算机可读介质技术方案

技术编号:22055743 阅读:24 留言:0更新日期:2019-09-07 15:25
本公开提供了一种面向文本文档的核心实体确定方法,包括:确定待处理文本文档中所包含的实体,以作为目标实体;从预定知识图谱中分别抽取出各目标实体的实体边关系和实体属性,并针对每一个目标实体,根据该目标实体的实体边关系和实体属性生成该目标实体对应的语义信息,并基于该目标实体所对应的语义信息生成该目标实体的语义特征;针对每一个目标实体,根据至少该目标实体的语义特征,生成该目标实体的特征向量;针对每一个目标实体,将该目标实体的特征向量输入至预定核心实体分类模型中以得到分类结果,并基于分类结果确定出该目标实体为核心实体或非核心实体。本公开还提供了一种面向文本文档的核心实体确定系统、服务器和计算机可读介质。

Core entity determination methods and systems, servers and computer readable media

【技术实现步骤摘要】
核心实体确定方法及其系统、服务器和计算机可读介质
本专利技术涉及大数据处理领域,特别涉及一种核心实体确定方法及其系统、服务器和计算机可读介质。
技术介绍
核心实体确定技术(也称为核心实体标注技术)能够从文本资源中提取出文章资源所主要描述的核心实体信息,从而能帮助用户更好的理解网页文本资源或者根据用户的意图推荐更符合用户需求的文本资源。此前,主要通过文本关键词提取的方法来提取文本文档中能够描述文本文档核心内容的关键词,并将这些关键词作为核心实体,预期这些关键词能够准确地反映其主要内容。然而,在实际应用中发现,现有技术所提取出的关键词并不能很好的对文本文档中的实体进行覆盖,同时无法判断关键词是否为实体以及关键词到实体的链接关系,从而缺失关键词的语义信息,难以满足不同的应用需求。
技术实现思路
本专利技术旨在至少解决现有技术中存在的技术问题之一,提出了一种核心实体确定方法及其系统、服务器和计算机可读介质。第一方面,本公开实施例提供了一种面向文本文档的核心实体确定方法,包括:确定待处理文本文档中所包含的实体,以作为目标实体;从预定知识图谱中分别抽取出各所述目标实体的实体边关系和实体属性,并针对每一个所述目标实体,根据该目标实体的所述实体边关系和实体属性生成该目标实体对应的语义信息,并基于该目标实体所对应的所述语义信息生成该目标实体的语义特征;针对每一个所述目标实体,根据至少该目标实体的语义特征,生成该目标实体的特征向量;针对每一个所述目标实体,将该目标实体的特征向量输入至预定核心实体分类模型中以得到分类结果,并基于所述分类结果确定出该目标实体为核心实体或非核心实体。在一些实施例中,所述确定待处理文本文档中所包含的实体的步骤包括:采用预定词提取算法从所述待处理文本文档中提取出提及词;针对每一个所述提及词,将该提及词与预定知识图谱进行链接,并基于链接结果确定出该提及词为实体或非实体。在一些实施例中,所述针对每一个所述目标实体,根据至少该目标实体的语义特征,生成该目标实体的特征向量的步骤之前还包括:采用预定切分算法对所述待处理文本文档进行切分,以得到多个待处理句子;采用预定文本排序算法对全部所述待处理句子进行排序,并根据排序结果生成各所述待处理句子的句子排序特征;所述根据至少该目标实体的语义特征,生成该目标实体的特征向量的步骤具体包括:根据至少该目标实体的语义特征和该目标实体所归属的所述待处理句子的所述句子排序特征,生成该目标实体的特征向量。在一些实施例中,所述针对每一个所述目标实体,根据至少该目标实体的语义特征,生成该目标实体的特征向量的步骤之前还包括:针对每一个所述目标实体,采用预定词转换向量算法该目标实体进行转换处理,以生成该目标实体对应的词转换向量;针对每一个所述目标实体,计算该目标实体的词转换向量与其他各目标实体的词转换向量之间的余弦相似度,并基于计算结果构建出该目标实体所对应的第一余弦相似度向量;所述根据至少该目标实体的语义特征,生成该目标实体的特征向量的步骤具体包括:根据至少该目标实体的语义特征和该目标实体所对应的词转换特征,生成该目标实体的特征向量;其中,该目标实体所对应的词转换特征包括:该目标实体对应的词转换向量和该目标实体所对应的第一余弦相似度向量。在一些实施例中,所述针对每一个所述目标实体,根据至少该目标实体的语义特征,生成该目标实体的特征向量的步骤之前还包括:针对每一个所述目标实体,从所述预定知识图谱中抽取出该所述目标实体的实体属性,并基于抽取出的实体属性构建出该目标实体所对应的实体转换向量;针对每一个所述目标实体,计算该目标实体的实体转换向量与其他各目标实体的实体转换向量之间的余弦相似度,并基于计算结果生成该目标实体所对应的第二余弦相似度向量;所述根据至少该目标实体的语义特征,生成该目标实体的特征向量的步骤具体包括:根据至少该目标实体的语义特征和该目标实体所对应的实体转换特征,生成该目标实体的特征向量;其中,该目标实体所对应的实体转换特征包括:该目标实体对应的实体转换向量和该目标实体所对应的第二余弦相似度向量。在一些实施例中,所述针对每一个所述目标实体,根据至少该目标实体的语义特征,生成该目标实体的特征向量的步骤之前还包括:采用预定切分算法对所述待处理文本文档进行切分,以得到多个待处理句子;针对每一个所述待处理句子,采用预定依存句法分析算法对该待处理句子进行分析,以生成该待处理句子所对应的依存句法特征;所述根据至少该目标实体的语义特征,生成该目标实体的特征向量的步骤具体包括:根据至少该目标实体的语义特征和该目标实体所归属的所述待处理句子所对应的依存句法特征,生成该目标实体的特征向量。在一些实施例中,所述针对每一个所述目标实体,根据至少该目标实体的语义特征,生成该目标实体的特征向量的步骤之前还包括:针对每一个所述目标实体,获取该目标实体在所述待处理文本文档中的统计特征;所述根据至少该目标实体的语义特征,生成该目标实体的特征向量的步骤具体包括:根据至少该目标实体的语义特征和该目标实体所对应的统计特征,生成该目标实体的特征向量。在一些实施例中,所述统计特征包括:该目标实体的词频数值和/或该目标实体的频率-逆文本频率指数值。在一些实施例中,所述预定核心实体分类模型为XGBoost分类模型。第二方面,本公开实施例提供了一种面向文本文档的核心实体确定系统,包括:第一确定模块,用于确定待处理文本文档中所包含的实体,以作为目标实体;第一抽取模块,从预定知识图谱中分别抽取出各所述目标实体的实体边关系和实体属性,并针对每一个所述目标实体,根据该目标实体的所述实体边关系和实体属性生成该目标实体对应的语义信息,并基于该目标实体所对应的所述语义信息生成该目标实体的语义特征;第一生成模块,用于针对每一个所述目标实体,根据至少该目标实体的语义特征,生成该目标实体的特征向量;第二确定模块,用于针对每一个所述目标实体,将该目标实体的特征向量输入至预定核心实体分类模型中以得到分类结果,并基于所述分类结果确定出该目标实体为核心实体或非核心实体。在一些实施例中,所述第一确定模块包括:提取单元,用于采用预定词提取算法从所述待处理文本文档中提取出提及词;链接单元,用于针对每一个所述提及词,将该提及词与预定知识图谱进行链接,并基于链接结果确定出该提及词为实体或非实体。在一些实施例中,还包括:切分模块,用于采用预定切分算法对所述待处理文本文档进行切分,以得到多个待处理句子;排序模块,用于采用预定文本排序算法对全部所述待处理句子进行排序,并根据排序结果生成各所述待处理句子的句子排序特征;所述第一生成模块具体用于针对每一个所述目标实体,根据至少该目标实体的语义特征和该目标实体所归属的所述待处理句子的所述句子排序特征,生成该目标实体的特征向量。在一些实施例中,还包括:转换模块,用于针对每一个所述目标实体,采用预定词转换向量算法该目标实体进行转换处理,以生成该目标实体对应的词转换向量;第一计算模块,用于针对每一个所述目标实体,计算该目标实体的词转换向量与其他各目标实体的词转换向量之间的余弦相似度,并基于计算结果构建出该目标实体所对应的第一余弦相似度向量;所述第一生成模块具体用于针对每一个所述目标实体,根据至少该目标实体的语义特征和该目标实体所本文档来自技高网...

【技术保护点】
1.一种面向文本文档的核心实体确定方法,其特征在于,包括:确定待处理文本文档中所包含的实体,以作为目标实体;从预定知识图谱中分别抽取出各所述目标实体的实体边关系和实体属性,并针对每一个所述目标实体,根据该目标实体的所述实体边关系和实体属性生成该目标实体对应的语义信息,并基于该目标实体所对应的所述语义信息生成该目标实体的语义特征;针对每一个所述目标实体,根据至少该目标实体的语义特征,生成该目标实体的特征向量;针对每一个所述目标实体,将该目标实体的特征向量输入至预定核心实体分类模型中以得到分类结果,并基于所述分类结果确定出该目标实体为核心实体或非核心实体。

【技术特征摘要】
1.一种面向文本文档的核心实体确定方法,其特征在于,包括:确定待处理文本文档中所包含的实体,以作为目标实体;从预定知识图谱中分别抽取出各所述目标实体的实体边关系和实体属性,并针对每一个所述目标实体,根据该目标实体的所述实体边关系和实体属性生成该目标实体对应的语义信息,并基于该目标实体所对应的所述语义信息生成该目标实体的语义特征;针对每一个所述目标实体,根据至少该目标实体的语义特征,生成该目标实体的特征向量;针对每一个所述目标实体,将该目标实体的特征向量输入至预定核心实体分类模型中以得到分类结果,并基于所述分类结果确定出该目标实体为核心实体或非核心实体。2.根据权利要求1所述的方法,其特征在于,所述确定待处理文本文档中所包含的实体的步骤包括:采用预定词提取算法从所述待处理文本文档中提取出提及词;针对每一个所述提及词,将该提及词与预定知识图谱进行链接,并基于链接结果确定出该提及词为实体或非实体。3.根据权利要求1所述的方法,其特征在于,所述针对每一个所述目标实体,根据至少该目标实体的语义特征,生成该目标实体的特征向量的步骤之前还包括:采用预定切分算法对所述待处理文本文档进行切分,以得到多个待处理句子;采用预定文本排序算法对全部所述待处理句子进行排序,并根据排序结果生成各所述待处理句子的句子排序特征;所述根据至少该目标实体的语义特征,生成该目标实体的特征向量的步骤具体包括:根据至少该目标实体的语义特征和该目标实体所归属的所述待处理句子的所述句子排序特征,生成该目标实体的特征向量。4.根据权利要求1所述的方法,其特征在于,所述针对每一个所述目标实体,根据至少该目标实体的语义特征,生成该目标实体的特征向量的步骤之前还包括:针对每一个所述目标实体,采用预定词转换向量算法该目标实体进行转换处理,以生成该目标实体对应的词转换向量;针对每一个所述目标实体,计算该目标实体的词转换向量与其他各目标实体的词转换向量之间的余弦相似度,并基于计算结果构建出该目标实体所对应的第一余弦相似度向量;所述根据至少该目标实体的语义特征,生成该目标实体的特征向量的步骤具体包括:根据至少该目标实体的语义特征和该目标实体所对应的词转换特征,生成该目标实体的特征向量;其中,该目标实体所对应的词转换特征包括:该目标实体对应的词转换向量和该目标实体所对应的第一余弦相似度向量。5.根据权利要求1所述的方法,其特征在于,所述针对每一个所述目标实体,根据至少该目标实体的语义特征,生成该目标实体的特征向量的步骤之前还包括:针对每一个所述目标实体,从所述预定知识图谱中抽取出该所述目标实体的实体属性,并基于抽取出的实体属性构建出该目标实体所对应的实体转换向量;针对每一个所述目标实体,计算该目标实体的实体转换向量与其他各目标实体的实体转换向量之间的余弦相似度,并基于计算结果生成该目标实体所对应的第二余弦相似度向量;所述根据至少该目标实体的语义特征,生成该目标实体的特征向量的步骤具体包括:根据至少该目标实体的语义特征和该目标实体所对应的实体转换特征,生成该目标实体的特征向量;其中,该目标实体所对应的实体转换特征包括:该目标实体对应的实体转换向量和该目标实体所对应的第二余弦相似度向量。6.根据权利要求1所述的方法,其特征在于,所述针对每一个所述目标实体,根据至少该目标实体的语义特征,生成该目标实体的特征向量的步骤之前还包括:采用预定切分算法对所述待处理文本文档进行切分,以得到多个待处理句子;针对每一个所述待处理句子,采用预定依存句法分析算法对该待处理句子进行分析,以生成该待处理句子所对应的依存句法特征;所述根据至少该目标实体的语义特征,生成该目标实体的特征向量的步骤具体包括:根据至少该目标实体的语义特征和该目标实体所归属的所述待处理句子所对应的依存句法特征,生成该目标实体的特征向量。7.根据权利要求1所述的方法,其特征在于,所述针对每一个所述目标实体,根据至少该目标实体的语义特征,生成该目标实体的特征向量的步骤之前还包括:针对每一个所述目标实体,获取该目标实体在所述待处理文本文档中的统计特征;所述根据至少该目标实体的语义特征,生成该目标实体的特征向量的步骤具体包括:根据至少该目标实体的语义特征和该目标实体所对应的统计特征,生成该目标实体的特征向量。8.根据权利要求7所述的方法,其特征在于,所述统计特征包括:该目标实体的词频数值和/或该目标实体的频率-逆文本频率指数值。9.根据权利要求1-8中任一所述的方法,其特征在于,所述预定核心实体分类模型为X...

【专利技术属性】
技术研发人员:王述任可欣冯知凡张扬朱勇
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1