【技术实现步骤摘要】
一种实体链接方法及装置
本专利技术涉及知识管理和数字出版领域,具体涉及一种实体链接方法及装置。
技术介绍
互联网的迅猛发展使得数字资源随处可见,接触频率最高的信息载体就是文字信息,如新闻、博客、评论等。同时,随着生活节奏的加快,用户对高效阅读的需求更加强烈,数字资源内包含有大量具有明确语义信息的文本实体,如何在文本中高效地获取出实体并加以利用是具有现实意义的事情。特别地,实体链接正是利用实体的流程中最为关键的步骤之一。例如,通过分析用户浏览或者分享的数字资源来提取实体并进行知识库链接,将链接过的实体作为关键字或者标签,为用户进行更精准的兴趣建模;再如,在数字资源中增加针对实体的、用户可能感兴趣的内容链接,这些链接可能指向实体相关概念解释或者指向另一篇以此实体为主题的新闻,从而提升用户阅读体验。现有的实体链接方法主要包括以下几类:一类是根据具体应用制定一些特殊的规则进行语义消歧,该类方法在变换场景时很难取得较好的效果。第二类是基于文本中实体和链接的特点构造语义网络,通过网络节点的距离、出度、入度等作为特征进一步设计相似度衡量指标,从而实现语义消歧,该类方法在数据规模 ...
【技术保护点】
一种实体链接方法,其特征在于,包括:获取数字资源的待链接实体集合,对所述实体集合中的每个实体在给定知识库中生成所述每个实体对应的候选实体集合;根据候选实体集合中每个候选实体的精确属性、模糊属性和相关实体,计算每个实体与该实体对应的候选实体集合中的每个候选实体的相关度;根据当前实体与其各候选实体的相关度大小和该实体对应的候选实体的数量,得到当前实体的链接实体。
【技术特征摘要】
1.一种实体链接方法,其特征在于,包括:获取数字资源的待链接实体集合,对所述实体集合中的每个实体在给定知识库中生成所述每个实体对应的候选实体集合;根据候选实体集合中每个候选实体的精确属性、模糊属性和相关实体,计算每个实体与该实体对应的候选实体集合中的每个候选实体的相关度;根据当前实体与其各候选实体的相关度大小和该实体对应的候选实体的数量,得到当前实体的链接实体。2.根据权利要求1所述的方法,其特征在于,所述根据当前实体与其各候选实体的相关度大小和该实体对应的候选实体的数量,得到当前实体的链接实体之后,还包括:根据每个链接实体的相关实体集合,对数字资源进行补充实体链接。3.根据权利要求2所述的方法,其特征在于,所述根据候选实体集合中每个候选实体的精确属性、模糊属性和相关实体,计算每个实体与该实体对应的候选实体集合中的每个候选实体的相关度,包括:根据每个候选实体的每个精确属性,若当前精确属性在数字资源中存在相似或相同的词语,则当前实体与当前候选实体的相关度增加第一预设值;其中,当前实体与当前候选实体的相关度的初始值为0,当前候选实体的所有精确属性计算结束后的相关度为第一相关度;根据每个候选实体的每个模糊属性,若当前模糊属性在数字资源中存在相同的词语,或存在相似的词语且精确属性的数量大于第二预设值,则当前实体与当前候选实体的相关度增加0.5倍的第一预设值;若当前模糊属性在数字资源中存在相似的词语且精确属性的数量小于等于第二预设值,则当前实体与当前候选实体的相关度根据以下公式一计算得到:公式一其中,Si,j表示当前实体与当前候选实体的相关度,O表示当前候选实体的精确属性的数量,score表示第一预设值,σ表示第二预设值;根据每个候选实体的每个相关实体,若当前相关实体在数字资源中存在相同的词语且所述第一相关度大于等于所述第一预设值,则当前实体与当前候选实体的相关度增加0.5倍的第一预设值;若当前相关实体在数字资源中存在相同的词语且所述第一相关度小于所述第一预设值,则当前实体与当前候选实体的相关度增加0.25倍的第一预设值。4.根据权利要求3所述的方法,其特征在于,所述根据当前实体与其各候选实体的相关度大小和该实体对应的候选实体的数量,得到当前实体的链接实体,包括:若当前实体对应的候选实体集合中的候选实体数量为0,则当前实体的链接实体为空;若当前实体对应的候选实体集合中的候选实体数量为1且当前实体与当前候选实体的相关度大于等于3倍的第一预设值,则当前实体的链接实体为当前候选实体;若当前实体对应的候选实体集合中的候选实体数量大于1且当前实体包含相关度大于等于3倍的第一预设值的候选实体,则当前实体的链接实体为相关度最大的候选实体。5.根据权利要求4所述的方法,其特征在于,所述根据每个链接实体的相关实体集合,对数字资源进行补充实体链接,包括:获取所有链接实体的相关实体,若数字资源中存在与当前相关实体相同的字符串且该字符串长度大于2,或该字符串长度小于等于2且当前相关实体与该字符串的相关度大于等于3...
【专利技术属性】
技术研发人员:许茜,叶茂,任彩红,徐剑波,汤帜,
申请(专利权)人:北大方正集团有限公司,北京大学,北京方正阿帕比技术有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。