一种标注文字链的方法、装置、服务器及介质制造方法及图纸

技术编号:21629274 阅读:27 留言:0更新日期:2019-07-17 11:12
本发明专利技术实施例公开了一种标注文字链的方法、装置、服务器及介质。所述方法包括:依据目标文档所属领域的所有知识点确定所述目标文档中包含的各目标知识点;依据各目标知识点在所述目标文档中的词频以及各目标知识点的逆向文件频率,确定各目标知识点的权重;依据各目标知识点的权重对各目标知识点进行筛选,并对所述目标文档中筛选后的目标知识点构建文字链。本发明专利技术实施例模型简单,对计算性能要求较低,解决了冷启动的问题,并提高了构建文字链的准确度和效率。

A Method, Device, Server and Media for Marking Text Chain

【技术实现步骤摘要】
一种标注文字链的方法、装置、服务器及介质
本专利技术实施例涉及通信自然语言处理、互联网应用
,尤其涉及一种标注文字链的方法、装置、服务器及介质。
技术介绍
随着互联网化浪潮的发展,互联网上出现越来越多的网页、文档、博客等文字内容。如何给用户呈现更优质的内容,让用户找到想找的内容,是目前迫切需要解决的问题之一。文字链是用来解决用户对文档内容中想了解的知识做进一步解读的需求。文字链可以提高内容的分发效率,用户点击文字链可以进入下一个网页,该网页包含与文字链知识相关的文档和该知识的释义。构建教育行业知识图谱是教育产品提供结构化内容的基础。文字链是知识图谱在文库产品上的应用之一。打开一篇文档,飘绿的文字即为文字链,点击该文字链内容可以进入跟该词条相关的内容推荐页面。目前主要通过如下方式构建文字链:利用用户的点击行为数据计算出权值高的实体或名称作为文字链;计算词与文字标题的相似度得到权值高的词作为文字链;利用图算法对词做权值计算,将权值高的词作为文字链。但是,现有方法存在如下问题:缺乏用户交互行为数据导致的冷启动;目前的权重确定模型复杂,计算性能要求较高,调参时间较长,无法满足互联网产品快速迭代的需求;以及基于实体挖掘的方法构建文字链效率低下。
技术实现思路
本专利技术实施例提供一种标注文字链的方法、装置、服务器及介质,可以提高构建文字链的准确度和效率。第一方面,本专利技术实施例提供了一种标注文字链的方法,包括:依据目标文档所属领域的所有知识点确定所述目标文档中包含的各目标知识点;依据各目标知识点在所述目标文档中的词频以及各目标知识点的逆向文件频率,确定各目标知识点的权重;依据各目标知识点的权重对各目标知识点进行筛选,并对所述目标文档中筛选后的目标知识点构建文字链。第二方面,本专利技术实施例还提供了一种标注文字链的装置,包括:目标知识点模块,用于依据目标文档所属领域的所有知识点确定所述目标文档中包含的各目标知识点;权重确定模块,用于依据各目标知识点在所述目标文档中的词频以及各目标知识点的逆向文件频率,确定各目标知识点的权重;文字链模块,用于依据各目标知识点的权重对各目标知识点进行筛选,并对所述目标文档中筛选后的目标知识点构建文字链。第三方面,本专利技术实施例还提供了一种服务器,所述服务器包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的标注文字链的方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的标注文字链的方法。本专利技术实施例依据目标文档所属领域的所有知识点确定所述目标文档中包含的各目标知识点,并依据各目标知识点在所述目标文档中的词频以及各目标知识点的逆向文件频率,确定各目标知识点的权重,然后依据上述确定的权重对各目标知识点进行筛选,并对所述目标文档中筛选后的目标知识点构建文字链。由于本专利技术实施例中文字链的构建模型简单,对计算性能要求较低,解决了冷启动的问题,并提高了构建文字链的准确度和效率。附图说明图1是本专利技术实施例一中的一种标注文字链的方法的流程图;图2是本专利技术实施例二中的一种标注文字链的方法的流程图;图3是本专利技术实施例二中的知识图谱中实体作为知识点的示意图;图4是本专利技术实施例三中的一种标注文字链的装置的结构示意图;图5是本专利技术实施例四中的服务器的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1为本专利技术实施例一提供的一种标注文字链的方法的流程图,本实施例可适用于标注文字链情况,该方法可以由标注文字链的装置来执行,该装置可以采用软件和/或硬件的方式实现,例如,该装置可配置于服务器中。如图1所示,该方法具体可以包括:步骤110、依据目标文档所属领域的所有知识点确定所述目标文档中包含的各目标知识点。在本实施例中,可选的是从领域数据中选择其中一个领域中的文档作为目标文档,所述目标文档是通过开放式分类目录搜索系统(OpenDirectoryProject,ODP)拉取文档内容的。示例性的,所述目标文档的数量为一千万篇左右,包括约130万个知识点。知识点的来源为目标文档所属领域的知识图谱中的实体。知识图谱是以实体、概念作为节点,以语义关系作为边的语义网络,本质上是一张由知识点相互连接而成的语义网络。通俗地讲,知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络。具体的,首先读取目标文档所属领域所有知识点的集合,利用切词工具加载所有知识点作为字典,并采用非精确模式切词,确定目标文档中包含的各目标知识点,并统计各目标知识点的频数。需要说明的是,为了提高后续目标文档中文字链的构建效率,可以预先依据属于特定领域的所有知识点,利用切词工具对特定领域中包含的所有文档进行知识点预标注,确定所有文档中包含的知识点,在确定了目标文档后可以快速得到目标文档中包含的目标知识点。步骤120、依据各目标知识点在所述目标文档中的词频以及各目标知识点的逆向文件频率,确定各目标知识点的权重。在本实施例中,目标知识点的权重用于表征目标知识点对于目标文档的重要程度。词频(TermFrequency,TF)为各目标知识点在所述目标文档中出现的频数,依据如下公式确定词频:其中,dn,m是第n个目标知识点在目标文档Em中出现的次数,∑kdk,是目标文档Em中各目标知识点的出现次数之和,n=1,…,N,N是目标文档中目标知识点的总数量,m=1,…,M,M是所有目标文档的总数量,k=1,…,N,N是目标文档Em中所有目标知识点的总数量。所述逆向文件频率(InverseDocumentFrequency,IDF)是一个词语普遍重要性的度量。依据如下公式确定逆向文件频率:其中,M是所有目标文档的总数量,En是包含第n个目标知识点的文档数量,n=1,…,N,N是目标文档中各目标知识点的数量。步骤130、依据各目标知识点的权重对各目标知识点进行筛选,并对所述目标文档中筛选后的目标知识点构建文字链。其中,依据各目标知识点的权重,可以将各目标知识点的按从大到小的顺序进行排列,将预设范围内的目标知识点筛选出来作为文字链知识点。其中,预设范围可以根据实际情况自定义,比如可以是5,将权值大的前5个知识点筛选出来作为文字链知识点。本实施例的技术方案,依据目标文档所属领域的所有知识点确定所述目标文档中包含的各目标知识点,并依据各目标知识点在所述目标文档中的词频以及各目标知识点的逆向文件频率,确定各目标知识点的权重,然后依据上述确定的权重对各目标知识点进行筛选,并对所述目标文档中筛选后的目标知识点构建文字链。由于本专利技术实施例是基于已有的知识点的集合来实现的,模型简单,对计算性能要求较低,解决了冷启动的问题,并提高了构建文字链的准确度和效率。实施例二图2为本专利技术实施例二中的一种标注文字链的方法的流程图。本实施例在上述实施例的基础上,进一步优化了上述标注文字链的方法。相应的,如图2所示,本实施例的方法具体可以包括:步骤210、将目标文档所属本文档来自技高网...

【技术保护点】
1.一种标注文字链的方法,其特征在于,包括:依据目标文档所属领域的所有知识点确定所述目标文档中包含的各目标知识点;依据各目标知识点在所述目标文档中的词频以及各目标知识点的逆向文件频率,确定各目标知识点的权重;依据各目标知识点的权重对各目标知识点进行筛选,并对所述目标文档中筛选后的目标知识点构建文字链。

【技术特征摘要】
1.一种标注文字链的方法,其特征在于,包括:依据目标文档所属领域的所有知识点确定所述目标文档中包含的各目标知识点;依据各目标知识点在所述目标文档中的词频以及各目标知识点的逆向文件频率,确定各目标知识点的权重;依据各目标知识点的权重对各目标知识点进行筛选,并对所述目标文档中筛选后的目标知识点构建文字链。2.根据权利要求1所述的方法,其特征在于,所述依据各目标知识点在所述目标文档中的词频以及各目标知识点的逆向文件频率,确定各目标知识点的权重,包括:将各目标知识点在所述目标文档中的词频与各目标知识点的逆向文件频率的乘积,作为各目标知识点与所述目标文档的相关度;依据各目标知识点与所述目标文档的相关度,以及各目标知识点的信息量,确定各目标知识点的权重。3.根据权利要求1所述的方法,其特征在于,所述依据各目标知识点在所述目标文档中的词频以及各目标知识点的逆向文件频率,确定各目标知识点的权重,包括:将各目标知识点在所述目标文档中的词频与各目标知识点的逆向文件频率的乘积,作为各目标知识点与所述目标文档的相关度;依据各目标知识点与所述目标文档的相关度,各目标知识点的信息量,以及各目标知识点与目标文档标题的相似度,确定各目标知识点的权重。4.根据权利要求2或3所述的方法,其特征在于,所述各目标知识点的信息量的确定包括:依据如下公式确定各目标知识点的信息量:Ie=log2(len(e))其中,e是目标知识点,Ie是e的信息量,len(e)是e的长度。5.根据权利要求1所述的方法,其特征在于,所述目标文档所属领域的所有知识点的确定包括:将目标文档所属领域的知识图谱中的所有实体作为所述目标文档所属领域的所有知识点。6.一种文字链的装置,其特征在于,包括:目标知识点模块,用于依据目标文档所属领域的所有知识点确定所述目标文档中包含的各目标知识点;权重确定模块,用于依据各...

【专利技术属性】
技术研发人员:许瑾
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1