计算领域知识点的相关知识点的方法及系统技术方案

技术编号:13113186 阅读:61 留言:0更新日期:2016-04-01 09:06
本发明专利技术提供一种计算领域知识点的相关知识点的方法,首先获取领域知识点,再从参考文本中分词得到所有知识点,这些知识点中包含了领域知识点和其他知识点,然后依次为分词结果中的每个知识点建立索引,再根据所述每个知识点的索引和顺序,通过神经网络模型训练的方式,得到领域知识点的语义向量,从而将知识点的语义信息进行量化,通过数字化的方式来体现其语义特征,这样,在后续对知识点进行分析时,可以更加方便。然后,根据各个领域知识点的语义向量,确定领域知识点之间的相似度,然后根据该相似度的大小便能轻易的区分哪些是相关的知识点,根据需要选择相关知识点的个数。该方式计算简单方便,准确性高,适用于推荐、检索等方面。

【技术实现步骤摘要】

本专利技术涉及一种电数据加工处理领域,具体地说一种计算领域知识点的相关知识 点的方法。
技术介绍
数字出版资源已成为信息提供的主要方式之一。人们已从纸质阅读大量地转向电 子阅读。数字出版资源包含电子图书、数字百科全书、数字期刊、数字报刊等。数字出版资 源提供的信息通常比互联网更加权威和正确。因此,如何根据数字出版资源的特点提高人 们学习或阅读体验变得尤为重要。 在技术增强学习 (Technology Enhanced Learning)中,开发推荐系统越来越得到 更多的重视。但是,大部分的推荐系统使用用户的偏好或用户的历史访问数据进行计算,女口 中国专利文献CN101661483A中公开了一种推荐系统及方法,包括:保存从源历史数据集中 选择的部分源历史数据组成的样本历史数据集;建立样本历史数据集中的样本历史数据与 源历史数据集中的源历史数据之间的链接,每一个样本历史数据与每一个源历史数据之间 的链接具有各自的第一权值;基于用户当前输入的查询信息,从样本历史数据集中选择至 少一个样本历史数据组成第一推荐结果,第一推荐结果中的每个样本历史数据对于用户当 前输入的查询信息具有各自的第二权值;根据第一权值和第二权值从源历史数据中选择至 少一个源历史数据组成第二推荐结果。该方案基于用户的历史访问数据进行推荐,当数字 资源刚刚上线,没有阅读历史,不存在历史访问数据时,则无法完成上述推荐。 现有的数字资源中,存在一些汇集了多种知识信息的数据知识资源,如百科全书, 百科全书是一种数字出版资源,通常领域百科全书包含了该领域内的重要知识点。此外, 像百度百科、维基百科等,作为知识点收集库,也汇集了一些领域中的知识点。如何运用送 些现有的数字资源来解决更多问题也成为研究的热点。 Distributed words r 巧 resentat ions (分布式词语表不)在 Rume 化 ar, D. E.,Hinton, G. E.,Williams, R. J. :Learning Represenations by Back-propagating Errors.化1:山"6 323化088) ;pp533-536(1986)中首次提出,该思想将词语表示成连续向 量托〇]11:;[]111〇118 vectors),且在向量空间中,相似词语的距离更近。化6壯orward neural network(前馈神经网络)是用于学习词向量和语言模型的方法(见Bengio,Y. iDucharme, R.,Vincent, P. :A Neural Probabilistic Language Model. Journal of Machine Learning Research 3, ppl 137-1155 (2003))。近来,M;Lkolov提出 了使用 skip-gram或 CBOW 模型,通过在大量文本上训练简单的神经网络在短时间内得到词语向量。 本专利技术将利用该方法为知识点生成知识点向量,然后利用知识点向量计算知识点 的相似度,从而实现不通过历史访问数据为用户推荐知识点的目的。
技术实现思路
为此,本专利技术所要解决的技术问题在于现有技术中信息推荐具有局限性,且现有 的数字资源及语义向量的处理方法没有充分利用,从而提出一种获取语义向量的方法及其 在信息推荐中应用的确定相关知识点的方法及系统。 为解决上述技术问题,本专利技术的提供一种计算领域知识点的相关知识点的方法, 包括 获取领域知识点; 确定参考文本,根据所述领域知识点对所述参考文本进行分词,得到分词结果,将 所述分词结果中的词作为知识点,所述知识点包括所述领域知识点和其他知识点; 依次为分词结果中的每个知识点建立索引; 根据所述知识点的索引和所述知识点在参考文本中出现的顺序确定每个领域知 识点的语义向量; 对于每个领域知识点,根据其语义向量确定该领域知识点与其他领域知识点的相 似度; 根据所述相似度确定每个领域知识点的相关知识点。 本专利技术还提供一种一种计算领域知识点的相关知识点的系统,包括 提取单元;获取领域知识点; 分词单元;确定参考文本,根据所述领域知识点对所述参考文本进行分词,得到分 词结果,将所述分词结果中的词作为知识点,所述知识点包括所述领域知识点和其他知识 占. ;、、、? 索引单元:依次为分词结果中的每个知识点建立索引; 训练单元;根据所述知识点的索引和所述知识点的顺序确定每个领域知识点的语 义向量; 相似度计算单元;对于每个领域知识点,根据其语义向量确定该领域知识点与其 他领域知识点的相似度; 相关知识点计算单元:根据所述相似度确定每个领域知识点的相关知识点 本专利技术的上述技术方案相比现有技术具有W下优点, (1)本专利技术提供一种计算领域知识点的相关知识点的方法,首先获取领域知识点, 再从参考文本中分词得到所有知识点,送些知识点中包含了领域知识点和其他知识点,然 后依次为分词结果中的每个知识点建立索引,再根据所述每个知识点的索引和顺序,通过 神经网络模型训练的方式,得到领域知识点的语义向量,从而将知识点的语义信息进行量 化,通过数字化的方式来体现其语义特征,送样,在后续对知识点进行分析时,可W更加方 便。然后,根据各个领域知识点的语义向量,确定领域知识点之间的相似度,然后根据该相 似度的大小便能轻易的区分哪些是相关的知识点,根据需要选择相关知识点的个数。该方 式中将领域知识点的语义信息通过量化的方式来表示,然后通过数学运算的方式,来确定 哪些知识点更相关,该方式计算简单方便,且能根据语义间的相关程度,得出的相关知识点 具有更好的准确性,适用于推荐、检索等方面。 (2)本专利技术提供一种计算领域知识点的相关知识点的系统,包括将知识点的语义 信息进行量化,然后通过数学运算的方式,来确定哪些知识点更相关,该方式计算简单方 便,且能根据语义间的相关程度,得出的相关知识点具有更好的准确性,适用于推荐、检索 等方面。【附图说明】 为了使本专利技术的内容更容易被清楚的理解,下面根据本专利技术的具体实施例并结合 附图,对本专利技术作进一步详细的说明,其中 图1是本专利技术实施例1中计算领域知识点的相关知识点的方法的流程图; 图2是本专利技术实施例中神经网络模型的示意图;[002引图3是本专利技术实施例中计算领域知识点的相关知识点的系统结构框图。【具体实施方式】 连施例1: 知识点的语义向量是在向量空间中描述知识点的一种方式,通过获取知识点的语 义向量,可W使得知识点具有较强的可计算性,在文本检索、自动文摘、关键词自动提取、文 本分类等领域具有潜在的应用价值。 本实施例中提供一种借助语义向量来计算领域知识点的相关知识点的方法,包括 如下步骤:当前第1页1 2 3 4 本文档来自技高网
...

【技术保护点】
一种计算领域知识点的相关知识点的方法,其特征在于,包括获取领域知识点;确定参考文本,根据所述领域知识点对所述参考文本进行分词,得到分词结果,将所述分词结果中的词作为知识点,所述知识点包括所述领域知识点和其他知识点;依次为分词结果中的每个知识点建立索引;根据所述知识点的索引和所述知识点在参考文本中出现的顺序确定每个领域知识点的语义向量;对于每个领域知识点,根据其语义向量确定该领域知识点与其他领域知识点的相似度;根据所述相似度确定每个领域知识点的相关知识点。

【技术特征摘要】

【专利技术属性】
技术研发人员:叶茂汤帜徐剑波马佳乐杨亮
申请(专利权)人:北大方正集团有限公司北京方正阿帕比技术有限公司北京大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1