一种确定关键词上下文窗口的混合方法技术

技术编号：15267585 阅读：158 留言：0更新日期：2017-05-04 02:17

一种确定关键词上下文窗口的混合方法，初始化统计方法模块，通过求解输入的关键词C相邻的上下文中每个位置的权重贡献值进行归一化曲线处理，最后计算出关键词C语境中上下文窗口的左右窗口n值，根据n值计算出上下文窗口的左右窗口值。本发明专利技术对上下文语境有效范围的确定提供了非常有价值的定量化的描述，克服了前人主观描述的不足；上下文对关键词的描述能力相对位置由近及远逐渐递减，符合人们一般认识；为更好的解决词语、句子相似度计算提供了极为有价值的理论基础；权重贡献值的线性与信噪比要更好，易于后续计算简便；权重贡献值的归一化曲线准确率更高；考虑了关键词左右窗口中的句子成分关系对上下文有效窗口界定的影响。

A hybrid method for determining keyword context window

A hybrid method of keyword context window module, initialization of statistical methods, processing curve normalized value by weighting the contribution of each position for the input keywords in the context of the adjacent C, and finally calculate the N window around the context window in the context of the C keyword value, according to the N calculated from the context window window around the value. Provides a quantitative description of great value to determine the context of the effective range of the invention overcomes the shortcomings of previous subjective description; the relative position of the ability to describe the keywords from the near to the distant context gradually decreasing, people with general knowledge; for a better solution of words, sentence similarity calculation provides a very valuable theoretical foundation; linear and signal-to-noise ratio to better weight contribution value, easy to follow simple calculation; normalized curve weight contribution value is more accurate; considering the influence relationship between sentence elements in the context of keyword window around the effective window defined.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语义网络
，具体涉及一种确定关键词上下文窗口的混合方法。
技术介绍
自从进入21世纪以来，全球的互联网行业进入了一个高速发展的新时期，各种新技术不断涌现出来。作为联系计算机与人之间重要技术的自然语言处理也取得了长足的发展。国内外对词语语义相似度的计算方法大体可以分为两类：第一，基于语义词典的词语语义相似度计算方法，这种方法简单有效、易于理解，但是它依赖于比较完备的按照概念间结构层次关系组织的大型语义词典；第二，基于语料库的词语语义相似度计算方法，这种方法利用大规模语料库，将词语的上下文信息作为语义相似度计算的参照依据。基于语料库的方法建立在两个词语语义相似当且仅当它们处于相似的上下文环境中这一假设的基础上。词语的上下文是语料库语言学中自然语言知识获取和解决自然语言处理中多种实际应用问题依靠的资源和基础，但上下文“窗口”开多大为宜，为克服当前仅凭主观经验或通过某一特定应用问题中最终结果正确率界定上下文有效范围的不足以及关键词左右窗口中的句子成分关系对上下文有效窗口界定的影响，本专利技术提供一种确定关键词上下文窗口的混合方法。
技术实现思路
针对当前仅凭主观经验或通过某一特定应用问题中最终结果正确率界定上下文有效范围的不足以及关键词左右窗口中的句子成分关系对上下文有效窗口界定的影响，本专利技术提供一种确定关键词上下文窗口的混合方法。为了解决上述问题，本专利技术是通过以下技术方案实现的：步骤1：初始化统计方法模块，即语料库或文本。步骤2：将关键词C输入初始化统计方法模块或文本中。步骤3：分别求解关键词C相邻的上下文本中每个位置的权重贡献值wei...
一种确定关键词上下文窗口的混合方法

【技术保护点】
一种确定关键词上下文窗口的混合方法，本专利技术涉及语义网络技术领域，具体涉及一种确定关键词上下文窗口的混合方法，其特征是，包括如下步骤：步骤1：初始化统计方法模块，即语料库或文本步骤2：将关键词C输入初始化统计方法模块或文本中步骤3：分别求解关键词C相邻的上下文本中每个位置的权重贡献值步骤4：对关键词C语境中上下文词位置的权重贡献值进行归一化曲线处理步骤5：基于上下文信息损失量计算关键词C语境中上下文窗口的左右窗口n值步骤6：在步骤5关键词C语境中上下文窗口的左右窗口n值条件下，基于上下文成分关系计算关键词语境中上下文窗口的左右窗口值。

【技术特征摘要】
2016.07.25 CN 201610589753X1.一种确定关键词上下文窗口的混合方法，本发明涉及语义网络技术领域，具体涉及一种确定关键词上下文窗口的混合方法，其特征是，包括如下步骤：步骤1：初始化统计方法模块，即语料库或文本步骤2：将关键词C输入初始化统计方法模块或文本中步骤3：分别求解关键词C相邻的上下文本中每个位置的权重贡献值步骤4：对关键词C语境中上下文词位置的权重贡献值进行归一化曲线处理步骤5：基于上下文信息损失量计算关键词C语境中上下文窗口的左右窗口n值步骤6：在步骤5关键词C语境中上下文窗口的左右窗口n值条件下，基于上下文成分关系计算关键词语境中上下文窗口的左右窗口值。2.根据权利要求1中所述的一种确定关键词上下文窗口的混合方法，其特征是，以上所述步骤3的具体实施步骤如下：步骤3：分别求解关键词C相邻的上下文本中每个位置的相对权重贡献值需先知位置信息关键词权重值与上下文位置权重值其具体计算过程如下：3.1）先假设关键词C上下文语境的位置信息在一定规模语料库的基础上，选取一定规模和具有一定覆盖面的关键词，并从语料中提取每个关键词C上下文左右各n个位置的上下文词语构成其“关键词上下文矩阵”，其矩阵如下所示：上式矩阵行i为第i个上下文语境，列为关键词上下文左边n个位置，列为关键词上下文右边n个位置，为第i个上下文语境中第几个位置词3.2）计算关键词C在语料库或文本中的权重值上式为在第i语境中关键词C的概率值，关键词所在语境的个数为m，为关键词C在m个语境中权重的均值3.3）计算每个上下文位置对关键词C的权重值上式分别为第i语境中位置为j时的上下文词对关键词的权重贡献值，为每个上下文位置已知对应的关键词C的条件统计概率，这个基于语料库可以很容...

【专利技术属性】
技术研发人员：金平艳，胡成华，
申请(专利权)人：四川用联信息技术有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人