一种确定关键词上下文窗口的混合方法技术

技术编号:15267585 阅读:158 留言:0更新日期:2017-05-04 02:17
一种确定关键词上下文窗口的混合方法,初始化统计方法模块,通过求解输入的关键词C相邻的上下文中每个位置的权重贡献值进行归一化曲线处理,最后计算出关键词C语境中上下文窗口的左右窗口n值,根据n值计算出上下文窗口的左右窗口值。本发明专利技术对上下文语境有效范围的确定提供了非常有价值的定量化的描述,克服了前人主观描述的不足;上下文对关键词的描述能力相对位置由近及远逐渐递减,符合人们一般认识;为更好的解决词语、句子相似度计算提供了极为有价值的理论基础;权重贡献值的线性与信噪比要更好,易于后续计算简便;权重贡献值的归一化曲线准确率更高;考虑了关键词左右窗口中的句子成分关系对上下文有效窗口界定的影响。

A hybrid method for determining keyword context window

A hybrid method of keyword context window module, initialization of statistical methods, processing curve normalized value by weighting the contribution of each position for the input keywords in the context of the adjacent C, and finally calculate the N window around the context window in the context of the C keyword value, according to the N calculated from the context window window around the value. Provides a quantitative description of great value to determine the context of the effective range of the invention overcomes the shortcomings of previous subjective description; the relative position of the ability to describe the keywords from the near to the distant context gradually decreasing, people with general knowledge; for a better solution of words, sentence similarity calculation provides a very valuable theoretical foundation; linear and signal-to-noise ratio to better weight contribution value, easy to follow simple calculation; normalized curve weight contribution value is more accurate; considering the influence relationship between sentence elements in the context of keyword window around the effective window defined.

【技术实现步骤摘要】

本专利技术涉及语义网络
,具体涉及一种确定关键词上下文窗口的混合方法
技术介绍
自从进入21世纪以来,全球的互联网行业进入了一个高速发展的新时期,各种新技术不断涌现出来。作为联系计算机与人之间重要技术的自然语言处理也取得了长足的发展。国内外对词语语义相似度的计算方法大体可以分为两类:第一,基于语义词典的词语语义相似度计算方法,这种方法简单有效、易于理解,但是它依赖于比较完备的按照概念间结构层次关系组织的大型语义词典;第二,基于语料库的词语语义相似度计算方法,这种方法利用大规模语料库,将词语的上下文信息作为语义相似度计算的参照依据。基于语料库的方法建立在两个词语语义相似当且仅当它们处于相似的上下文环境中这一假设的基础上。词语的上下文是语料库语言学中自然语言知识获取和解决自然语言处理中多种实际应用问题依靠的资源和基础,但上下文“窗口”开多大为宜,为克服当前仅凭主观经验或通过某一特定应用问题中最终结果正确率界定上下文有效范围的不足以及关键词左右窗口中的句子成分关系对上下文有效窗口界定的影响,本专利技术提供一种确定关键词上下文窗口的混合方法。
技术实现思路
针对当前仅凭主观经验或通过某一特定应用问题中最终结果正确率界定上下文有效范围的不足以及关键词左右窗口中的句子成分关系对上下文有效窗口界定的影响,本专利技术提供一种确定关键词上下文窗口的混合方法。为了解决上述问题,本专利技术是通过以下技术方案实现的:步骤1:初始化统计方法模块,即语料库或文本。步骤2:将关键词C输入初始化统计方法模块或文本中。步骤3:分别求解关键词C相邻的上下文本中每个位置的权重贡献值weight′(C,Cij∈(1,2,…2n))。步骤4:对关键词C语境中上下文词位置的权重贡献值weight′(C,Cij∈(1,2,…2n))进行归一化曲线处理。步骤5:基于上下文信息损失量计算关键词C语境中上下文窗口的左右窗口n值。步骤6:在步骤5关键词C语境中上下文窗口的左右窗口n值条件下,基于上下文成分关系计算关键词语境中上下文窗口的左右窗口n′左、n′右值。本专利技术有益效果是:1、对上下文语境有效范围的确定提供了非常有价值的定量化的描述,克服了前人主观描述的不足。2、上下文对关键词的描述能力相对位置由近及远逐渐递减,符合人们一般认识。3、为更好的解决词语、句子相似度计算提供了极为有价值的理论基础。4、权重贡献值weight(C,Cij∈(1,2,…2n))的线性与信噪比要更好,易于后续计算简便。5、权重贡献值weight(C,Cij∈(1,2,…2n))的归一化曲线准确率更高。6、考虑了关键词左右窗口中的句子成分关系对上下文有效窗口界定的影响。附图说明表1-j映射到weight(C,Cij∈(1,2,…2n))的离散表格图1一种确定关键词上下文窗口的混合方法结构流程图图2上下文位置权重贡献值离散图与归一化处理后的连续函数f(-j)曲线图具体实施方式针对当前仅凭主观经验或通过某一特定应用问题中最终结果正确率界定上下文有效范围的不足以及关键词左右窗口中的句子成分关系对上下文有效窗口界定的影响,结合图1对本专利技术进行了详细说明,其具体实施步骤如下:步骤1:初始化统计方法模块,即语料库或文本。步骤2:将关键词C输入初始化统计方法模块或文本中。步骤3:分别求解关键词C相邻的上下文本中每个位置的相对权重贡献值weight′(C,Cij∈(1,2,…2n)),需先知位置信息Jsx、关键词权重值weight(C)与上下文位置权重值weight(C,Cij∈(1,2,…2n)),其具体计算过程如下:3.1)先假设关键词C上下文语境的位置信息Jsx在一定规模语料库的基础上,选取一定规模和具有一定覆盖面的关键词,并从语料中提取每个关键词C上下文左右各n个位置的上下文词语构成其“关键词上下文矩阵Jsx”,其矩阵如下所示:上式矩阵行i∈(1,2,…,m),i为第i个上下文语境,列j∈(1,2,…,n)为关键词上下文左边n个位置,列j∈(n+1,n+2,…,n+n)为关键词上下文右边n个位置。Cij为第i个上下文语境中第几个位置词。3.2)计算关键词C在语料库或文本中的权重值weight(C)上式P(Ci)为在第i语境中关键词C的概率值,关键词所在语境的个数为m,EC为关键词C在m个语境中权重的均值。3.3)计算每个上下文位置对关键词C的权重值weight(C,Cij∈(1,2,…2n))上式weight(C,Cij∈(1,2,…2n))分别为第i语境中位置为j时的上下文词对关键词的权重贡献值,p(C/Cij∈(1,2,…2n)为每个上下文位置已知对应的关键词C的条件统计概率,这个基于语料库可以很容易统计出,Ej∈(1,2,…2n)为各语境下每个上下文位置已知对应的关键词C的条件统计概率p(C/Cij∈(1,2,…2n)的平均值。上式m为语料库或文本中含关键词的语境数量。3.4)求解关键词C相邻的上下文本中每个位置的相对权重贡献值weight′(C,Cij∈(1,2,…2n))综上所述,有下式:weight′(C,Cij∈(1,2,…2n))=-log2|weight(C)-weight(C,Cij∈(1,2,…2n))|步骤4:对关键词C语境中上下文词位置的权重贡献值weight′(C,Cij∈(1,2,…2n))进行归一化曲线处理,需对上下文词位置j进行归一化处理以及误差点丢弃,其具体描述过程如下:4.1)先对关键词语境中的上下文词位置j进行归一化处理以关键词为原点,上下文词位置距离关键词的相对距离如下式:上式左边位置相对距离为负值,右边位置相对距离为正值。4.2)利用相对误差法对误差点丢弃上述左右位置相对距离d为自变量横坐标x,根据上述步骤3得到的为对应weight′(C,Cij∈(1,2,…2n))为纵坐标值,其为一离散图,连接一条包含点最多的直线——即参考直线,如下:ax+by+c=0计算不在这条直线上的点(x′,y′)到它的距离:设置误差边界条件:d>θ当满足上述边界条件则丢弃这一点(x′,y′),反之,连接成曲线。4.3)归一化曲线根据自变量横坐标d可得两条曲线,即f(-j)、f(j′-n)。例如:表1上下文位置(-j)-1-2-3-4-5-6-7-8-9weight′(C,Cij∈(1,2,…2n))2.181.991.871.771.601.501.301.201.10其曲线图2所示:根据图2的数据可得令x=-jf(-j)=ax3+bx2+cx+d同理可得令x′=j′-nf(j′-n)=a′(x′)3+b′(x′)2+c′x′+d′步骤5:基于上下文信息损失量计算关键词语境中上下文窗口的左右窗口n值,其具体计算过程如下:上式P左为左边窗口允许的一个信息损失量的边界条件,α为用户允许的一个阈值,只有满足这个边界条件,就可以确定左边窗口的n值。同理右边窗口的确定,有下式:上式P右为右边窗口允许的一个信息损失量的边界条件,α为用户允许的一个阈值,只有满足这个边界条件,就可以确定右边窗口的n值。这里左窗口的n值大小不一定等于右边窗口大小,主要根据上两式计算可得。步骤6:在步骤5关键词C语境中上下文窗口的左右窗口n值条件下,基于上下文成分关系计算关键词语境中上下文窗本文档来自技高网...
一种确定关键词上下文窗口的混合方法

【技术保护点】
一种确定关键词上下文窗口的混合方法,本专利技术涉及语义网络技术领域,具体涉及一种确定关键词上下文窗口的混合方法,其特征是,包括如下步骤:步骤1:初始化统计方法模块,即语料库或文本步骤2:将关键词C输入初始化统计方法模块或文本中步骤3:分别求解关键词C相邻的上下文本中每个位置的权重贡献值步骤4:对关键词C语境中上下文词位置的权重贡献值进行归一化曲线处理步骤5:基于上下文信息损失量计算关键词C语境中上下文窗口的左右窗口n值步骤6:在步骤5关键词C语境中上下文窗口的左右窗口n值条件下,基于上下文成分关系计算关键词语境中上下文窗口的左右窗口值。

【技术特征摘要】
2016.07.25 CN 201610589753X1.一种确定关键词上下文窗口的混合方法,本发明涉及语义网络技术领域,具体涉及一种确定关键词上下文窗口的混合方法,其特征是,包括如下步骤:步骤1:初始化统计方法模块,即语料库或文本步骤2:将关键词C输入初始化统计方法模块或文本中步骤3:分别求解关键词C相邻的上下文本中每个位置的权重贡献值步骤4:对关键词C语境中上下文词位置的权重贡献值进行归一化曲线处理步骤5:基于上下文信息损失量计算关键词C语境中上下文窗口的左右窗口n值步骤6:在步骤5关键词C语境中上下文窗口的左右窗口n值条件下,基于上下文成分关系计算关键词语境中上下文窗口的左右窗口值。2.根据权利要求1中所述的一种确定关键词上下文窗口的混合方法,其特征是,以上所述步骤3的具体实施步骤如下:步骤3:分别求解关键词C相邻的上下文本中每个位置的相对权重贡献值需先知位置信息关键词权重值与上下文位置权重值其具体计算过程如下:3.1)先假设关键词C上下文语境的位置信息在一定规模语料库的基础上,选取一定规模和具有一定覆盖面的关键词,并从语料中提取每个关键词C上下文左右各n个位置的上下文词语构成其“关键词上下文矩阵”,其矩阵如下所示:上式矩阵行i为第i个上下文语境,列为关键词上下文左边n个位置,列为关键词上下文右边n个位置,为第i个上下文语境中第几个位置词3.2)计算关键词C在语料库或文本中的权重值上式为在第i语境中关键词C的概率值,关键词所在语境的个数为m,为关键词C在m个语境中权重的均值3.3)计算每个上下文位置对关键词C的权重值上式分别为第i语境中位置为j时的上下文词对关键词的权重贡献值,为每个上下文位置已知对应的关键词C的条件统计概率,这个基于语料库可以很容...

【专利技术属性】
技术研发人员:金平艳胡成华
申请(专利权)人:四川用联信息技术有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1