一种通用字符串相似性度量框架的构建方法技术

技术编号:20242444 阅读:26 留言:0更新日期:2019-01-29 23:22
本发明专利技术涉及一种通用字符串相似性度量框架的构建方法,其具体是先设定需要比较的两个字符串群,再将匹配或相似的集合与不匹配集合组成的一组字符串,接着基于匹配或相似的集合和不匹配集合,为每个字符串相似性度量定义一个比较标准的集合,得到后验概率即字符串相似性度量的准确结果后,再基于最大似然估计方法,来估计后验概率;最后得到一个结合附加特征的字符串相似性度量框架。本发明专利技术基于Fellegi‑Sunter模型,构思合理、简单,将对需要快速和灵活地纳入大量语义特征的字符串相似度测量系统的设计提供指导。

【技术实现步骤摘要】
一种通用字符串相似性度量框架的构建方法
本专利技术属于数据挖掘
,具体涉及一种通用字符串相似性度量框架的构建方法。
技术介绍
字符串相似性度量是检测数据库中重复和字面形式相似的字符串的重要技术。至今已经提出了多种类型的度量标准,但是这些度量标准或较复杂、不易灵活地扩展,或在合并其他语义特征方面(如词缀)有局限性。字符串相似性度量,也称为字符串距离度量,或简称字符串度量,通过匹配待比较的两个字符串来度量字符串之间的相似度(或距离)。字符串相似度度量在许多应用中得到了广泛的应用,例如记录链接、实体规范化、信息集成、本体对齐等。至今已经提出了许多字符串相似度度量方法,例如Dicedistance,Levenshteindistance,JaroDistance,Monge-Elkandistance等。基于上述经典度量方法衍生的许多字符串相似度度量算法会在比较过程中包含更多的字符串特性以满足某些需求,例如Jaro-Winklerdistance和GotohoptimizesSmith-Watermandistance;词缀是字符串匹配比较的重要特征;它们不在字符串中的固定位置,但也包含特定的语义信息;因此,人们设计了许多复杂的数据结构希望在度量过程中包含词缀。
技术实现思路
针对上述
技术介绍
中的问题,本专利技术提出了一种通用字符串相似性度量框架的构建方法,其基于Fellegi-Sunter模型,构思合理、简单,它对特定领域中需要快速和灵活地纳入大量语义特征的字符串相似度测量系统的设计提供指导。本专利技术的技术方案如下:上述的通用字符串相似性度量框架的构建方法,其具体过程如下:(1)设定X={x0,x1,x2,...}和Y={y0,y1,y2,...}为需要比较的两个字符串总体,X和Y中的元素xi和yj由字符序列和组成,其中和分别是xi和yj中的第p和第q个字符,m和n是xi和yj的长度;(2)将匹配或相似的集合M={(xi,yj);xi=yj,xi∈X,yj∈Y}与不匹配集合N={(xi,yj);xi≠yj,xi∈X,yj∈Y}组成的一组字符串X×Y={(xi,yj);xi∈X,yj∈Y};(3)基于匹配或相似的集合M={(xi,yj);xi=yj,xi∈X,yj∈Y}和不匹配集合N={(xi,yj);xi≠yj,xi∈X,yj∈Y},为每个字符串相似性度量定义一个用于比较的标准集合γ(xi,yj),γ(xi,yj)={γ1(xi,yj),γ2(xi,yj),...,γK(xi,yj)},,其中γk(xi,yj)是xi和yj之间的第k个特定比较条件;(4)得到后验概率P((xi,yj)∈M|γ(xi,yj))即字符串相似性度量的实际或准确结果后,再基于最大似然估计方法,使用P(γ(xi,yj)|(xi,yj)∈M)来估计后验概率,即:Sim(xi,yj)=P((xi,yj)∈M|γ(xi,yj))∝P(γ(xi,yj)|(xi,yj)∈M)设定γ(xi,yj)中的比较标准是i.i.d.,进一步得对于具体的比较标准集合γ(xi,yj),不匹配条件包含错误UM与概率P((xi,yj)∈M|γ(xi,yj))字符串相似性度量定义相关联,匹配或相似的比较条件排除错误M也与概率P((xi,yj)∈M|γ(xi,yj))字符串相似性度量定义相关联,对于Sim(xi,yj)需要移除UM并添加M,将概率函数需要修改为:其中是常用字符串相似性度量的概率形式,M-UM是修正误差的调整因子,并且M-UM趋于α·(1-Sim(xi,yj)),其中α∈[0,1];(5)最后得到一个结合附加特征的字符串相似性度量框架:Sim(xi,yj)=Simgen(xi,yj)+α·(1-Simgen(xi,yj)).。所述通用字符串相似性度量框架的构建方法,其中:所述步骤(3)中的γk(xi,yj)可表示Dice距离中xi和yj中的共同字符,也可表示在Levenshtein距离和Jaro距离中变换xi到yj的最小成本删除操作,还可表示在Monge-Elkan距离中的xi和yj的共同前缀。所述通用字符串相似性度量框架的构建方法,其中:所述步骤(5)中为了包含词缀信息到字符串相似度度量中,可修改α为其中lp和ls分别是xi和yj中的相同前缀和后缀的长度;|xi|和|yj|分别是xi和yj的长度,当xi和yj有相同的前缀和/或相同的后缀时,ω∈[0,1]是决定向上调整多少相似度的常数比例因子;β∈[0,1]和η∈[0,1]分别是前缀特征和后缀特征的权重。有益效果:本专利技术通用字符串相似性度量框架的构建方法构思合理、简单,构建的通用字符串相似性度量框架可以对这些特征进行加权以满足特定的需求。图1至4显示了在不同的参数设置下,在通用字符串相似性度量框架中使用不同的字符串相似度度量所得到的结果;首先,它表明前缀和后缀是这种规范化任务的有用特征;其次,本专利技术可以将这些附加特征有效地结合到字符串相似性度量中;最后,图1至4也表明,由于本专利技术对调整所包含的词缀特征的权重(β和η)的灵活性,我们可以找到用于并入附加的词缀特征的最合适的加权策略,并且因此达到最佳归一化结果。本专利技术通用字符串相似性度量框架的构建方法基于Fellegi-Sunter模型的简单灵活的概率框架,并通过一系列实验进行了仔细的验证,结果证明了框架的有效性,将对需要快速和灵活地纳入大量语义特征的字符串相似度测量系统的设计提供指导。附图说明图1为本专利技术一种通用字符串相似性度量框架的构建方法在不同的β(Beta),η=(1-β),t和ω参数设置下,将Dice距离放置在本专利技术通用字符串相似性度量方法的框架中得到的归一化结果图;图2为本专利技术一种通用字符串相似性度量框架的构建方法在不同的β(Beta),η=(1-β),t和ω参数设置下,将Levenshtein距离放置在本专利技术通用字符串相似性度量方法的框架中得到的归一化结果;图3为本专利技术一种通用字符串相似性度量框架的构建方法在不同的β(Beta),η=(1-β),t和ω参数设置下,将Jaro距离放置在本专利技术通用字符串相似性度量方法的框架中得到的归一化结果;图4为本专利技术一种通用字符串相似性度量框架的构建方法在不同的β(Beta),η=(1-β),t和ω参数设置下,将Monge-Elkan距离放置在本专利技术通用字符串相似性度量方法的框架中得到的归一化结果。具体实施方式本专利技术一种通用字符串相似性度量框架的构建方法,具体过程为:(1)首先设定X={x0,x1,x2,...}和Y={y0,y1,y2,...}为需要比较的两个字符串群,X和Y中的元素xi和yj由字符序列和组成,其中和分别是xi和yj中的第p和第q个字符,m和n是xi和yj的长度;字符串相似性度量通常用于查找xi和yj的最佳映射对或评估特定xi与Y中每个yj之间的相似度。(2)其次,将匹配或相似的集合M={(xi,yj);xi=yj,xi∈X,yj∈Y}与不匹配集合N={(xi,yj);xi≠yj,xi∈X,yj∈Y}集合组成的一组字符串X×Y={(xi,yj);xi∈X,yj∈Y}。(3)接着基于匹配或相似的集合M={(xi,yj);xi=yj,xi∈X,yj∈Y}及不匹配集合N={(xi,yj);xi本文档来自技高网...

【技术保护点】
1.一种通用字符串相似性度量框架的构建方法,其特征在于,具体过程如下:(1)设定X={x

【技术特征摘要】
1.一种通用字符串相似性度量框架的构建方法,其特征在于,具体过程如下:(1)设定X={x0,x1,x2,...}和为需要比较的两个字符串总体,X和Y中的元素xi和yj由字符序列和组成,其中和分别是xi和yj中的第p和第q个字符,m和n是xi和yj的长度;(2)将匹配或相似的集合M={(xi,yj);xi=yj,xi∈X,yj∈Y}与不匹配集合N={(xi,yj);xi≠yj,xi∈X,yj∈Y}组成的一组字符串X×Y={(xi,yj);xi∈X,yj∈Y};(3)基于匹配或相似的集合M={(xi,yj);xi=yj,xi∈X,yj∈Y}和不匹配集合N={(xi,yj);xi≠yj,xi∈X,yj∈Y},为每个字符串相似性度量定义一个用于比较的标准集合γ(xi,yj),γ(xi,yj)={γ1(xi,yj),γ2(xi,yj),...,γK(xi,yj)},,其中γk(xi,yj)是xi和yj之间的第k个特定比较条件;(4)得到后验概率P((xi,yj)∈M|γ(xi,yj))即字符串相似性度量的实际或准确结果后,再基于最大似然估计方法,使用P(γ(xi,yj)|(xi,yj)∈M)来估计后验概率,即:Sim(xi,yj)=P((xi,yj)∈M|γ(xi,yj))∝P(γ(xi,yj)|(xi,yj)∈M)设定γ(xi,yj)中的比较标准是i.i.d.,进一步得对于具体...

【专利技术属性】
技术研发人员:王亚强闫飞飞王晓峰舒红平唐聃
申请(专利权)人:成都信息工程大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1