【技术实现步骤摘要】
本专利技术属于自然语言处理领域,特别涉及一种基于编辑距离的信息模式模糊匹配方法。
技术介绍
近几年来,社交网络的迅猛发展格外的引人注目。同时,社交网络平台的自身特点使得人们传统的沟通方式发生了巨大的改变。也使得用户在使用社交网络平台时忽略了很多传统意义上对文字的严格要求。因此,在中文编辑是会出现如下问题:第一,中文输入法带来的同音字替换或由个人习惯带来的近音字替换。中文用户大部分使用中文输入法,而在使用中文输入法时很容易造成一些同音不同字的错误,或是由于地域问题对同一个词会有不同的表达方式。第二,文字使用更加简洁,出现很多组合词。由于推文对内容字数的严格要求,使得用户在文字使用上更加简洁,出现了很多组合词。但是在信息检索时我们并不能穷举出所有的词。这使得对社交网络中的信息进行筛选与匹配变得比以前更加困难。因此,需要有更高效的方法对社交网络中的信息进行处理。编辑距离是俄罗斯科学家Vladimir Levenshtein在1965年提出的一个概念,所以又称为Levenshtein距离。最经典的编辑距离定义为:两个字符串之间,由一个转换成另外一个所需要的最少的操作次数 ...
【技术保护点】
一种基于编辑距离的负面信息模式模糊匹配方法,其特征在于,包括:通过基于汉字的编辑距离计算方法计算两个字符串的汉字距离;通过基于拼音的编辑距离计算方法计算两个相应字符串的拼音字符串间的拼音距离;采用将汉字距离与拼音距离相结合的模式模糊匹配方法,来进行负面信息检测,在模式匹配的过程中先计算推文中所有的词语与Trigger(触发词)类关键词的距离Dist,当存在Dist的值小于设定的编辑距离阈值时再与Entity(实体词)类关键词进行匹配。
【技术特征摘要】
1.一种基于编辑距离的负面信息模式模糊匹配方法,其特征在于,包括:通过基于汉字的编辑距离计算方法计算两个字符串的汉字距离;通过基于拼音的编辑距离计算方法计算两个相应字符串的拼音字符串间的拼音距离;采用将汉字距离与拼音距离相结合的模式模糊匹配方法,来进行负面信息检测,在模式匹配的过程中先计算推文中所有的词语与Trigger(触发词)类关键词的距离Dist,当存在Dist的值小于设定的编辑距离阈值时再与Entity(实体词)类关键词进行匹配。2.如权利要求1所述的基于编辑距离的负面信息模式模糊匹配方法,其特征在于:所述基于汉字的编辑距离计算过程中,只考虑Trigger表中的词语与待匹配词语之间的距离,目标串按模式串长度进行连续字符串匹配,汉字的编辑距离Dist1计算公式为: m i n j Dist 1 ( t i j , x i ) = 1 - | t i j ∩ x i | | t i j | , ]]>其中|tij∩xi|为目标串与模式串集合的交集,实际意义为目标串与模式串的最大匹配长度,|tij|为模式串的长度。3.如权利要求1所述的基于编辑距离的负面信息模式模糊匹配方法,其特征在于:所述基于拼音的编辑距离计算过程中,通过比较待匹配的词语的拼音与Trigger表中的词语的拼音,计算编辑距离,拼音的编辑距离Dist2计算公式为: m i n k Dist 2 ( t m k ′ , x i ′ ) = 1 - | t m k ′ ∩ x i ′ | | t m k ′ ∪ x i ′ | + f ( d ) , ]]>其中,|t′mk∩x′i|为模式串与目标串集合的交集,实际意义为模式串和目标串的最大匹配长度,|t′mk∪x′i|为模式串与目标串集合的并集,实际意义是模式串与目标串中包含所有字符的最小长度和,Dif(||x′i|-|t′mk||)为模式串与目标串的字符长度差,|β|为键盘中两字母的距离。4.如权利要求3所述的基于编辑距离的负面信息模式模糊匹配方法,其特征在于:在标准的键盘手势使用规则中,根据同一个手指负责的字母之间的距离更小的原则,将第二行和第三行的字母向左靠齐,同时对右边的位置进行填充处理,定义β的取值公式如下: β = ( 0 , 0 ) ( 0 , 1 ) ( 0 , 2 ) ... ( 0 , 9 ) ( 1 , 0 ) ( 1 , 1 ) ... ( 1 , 8 ) n u l l ( 2 , 0 ) ... ( 2 , 6 ) n u l l n u l l , ]]>在考虑键盘距离的影响不会弱化其他距离的作用情况下,得到: f ( d ) = D i f ( | | x i ′ | - | t m k ′ ...
【专利技术属性】
技术研发人员:张鑫,李越洋,李沛,丁兆云,王晖,蒋薇薇,程佳军,乔凤才,何速,李韬伟,
申请(专利权)人:中国人民解放军国防科学技术大学,
类型:发明
国别省市:湖南;43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。