当前位置: 首页 > 专利查询>姚明东专利>正文

一种电子商务字典中单字词的自动抽取方法技术

技术编号:8765420 阅读:223 留言:0更新日期:2013-06-07 22:38
本发明专利技术公开了一种电子商务字典中单字词的自动抽取方法,包括以下步骤:A1、语料准备和预处理;A2、获取所有可能的潜在词组合;A3、基于分布的离散度进行无效词的过滤;A4、进行无效词过滤;A5、进行正则过滤;A6、有效词的补偿;A7、单个字在更长词中作为子串出现的频率统计;A8、补偿交集型误统计修正,减掉重复统计的单字词在更长词中作为子串出现的频率;A9、单字词独立出现频率统计计算;A10、过滤结束,剔除在所有语料中出现次数很少的词低频词。该方法生成的字典可广泛使用于搜索、语义分词、推荐、权重计算等电子商务应用中。

【技术实现步骤摘要】

【技术保护点】
一种电子商务字典中单字词的自动抽取方法,其特征在于,包括以下步骤:A1、语料准备和预处理;A2、对语料进行带有冗余数据的递进穷举,获取所有可能的潜在词组合;采用递进穷举方法按有效词最大长度+1穷举各种分词组合,同时累计各种单字及多字组合出现的频率,形成完整的包含所有可能潜在词集合。引进大于有效词长度的无效潜在词用于过滤切分边界数据;A3、对于长度为2以上的基于较短潜在词在一组以该词作为前缀/后缀的最短长潜在词中分布的离散度进行无效词的过滤;A4、基于长度为2以上潜在词独立出现的概率进行无效词过滤;较短潜在词在包含它的最短长潜在词中出现次数大于一定阀值,并且长潜在词不符合正则过滤条件,则短潜在词count减长潜在词count的差值,对于差为0的短潜在词直接删除,否则短潜在词count为所述差值;A5、对于经过A3、A4两步过滤后剩余的长度为2以上的潜在词进行正则过滤,前缀/后缀/中间包含在预先定义的集合中,并且剩余部分都为以上过滤之后有效词的,则删除该潜在词;同时对于前缀/后缀包含在预先定义的集合中,并且不在例外的词的集合;A6、出现在唯一上下文中误删除长度为2以上有效词的补偿;首先基于如下条件判断出现在唯一上下文中误删除的潜在词:(1)该潜在词不符合正则过滤条件;(2)包含该潜在词的所有潜在词都被过滤掉了,不管长度是多少;(3)该潜在词的count与所有包含它的潜在词count相同;其次,找到包含该误删除词的最长潜在词;在一个潜在词出现在多个最长潜在词的情况下,做拼接,重新还原切分边界;然后对以上最长潜在词/还原的切分单元基于已有有效词进行正/逆向最大匹配分词,如果切分的组合已经作为一个潜在词出现在有 效词词典中,则继续向后扫描字符串,对于没有出现在潜在词字典中的长度不小于2的最长切分组合加入到有效潜在词词典中,频率为该组合的全切分的原始频率;最后对于最长潜在词中不包含有效词的,则保留最长潜在词,加入有效词词典中;A7、单个字在更长词中作为子串出现的频率统计:找到包含该字的所有其它更长有效词,从短到长依次处理,删除所有包含当前词的更长词;A8、补偿交集型误统计修正,减掉重复统计的单字词在更长词中作为子串出现的频率;1)对于所有步骤A7中剩余词获取全切分结束后的原始count,作为词的当前count;2)对于步骤A7中剩余词找到所有以当前字作为前缀和后缀的潜在词,作为前缀和后缀的分为两组,两组中各取一个两两组合;3)对2)中生成的组合结果到步骤A7的结果中逐一匹配,对于匹配成功的组合,则用组成该组合的两个词其中之一的当前count减去组合的原始count;A9、单字词独立出现频率统计计算,从递进穷举中获取的单字词的总频率减掉步骤8最终获取的count;A10、过滤结束,剔除在所有语料中出现次数很少的词低频词。...

【技术特征摘要】

【专利技术属性】
技术研发人员:姚明东陈浩范英磊
申请(专利权)人:姚明东
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1