当前位置: 首页 > 专利查询>武汉大学专利>正文

一种基于OCR的商品查询关键字自动生成方法技术

技术编号:13969683 阅读:77 留言:0更新日期:2016-11-10 04:30
本发明专利技术公开了一种基于OCR的商品查询关键字自动生成方法,首先建立商品信息数据库。然后利用OCR技术提取产品包装图中的文字信息,获得包含产品信息的单词组。接着通过计算单词组与数据库中单词的相似性,矫正错误字符,完成单词组标准化。接着通过打分规则将得分最高的商品类别作为单词组所代表产品的类别。随后选择该商品类别对应的单词共生表并计算单词组中各单词的共生性得分来过滤掉无用单词。最后,通过该商品类别的品牌打分表和打分规则选择得分最高的品牌作为单词组代表产品的品牌名,将该品牌名结合过滤后的单词组作为商品查询关键字供用户检索使用。本发明专利技术计算效率高,对数据库的更新方便,极大地提高用户查询商品信息时的正确性。

【技术实现步骤摘要】

本专利技术属于信息检索
,尤其涉及一种在OCR基础上的商品关键字自动生成方法。
技术介绍
互联网以及手持智能终端在过去的10年间经历了爆炸式的发展,这极大地丰富了人们的信息获取途径并改变了人们的生活方式,越来越多的人选择通过电商完成购物。借助各种电商网站上详细的产品信息以及其它购买者对商品的评价,人们可以更好地进行购物选择。但是当购物者在商场、书店等地购物时,查询商品的具体信息就变得较为困难。通常人们的做法是阅读产品包装并人为提取组织其中可能的关键字,之后再输入到搜索引擎中进行查询。但手工提取产品关键字的过程费时费力,而且对于购物者来说精确选择关键字较为困难,更为糟糕的是一些无用单词可能会干扰查询结果。OCR(Optical Character Recognition,光学字符识别)能对图像中的文本信息进行分析识别处理,通过检测暗、亮的模式确定其形状,用字符识别方法将形状翻译成计算机文字。随着带有拍照功能的手持智能终端的广泛普及,利用OCR技术对拍摄的商品包装照片中的文字信息进行提取显得水到渠成。但是,OCR识别出来的信息存在大量噪音,且存在一些无用信息。如果不对这些信息进行进一步的分析,其结果很可能影响用户的使用。因此需要对OCR识别的信息进一步分析整合。
技术实现思路
为了解决上述技术问题,本专利技术提供了一种基于OCR的商品查询关键字自动生成方法,在获取一张用手持智能终端拍摄的产品包装图后,OCR将会对该产品图片进行文字提取并返回一个包含大量噪音和无用信息的字符数据集,之后通过矫正错误字符(标准化)、选择商品类别、过滤无用信息、确定产品品牌四个过程最终生成合理的产品关键字。本专利技术所采用的技术方案是:一种基于OCR的商品查询关键字自动生成方法,其特征在于:首先构建所有商品的产品名表、单词表、单词共生表和品牌打分表,综合所有的单词表形成商品类别打分表,并所有的表存入数据库中;然后基于商品类别打分表进行商品查询关键字自动生成;其中所述商品查询关键字自动生成包括以下步骤:步骤1:利用OCR技术提取产品包装图中的全部可识别文字信息,并对返回的字符数据集进行预处理,去掉单个字符长度的单词和无用符号(非数字、非字母的符号),形成包含产品信息的一个单词组;步骤2:分别采用Levenshtein Distance和Damerau–Levenshtein Distance两种编辑距离方法,计算步骤1中获得的单词组中每个单词与数据库单词表中所有单词的相似性,并把两个相似性结果的调和平均值作为该单词对数据库单词表中每个单词的相似性值;将单词组中对数据库所有单词的相似性都低于给定阈值τs的单词丢弃;对于剩余的单词,使用数据库中与其相似性值最大的单词来替换,并保存各自的最大相似性值Smax,完成单词组的标准化工作;步骤3:若标准化后的产品信息单词组中含有某一产品品牌,则直接将该品牌所在的商品类别作为单词组所代表产品的商品类别;否则就根据标准化后的产品信息单词组对不同的商品类别进行打分,并且对于每个商品类别,记录单词组中只在该商品类别中出现的单词的个数,将得分最高的商品类别作为单词组所代表产品的类别;若所有商品类别的得分相同,则独占单词数最多的商品类别作为单词组所代表产品的类别;否则无法判断;步骤4:对确定了商品类别的单词组选择相应的单词共生表,对于单词组中的每一个单词,计算其与单词组中其它单词的共生性得分;若单词组中每个单词的共生性得分均一致,不丢弃任何单词,否则认为得分低于给定的阈值τa的单词代表的是无用信息,丢弃该单词,完成单词过滤;步骤5:若过滤后的商品信息单词组中含有某一产品品牌,将该品牌名结合过滤后的单词组作为商品查询关键字返回,商品查询关键字生成过程结束;否则通过过滤后的商品信息单词组和对应的品牌打分表对所有品牌的打分,选取得分最高的品牌作为该产品的品牌名,将该品牌名结合过滤后的单词组作为商品查询关键字返回。作为优选,所述构建所有商品的产品名表、单词表、单词共生表和品牌打分表,综合所有的单词表形成商品类别打分表,是在电商网站上进行商品信息的爬取,在每一个商品类别下形成一个产品信息表;经过对每一个产品信息表的进一步处理生成产品名表、单词表、单词共生表和品牌打分表;综合所有的单词表形成一个商品类别打分表,将所有的表存入数据库中。作为优选,所述构建所有商品的产品名表、单词表、单词共生表和品牌打分表,综合所有的单词表形成商品类别打分表,其具体实现过程是:步骤A.1:在电商网站上按照不同商品类别爬取产品的名称、品牌并建立产品信息表,所述产品信息表属性包括产品序号(pid)、产品品牌(brand)、产品名(name);步骤A.2:在每个商品类别下,对每个产品的产品名进行修剪,修剪规则为:(1)将大写字母全部转为小写字母;(2)将“/”两边的单词分开,如cleanse/tone转为cleansetone;(3)去除无用字符(不是数字或英文字母表中的字母)(4)去除表示单位的单词;形成修剪后的产品名表;所述产品名表属性包括产品序号(pid)、修剪后的产品名(prunedname);步骤A.3:基于修剪后的产品名表,对于每个商品类别下出现的单词,统计每个单词的出现次数以及产品名中含有该单词的产品的pid,形成单词表,所述产品名表属性包括产品序号(pid)、修剪后的产品名(prunedname);步骤A.4:基于所有单词表,生成一个商品类别打分表,表中的每一项代表一个单词在对应的商品类别下的出现比例,计算公式如下: P [ i ] [ j ] = num i j t o t a l _ num i / Σ t = 1 N c num t j t o t a l _ num i ( i ∈ { 1 , 2 , ... , N本文档来自技高网...

【技术保护点】
一种基于OCR的商品查询关键字自动生成方法,其特征在于:首先构建所有商品的产品名表、单词表、单词共生表和品牌打分表,综合所有的单词表形成商品类别打分表,并所有的表存入数据库中;然后基于商品类别打分表进行商品查询关键字自动生成;其中所述商品查询关键字自动生成包括以下步骤:步骤1:利用OCR技术提取产品包装图中的全部可识别文字信息,并对返回的字符数据集进行预处理,去掉单个字符长度的单词和非数字、非字母的符号,形成包含产品信息的一个单词组;步骤2:分别采用Levenshtein Distance和Damerau–Levenshtein Distance两种编辑距离方法,计算步骤1中获得的单词组中每个单词与数据库单词表中所有单词的相似性,并把两个相似性结果的调和平均值作为该单词对数据库单词表中每个单词的相似性值;将单词组中对数据库所有单词的相似性都低于给定阈值τs的单词丢弃;对于剩余的单词,使用数据库中与其相似性值最大的单词来替换,并保存各自的最大相似性值Smax,完成单词组的标准化工作;步骤3:若标准化后的产品信息单词组中含有某一产品品牌,则直接将该品牌所在的商品类别作为单词组所代表产品的商品类别;否则就根据标准化后的产品信息单词组对不同的商品类别进行打分,并且对于每个商品类别,记录单词组中只在该商品类别中出现的单词的个数,将得分最高的商品类别作为单词组所代表产品的类别;若所有商品类别的得分相同,则独占单词数最多的商品类别作为单词组所代表产品的类别;否则无法判断;步骤4:对确定了商品类别的单词组选择相应的单词共生表,对于单词组中的每一个单词,计算其与单词组中其它单词的共生性得分;若单词组中每个单词的共生性得分均一致,不丢弃任何单词,否则认为得分低于给定的阈值τa的单词代表的是无用信息,丢弃该单词,完成单词过滤;步骤5:若过滤后的商品信息单词组中含有某一产品品牌,将该品牌名结合过滤后的单词组作为商品查询关键字返回,商品查询关键字生成过程结束;否则通过过滤后的商品信息单词组和对应的品牌打分表对所有品牌的打分,选取得分最高的品牌作为该产品的品牌名,将该品牌名结合过滤后的单词组作为商品查询关键字返回。...

【技术特征摘要】
1.一种基于OCR的商品查询关键字自动生成方法,其特征在于:首先构建所有商品的产品名表、单词表、单词共生表和品牌打分表,综合所有的单词表形成商品类别打分表,并所有的表存入数据库中;然后基于商品类别打分表进行商品查询关键字自动生成;其中所述商品查询关键字自动生成包括以下步骤:步骤1:利用OCR技术提取产品包装图中的全部可识别文字信息,并对返回的字符数据集进行预处理,去掉单个字符长度的单词和非数字、非字母的符号,形成包含产品信息的一个单词组;步骤2:分别采用Levenshtein Distance和Damerau–Levenshtein Distance两种编辑距离方法,计算步骤1中获得的单词组中每个单词与数据库单词表中所有单词的相似性,并把两个相似性结果的调和平均值作为该单词对数据库单词表中每个单词的相似性值;将单词组中对数据库所有单词的相似性都低于给定阈值τs的单词丢弃;对于剩余的单词,使用数据库中与其相似性值最大的单词来替换,并保存各自的最大相似性值Smax,完成单词组的标准化工作;步骤3:若标准化后的产品信息单词组中含有某一产品品牌,则直接将该品牌所在的商品类别作为单词组所代表产品的商品类别;否则就根据标准化后的产品信息单词组对不同的商品类别进行打分,并且对于每个商品类别,记录单词组中只在该商品类别中出现的单词的个数,将得分最高的商品类别作为单词组所代表产品的类别;若所有商品类别的得分相同,则独占单词数最多的商品类别作为单词组所代表产品的类别;否则无法判断;步骤4:对确定了商品类别的单词组选择相应的单词共生表,对于单词组中的每一个单词,计算其与单词组中其它单词的共生性得分;若单词组中每个单词的共生性得分均一致,不丢弃任何单词,否则认为得分低于给定的阈值τa的单词代表的是无用信息,丢弃该单词,完成单词过滤;步骤5:若过滤后的商品信息单词组中含有某一产品品牌,将该品牌名结合过滤后的单词组作为商品查询关键字返回,商品查询关键字生成过程结束;否则通过过滤后的商品信息单词组和对应的品牌打分表对所有品牌的打分,选取得分最高的品牌作为该产品的品牌名,将该品牌名结合过滤后的单词组作为商品查询关键字返回。2.根据权利要求1所述的基于OCR的商品查询关键字自动生成方法,其特征在于:所述构建所有商品的产品名表、单词表、单词共生表和品牌打分表,综合所有的单词表形成商品类别打分表,是在电商网站上进行商品信息的爬取,在每一个商品类别下形成一个产品信息表;经过对每一个产品信息表的进一步处理生成产品名表、单词表、单词共生表和品牌打分表;综合所有的单词表形成一个商品类别打分表,将所有的表存入数据库中。3.根据权利要求1或2所述的基于OCR的商品查询关键字自动生成方法,其特征在于:所述构建所有商品的产品名表、单词表、单词共生...

【专利技术属性】
技术研发人员:黄浩钟林杌李宗鹏颜钱
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1