【技术实现步骤摘要】
本专利技术涉及的是一种电子商务字典自动生成方法。主要面向电子商务领域,电子商务字典是电子商务网站应用的基础,譬如在搜索、推荐、语义分词、排序权重计算等多方面都需要用到。
技术介绍
目前面向电子商务的字典很少见,目前主流应用如淘宝大多采用手工生成或简单统计生成,也有部分采用机器学习的方法去搜集词条形成字典。但传统方法的缺点主要包括一是手工处理工作量大二是由于电子商务领域应用新商品层出不穷变化非常快,传统方式更新速度慢三是自动生成方法的精确度低,结果比较粗糙。·
技术实现思路
本专利技术针对电子商务领域特点,提出一套电子商务字典的自动生成方法,可从HTML网页等商品描述数据源中提取商品相关原始信息,通过递进穷举方法对文本进行切分,然后结合相应的纠偏和补偿算法对字典数据进行提纯,最终得到高质量的电子商务领域字典。该字典可广泛使用于搜索、语义分词、推荐、权重计算等电子商务应用中。本专利技术的技术方案如下步骤I :数据爬取从电子商务网站、搜索引擎爬取原始商品数据;步骤2 :预处理对采集的原始商品数据进行预处理,过滤其中垃圾信息并做结构化处理;步骤3 :递进穷举采用递进穷举方法按合理长 ...
【技术保护点】
一种电子商务字典自动生成方法,其特征在于,包括以下步骤:步骤1:数据爬取:从电子商务网站、搜索引擎爬取原始商品数据;步骤2:预处理:对采集的原始商品数据进行预处理,过滤其中垃圾信息并做结构化处理;步骤3:递进穷举:采用递进穷举方法按合理长度穷举各种分词组合,同时累计各种组合出现的频率,形成完整的包含所有可能组合的粗糙字典;步骤4:词频统计:对字典中各个词条的出现次数进行统计,对每遇到一次把相应词条的count加1;步骤5:归并处理:按规则五进行合并处理,一组潜在词如果字数相同、出现次数相同,同时有公共子串,并且公共子串出现频率与潜在词次数相同,则合并两个潜在词为一个字符串; ...
【技术特征摘要】
1..一种电子商务字典自动生成方法,其特征在于,包括以下步骤 步骤I:数据爬取从电子商务网站、搜索引擎爬取原始商品数据; 步骤2 :预处理对采集的原始商品数据进行预处理,过滤其中垃圾信息并做结构化处理; 步骤3 :递进穷举采用递进穷举方法按合理长度穷举各种分词组合,同时累计各种组合出现的频率,形成完整的包含所有可能组合的粗糙字典; 步骤4 :词频统计对字典中各个词条的出现次数进行统计,对每遇到一次把相应词条的 count 加 I ; 步骤5 :归并处理按规则五进行合并处理,一组潜在词如果字数相同、出...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。