【技术实现步骤摘要】
本申请涉及计算机网站技术,特别涉及一种发布商品信息的方法及装置。
技术介绍
在电子商务领域中,一个商品的描述内容(例如,商品标题)包含了该产品的重要信息,例如,参阅图1所示,某商品的标题为“&New arrived&Fashionwind coat, ladies' coat, fashion coat, women' s wind coat (Wholesale price +Dodropship),,,这个商品标题记录了商品的相关信息,可以向用户准确展现该商品为一件女士风衣。但是,该商品标题却存在信息冗余,重复词汇罗列堆砌的问题,如,“i^ashion wind coat ,fashion coat”、“ladies' coat”和“women' swind coat”这些词汇重复出现,造成了商品信息的冗余,这样,严重降低了商品信息的简洁性和准确性,并且在用户搜索该商品时,也会由于商品信息的冗余,而造成搜索效率的下降,系统需要耗费大量的资源进行信息比对和排查, 从而降低了识别检索效率,也增加了系统的运行负荷。
技术实现思路
本申请提供一种发布商 ...
【技术保护点】
1.一种发布商品信息的方法,其特征在于,包括:接收用户输入的商品信息,并对所述商品信息进行解析;根据解析结果获得所述商品信息的指定特征属性的取值,所述指定特征属性用于描述商品信息所包含词汇的罗列堆砌程度;根据各指定特征属性的取值,基于最大熵原理,计算所述商品信息为罗列堆砌信息的置信度;确定所述置信度达到设定阈值时,阻止发布所述商品信息。
【技术特征摘要】
1.一种发布商品信息的方法,其特征在于,包括 接收用户输入的商品信息,并对所述商品信息进行解析;根据解析结果获得所述商品信息的指定特征属性的取值,所述指定特征属性用于描述商品信息所包含词汇的罗列堆砌程度;根据各指定特征属性的取值,基于最大熵原理,计算所述商品信息为罗列堆砌信息的置信度;确定所述置信度达到设定阈值时,阻止发布所述商品信息。2.根据权利要求1所述的方法,其特征在于,所述根据各指定特征属性的取值,基于最大熵原理,计算所述商品信息为罗列堆砌信息的置信度,包括将所述各指定特征属性的取值,作为基于最大熵原理的条件概率模型的给定信息; 采用条件概率模型计算在所述给定信息的情况下,所述商品信息为罗列堆砌信息的后验概率,并将所述后验概率作为商品信息为罗列堆砌信息的置信度。3.如权利要求1或2所述的方法,其特征在于,所述指定特征属性包含词法特征属性或 /和句法特征属性;其中,所述词法特征属性包含以下任意一种或任意组合商品信息包含的逗号个数;商品信息的句长;商品信息去重后包含的词汇个数与商品信息中词汇总数的比率;商品信息中出现频率最高的词汇的出现次数;按照预设规则将商品信息划分为若干片段后,将每个片段中指定位置的词汇组成集合,针对该集合去重后的词汇个数与集合中词汇总数的比率;按照预设规则将商品信息划分为若干片段后,每个片段的方差;所述句法特征属性包含以下任意一种或任意组合商品信息去重后包含的词汇的词性个数与信息标题中词汇的词性总数的比率;商品信息中为名词的词汇去重后的个数与为名词的词汇总数的比率;出现频率最高的词性的出现次数;按照预设规则将商品信息划分为若干片段后,每个片段中指定位置的词汇的词性组成的集合中,去重后的词性个数与集合中词性总数的比率。4.如权利要求3所述的方法,其特征在于,所述按照预设规则将商品信息划分为若干片段,包括按照商品信息中的逗号所在位置将商品标题划分为若干片段; 或/和按照商品信息中出现频率最高的词汇所在位置将商品标题划分为若干片段。5.如权利要求1或2所述的方法,其特征在于,阻止发布所述商品信息后,还包括 根据所述解析结果确定造成所述商品信息包含的词汇罗列堆砌的关键词汇; 向用户返回所述关键词汇,提示用户基于该关键词汇对商品信息进行修改。6.如权利要求5所述的方法,其特征在...
【专利技术属性】
技术研发人员:林锋,张寿松,张勤,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:KY