当前位置: 首页 > 专利查询>杜小勇专利>正文

一种产品参数获取系统和方法技术方案

技术编号:3842281 阅读:235 留言:0更新日期:2012-04-11 18:40
一种产品参数获取系统和方法,其中该系统包括:目标评论词频统计单元,用于统计目标评论中各个名词的词频并得到一个词表;产品评论词频统计单元,用于统计每个词在产品评论的词频,同时查看出现该词的中出现形容词的子句数目;相关度计算单元,用于计算词表中每个词的相关度;表达模式抽取单元,用于抽取每个产品参数在目标产品评论中的表达模式并将其记录成表达模式表;以及匹配单元,用于通过在目标评论句子中匹配这些表达模式来找到那些出现频率不高的产品参数词。

【技术实现步骤摘要】

本专利技术涉及,尤其是涉及一种面向 领域的产品评论中自动获耳又产品各项参tt的系统和方法。
技术介绍
目前,从产品评论中自动获取产品参数已经有了一些研究,主要有两种方法基于词频统计的方法和基于规则的方法。基于词频统计的方法,主要是通过统计评论中各个词或短语出现 的频率,将出现频率较高的名词或名词短语作为备选的产品参数,并 通过一些去噪规则去掉一些噪音。现有的基于词频统计的方法,前才是 假设是出现频率高的才可能是产品参数,但是有些时候评论数据中可 能会存在出现频率很低的产品参数,这样利用基于词频统计的方法就 获取不到这些低频的参数了。而且通过去噪规则处理以后,得到的产 品参数中仍然会存在大量的噪音。基于规则的方法,主要是通过事先手工的设定一些获取规则,然 后将这些获取规则应用到用户提交的产品评论中,获取满足规则的词 或短语,作为产品的参数。基于规则的方法比较简单,最大的缺陷是 这些事先设定的规则不能跨领域使用,不同类的产品需要不同的获耳又 规则。现有的方法存在很大的应用缺陷,不是满足不了跨领域的需求, 就是达不到较高的召回率。
技术实现思路
本专利技术是鉴于上述技术问题而产生的。本专利技术的一个目的是提出 一种。在一个方面中,根据本专利技术的产品参数获取系统包括目标评论 词频统计单元,用于统计目标评"i仑中各个名词或名词词组出现的频率 并排序,并得到一个词表;产品评^r词频统计单元,用于统计词表中 的每个词在不同领域内的产品评论的出现频率并记录,同时查看出现该词的每个评论子句中出现形容词的子句数目并记录;相关度计算单 元,用于利用目标评论词频统计单元和产品评论词频统计单元的统计 结果来计算词表中每个词的相关度,并且将相关度大于某个设定值的 词作为结果表中的产品参数;表达模式抽取单元,用于抽取结果表中 的每个产品参数在目标产品评论中的表达模式并将其记录成一个产品 参数表达模式表;以及匹配单元,用于通过在目标评论句子中匹配这 些表达模式来找到那些隐藏的出现频率不高的产品参数词。在这个方面中,其中利用以下公式来计算词表中每个词的相关度/at w,在这个方面中,其中表达模式抽取单元进一步包括检查模块, 用于对包含结果表中的某个词的每条目标评论句子进行检查;提取模 块,用于提取从该词开始到周围最近的形容词的这部分句子片段以作 为该词在该句子中的表达才莫式。在这个方面中,其中匹配单元进一步包括查找模块,用于在表 达模式表中从出现频率最高的表达模式开始查找目标评论句子中与该 表达模式相匹配的评论;新参数词获取模块,用于在查找到匹配评论 的情况下从匹配的评论中得到新的产品参数词;以及新参数词添加模块,用于在结果表中不存在该新参数词的情况下将该新参数词加入到 结果参数表中。在另一个方面中,根据本专利技术的产品参数获取方法包括A、统计B、 统计词表中的每个词在不同领域内的产品评论的出现频率并记录, 同时查看出现该词的每个评论子句中出现形容词的子句数目并记录;C、 利用步骤A和B的统计结果来计算词表中每个词的相关度,并且 将相关度大于某个设定值的词作为结果表中的产品参数;D、抽取结果 表中的每个产品参数在目标产品评论中的表达模式并将其记录成一个 产品参数表达模式表;E、通过在目标评论句子中匹配这些表达模式来 找到那些隐藏的出现频率不高的产品参数词。在这个方面中,其中利用以下公式来计算词表中每个词的相关度D04 (吗=在这个方面中,其中步骤D进一步包括对包含结果表中的某个 词的每条目标评论句子进行检查;提取从该词开始到周围最近的形容 词的这部分句子片段以作为该词在该句子中的表达模式。在这个方面中,其中步骤E进一步包括在表达模式表中从出现 频率最高的表达模式开始查找目标评论句子中与该表达模式相匹配的 评论;在查找到匹配评论的情况下从匹配的评论中得到新的产品参数 词;以及在结果表中不存在该新参数词的情况下将该新参数词加入到 结果参数表中。通过本专利技术,可以有效的支持跨领域的产品参数词获取。通过借 助不同领域的产品评论数据,并且能够自动的获取已有产品参数的表达模式,而不需要人为来设定该领域内的表达规则,可以有效的支持 跨领域的产品参数获取,同时又保证了较高的效率。同时,本专利技术通过限制候选词的相关度提高去噪的效率,使结果更加准确;并且通过 获取已经得到的产品参数的表达模式,用这些模式可以获取更多的隐 藏的产品参数,提高了召回率。附图说明结合随后的附图,从下面的详细说明中可显而易见的得出本专利技术 的上述及其他目的、特征及优点。在附图中 图1给出了目标评论数据的一个示例; 图2给出了表达模式表的一个示例; 图3给出了根据本专利技术的产品参数获取方法的流程图; 图4给出了根据本专利技术的产品参数获取系统的方框图; 图5给出了根据本专利技术的表达模式抽取单元的详细方框图; 图6给出了根据本专利技术的匹配单元的详细方框图; 图7给出了能够实施本专利技术的一个示例环境的示意图。具体实施方式为了更全面地理解本专利技术及其优点,下面结合附图及具体实施例 对本专利技术做进一步详细地说明。首先,本专利技术给定的是一系列具体产品的用户评论信息,作为文 本格式存储。图1是目标评论数据的一个实例说明,其中下划线标出的那些词 就是要获取的产品参数词。对于任意给定的一个具体产品名称而言, 该产品名称对应一篇目标评论文本和若干不同领域的产品评论文本。接下来,参考图3,对根据本专利技术的产品参数获取方法进行说明。如图3所示,根据本专利技术的产品参数获取方法包括步骤A、 统计目标评-i仑中各个名词或名词词组出现的频率(即词频)并 排序,并得到一个词表。这些名词和名词短语将作为候选的产品参数 进行后面的方法的筛选。通过这个步骤,可以将目标评论中所出现的 高频的产品参数排在前面。在下文中,将词表中的所有词统称为候选 词。B、 对步骤A中得到的词表中的每个词,借助于不同领域内的产品 评论(这里的不同领域的产品评论是事先给定的输入数据)得到其出 现频率并记录,同时查看出现该词的每个中出现形容词的子句数目并 记录。在这里,所谓"评论子句"是指某条完整评论的用标点分隔的 某个句子片段。如图1中可以看出第一句评论"用完感觉不错,好像 有润色效果,味道也很清淡,推荐。",该句中"用完感觉不错","好 像有润色效果"等子句均为一条"评论子句"。C、 利用步骤A和B的统计结果,根据以下公式来得到词表中每 个词的相关度。将相关度大于某个设定值的词作为结果表中的产品参数 p 。 /F呵"//at 1其中Wi是步骤B所得的词表中的词, "是Wi在目标产品评 论中出现的频率, ,是Wi在不同领域产品评论中出现的频率,^是目标产品评论的条数,!f是不同领域产品评论的条数,(,一是目标评 论中在词^周围存在形容词的产品评论的条数,f是当分母为0时的平 滑参数。式中乘号左边的式子表示当前词附在目标产品评论句子和不同领域的产品评论句子中各自出现的比例的比值,乘号右边的式子表 示附在目标评论句子中周围存在形容词的句子所占的比例。这两个比值是本专利技术给出的关于每个词与产品参数的相关度。该相关度越大, 表明该词越可能是产品参数。D、 抽取结果表中的每个产品参数在目标产品评论中的表达模式, 并将其记录成一个产品参数表达模式表。具体地说,对于产品参数结果表(步骤C产本文档来自技高网...

【技术保护点】
一种产品参数获取系统包括: 目标评论词频统计单元,用于统计目标评论中各个名词或名词词组出现的频率并排序,并得到一个词表; 产品评论词频统计单元,用于统计词表中的每个词在不同领域内的产品评论的出现频率并记录,同时查看出现该词的每个 评论子句中出现形容词的子句数目并记录; 相关度计算单元,用于利用目标评论词频统计单元和产品评论词频统计单元的统计结果来计算词表中每个词的相关度,并且将相关度大于某个设定值的词作为结果表中的产品参数; 表达模式抽取单元,用于抽取结 果表中的每个产品参数在目标产品评论中的表达模式并将其记录成一个产品参数表达模式表; 匹配单元,用于通过在目标评论句子中匹配这些表达模式来找到那些隐藏的出现频率不高的产品参数词。

【技术特征摘要】

【专利技术属性】
技术研发人员:杜小勇刘红岩何军魏巍杨慧
申请(专利权)人:杜小勇
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1