属性提取和聚类设备及方法技术

技术编号：7809394 阅读：139 留言：0更新日期：2012-09-27 08:13

本发明专利技术提供了一种用于获得文本中的属性和描述的设备，包括：提取单元，用于从文本中提取所有词语；向量生成单元，用于生成针对已提取的词语的上下文向量；聚类单元，用于根据所生成的上下文向量对已提取的词语进行聚类；以及区分单元，用于将已聚类的词语进行区分。本发明专利技术还提供了一种用于获得文本中的属性和描述的方法。通过本发明专利技术，能够从文本格式的评论中提取属性，还能够对各种类别的词语进行聚类并加以区分，从而获得更加精确的聚类结果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域，具体涉及一种。
技术介绍
随着因特网的发展，越来越多的人在网上发布信息，其中包括用户对产品、服务的评论和人们对事件、政策等的看法。这些评论和看法例如可以发表在购物网站、论坛和个人博客上。通过分析这些文本，可以了解人们对于产品、服务、事件、政策等的意见和态度，因此具有很大的价值。具体地，对产品和服务而言，有两个重要需求。第一是提取描述对象和对应的描述，其中描述对象通常是产品和服务的某种属性。例如“这个手机的屏幕很大”，对产品“手机”而言，“屏幕”是描述对象(它是手机的一种属性)，“大”是对“屏幕”的描述。在以下论述中，将描述对象称为“属性”。注意，这是只是为了称呼方便，事实上描述对象可能包含产品和服务的狭义属性之外的内容，例如“这个手机适合商业人士”，描述对象是手机的适用人群，这并不是狭义上的手机的属性(例如屏幕、电池等)。第二是针对属性进行聚类。人们常常用不同的词语描述同一属性，例如“屏幕i‘显示屏” “屏”都是指手机的屏幕。如果系统可以把关于它们的描述分开提取和总结，例如“80 %的用户喜欢这款手机的屏幕，20 %的用户不喜欢。60 %的用户喜欢这款手机的显示屏，40%的用户不喜欢”，则用户感受较差。如果系统可以把它们聚合起来，显示总的统计结果“70%的用户这款手机的屏幕(显示屏、屏)，30%的用户不喜欢”，则用户感受较好。所以，把实质意义相同而词语表述不同的属性进行聚类是很有意义的。参考文献1( “Product Feature Categorization with Multilevel LatentSemanti...

【技术保护点】

【技术特征摘要】
1.一种用于获得文本中的属性和描述的设备，包括提取单元，用于从文本中提取所有词语；向量生成単元，用于生成针对已提取的词语的上下文向量；聚类单元，用于根据所生成的上下文向量对已提取的词语进行聚类；以及区分単元，用于将已聚类的词语进行区分。2.根据权利要求I所述的设备，其中，所述区分单元对已聚类的词语中属于同一类的词语按照词性分为多个组，井根据所述多个组中的词语在文本中的前后出现关系对所述多个组中的词语进行区分。3.根据权利要求2所述的设备，其中，所述区分単元被配置为针对所述多个组中的任意两组i和j，计算第i组的词语在所述文本中出现在第j组的词语之前的次数Nij以及第j组的词语在所述文本中出现在第i组的词语之前的次数Nji ；以及如果Nu > Nu，则第i组的词语为属性，且第j组的词语为描述；如果Nu < Nu，则第j组的词语为属性，且第i组的词语为描述。4.根据权利要求3所述的设备，其中，所述区分单元还被配置为当某个组i既被区分为属性又被区分为描述时，针对所有的组计算5.根据权利要求I所述的设备，其中，所述聚类単元包括相似度计算子単元，计算已提取的词语之间的相似度；以及类中心计算子単元，基于计算得到的相似度来计算各个类的类中心，从而对已提取的词语进行聚类。6.根据权利要求5所述的设备，其中，所述类中心计算子単元计算參数矩阵[r(i，k)]*和[a(i, k) ]n*n, r (i, k)表示点k适合作为点i的类中心的程度，a(i, k)表示点i选择点k作为它的类中心的适合程度，η表示点的总数，并且所述类中心计算子単元选择与r(i，k)和a(i，k)的最大和相对应的点k作为点i的类中心。7.根据权利要求6所述的设备，其中，所述类中心计算子単元按照迭代的方式计算參数矩阵[r(i，k)]nto和[a(i，k)]_，直到计算结果不再发生变化、或者计算结果变化小于...

【专利技术属性】
技术研发人员：赵凯，胡长建，邱立坤，许洪志，王大亮，
申请(专利权)人：日电中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人