当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于语句相似度的话题观点聚类方法技术

技术编号:14530396 阅读:146 留言:0更新日期:2017-02-02 13:03
本发明专利技术公开了一种基于语句相似度的话题观点聚类方法。本发明专利技术可以对互联网中围绕某一话题的主要观点进行聚类,首先利用人机结合的方式构建针对话题的观点词库,然后抽取话题的所有观点语句并利用观点语句的相似度进行观点聚类,最后根据语句平均相似度为每一观点类选取代表观点语句。本发明专利技术的优势在于能够确保聚类结果更加多样化和精细化,让用户能更清晰地了解该话题的各方观点及其细节,有效避免观点聚类及描述的模糊性和片面性。

【技术实现步骤摘要】

本专利技术涉及一种基于语句相似度的话题观点聚类方法,可用于实现互联网热门话题的观点聚类和观点挖掘等,属于计算机网络

技术介绍
随着移动互联网的飞速发展,网络上的内容信息纷繁复杂,观点多元化特征明显。为了增加对互联网内容话题的深度认知和避免被片面的信息误导,人们越来越需要从大量互联网信息中获取其他人对某一话题的观点,并通过对相关不同观点进行对比,帮助自己做出更加合理的决策。例如,在电子购物时,人们往往需要根据商品评论的倾向性,判断该商品是否值得购买。观点聚类是解决此类问题的主要方法,通过对大量的商品评论进行观点聚类,可以增加用户对商品优点和缺陷的认识,从而更加理性地决策是否应该购买该商品。传统的观点聚类方法所针对的对象一般是网络短文本,如商品评论、新闻评论、意见征询等观点密度较高的文本。通常的做法是,首先识别出文本中的感情词,然后计算感情词的极性大小,最后通过感情词极性累加求和的方式,获得文本的观点倾向值。但是,由于传统方法在进行观点聚类时的主要依据是文本观点倾向值,所关注的是对特定话题的整体感觉,通常只是将文本分成三类:正面、反面和中性等。因此分类粒度较为粗糙,用户一般只能了解每一类别的极性,而无法了解类别的论点、论据和论证过程。并且,对于观点数量较多的话题,或者难以简单地用正和反来描述观点的话题,传统观点聚类方法的效果有很大局限性,很难满足用户的需求。因此,针对这类应用,亟需设计一种更加精细化的观点聚类方法,以便用户能更清晰地了解某一话题的各方观点及其细节,增加用户见闻,厘清各种观点,避免被片面性的观点所误导等。
技术实现思路
专利技术目的:针对现有技术中存在的问题与不足,本专利技术提供一种基于语句相似度的话题观点聚类方法,可以对围绕某一话题的主要观点进行聚类,确保聚类结果更加多样化和精细化,从而让用户能更清晰地了解该话题的各方观点及其细节,有效避免观点聚类及描述的模糊性和片面性。技术方案:一种基于语句相似度的话题观点聚类方法,首先利用人机结合的方式构建针对话题的观点词库,然后抽取话题的所有观点语句(包含观点词的语句)并利用观点语句的相似度进行观点聚类,最后根据语句平均相似度为每一观点类选取代表观点语句。具体可以分为三个步骤:步骤1,构建观点词库。先通过人工方式从互联网中围绕待聚类话题的文本中筛选该话题的种子观点词,之后利用同义词扩展规则对种子观点词进行扩展,最终形成针对该话题的观点词库。步骤2,话题观点聚类。抽取该话题所有相关文本中的观点语句(包含观点词的语句),利用语句相似度计算公式计算这些观点语句之间的相似度,再利用自底向上的层次聚类方法完成话题观点聚类。步骤3,抽取观点代表语句。对于聚类所得的该话题每一观点类,从隶属该观点类的所有观点语句中,按照语句平均相似度最高的原则,选取其中最具代表性的语句作为该观点类的代表观点语句。有益效果:1.采用能够反映立场、看法、主张等的观点词作为观点语句的标志,有利于表征和抽取长文本中蕴含观点的多个语句(即观点语句)。2.通过语句相似度来量化表示观点语句间的相似关系,以此为基础进行观点语句聚类,可以确保聚类结果更加多样化和精细化,并能有效避免观点聚类及其描述的模糊性和片面性。3.不但能够对话题观点进行聚类,而且能够根据语句平均相似度为每一观点类选取代表观点语句,从而方便用户能更清晰地了解话题主要观点类的论点、论据和论证过程等细节。附图说明图1为本专利技术实施例中种子观点词的示例;图2为哈工大信息检索研究室《同义词词林扩展版》的五层结构;图3为本专利技术实施例所得的观点词库示例;图4为本专利技术进行话题观点聚类的计算流程。具体实施方式下面结合具体实施例,进一步阐明本专利技术,应理解这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围,在阅读了本专利技术之后,本领域技术人员对本专利技术的各种等价形式的修改均落于本申请所附权利要求所限定的范围。本专利技术在具体实施时,先通过网络爬虫等工具从互联网采集与待聚类话题相关的文本,然后按照构建观点词库、话题观点聚类、抽取观点代表语句等3个步骤进行观点聚类,具体各步骤的实施如下:步骤1,构建观点词库。首先根据话题相关文本,通过经验知识、观察阅读与分析等,为待聚类话题选择最基本的“种子”观点词,图1为“种子”观点词的示例。互联网中的内容信息纷繁复杂,但仅通过人工方式筛选搜集的“种子”观点词数量一般较少,因此其覆盖度相对有限,难以构成比较完整、全面的观点词库。所以,本专利技术采用哈工大信息检索研究室《同义词词林扩展版》建立同义词规则,对经人工方式所得的“种子”观点词进行扩展。《同义词词林扩展版》是哈尔滨工业大学信息检索实验室在梅家驹等人编撰的《同义词词林》基础上,参照多部电子词典资源及人民日报语料库等所编写的比较权威的汉语同义词词表,一共包含77343条词语。《同义词词林扩展版》将中文词条按照语义的相近性组织成树状层次结构,它所采用的五层结构如图2所示。所有词条都位于树的叶结点上,两个词的距离越近则它们的语义相似度越高;而同一个叶结点下的词条,语义基本相似,彼此互为同义词。借助于同义词规则,进一步对“种子”观点词集合进行扩展,过程如下:首先,将经人工方式获得的基本“种子”观点词作为初始数据,加入到观点词集合中;然后,根据《同义词词林扩展版》及同义词规则,对观点词集合中的“种子”观点词进行扩展,把“种子”观点词的同义词也加入到观点词集合中;最后,对经扩展所得的观点词集合,再进行一轮人工筛选,确保观点词集合的合理性和有效性。按上述过程最终获得的观点词集合如图3所示。步骤2,话题观点聚类。首先根据分句规则对网页正文进行分句,然后抽取该话题所有相关文本中的观点语句(包含观点词的语句),构建该话题的观点语句库。接下来,利用语句相似度计算公式计算这些观点语句之间的相似度,最后利用自底向上的层次聚类方法完成话题观点聚类。该步骤具体又分为4个子步骤,具体实施方式如下:子步骤2-1,网页正文分句。首先根据分句规则对网页正文进行分句。假设网页集合DS={d1,d2,d3,...本文档来自技高网...

【技术保护点】
一种基于语句相似度的话题观点聚类方法,其特征在于:首先利用人机结合的方式构建针对话题的观点词库,然后抽取话题的所有观点语句并利用观点语句的相似度进行观点聚类,最后根据语句平均相似度为每一观点类选取代表观点语句;具体可以分为三个步骤:步骤1,构建观点词库;从互联网中围绕待聚类话题的文本中筛选该话题的种子观点词,之后利用同义词扩展规则对种子观点词进行扩展,最终形成针对该话题的观点词库;步骤2,话题观点聚类;抽取该话题所有相关文本中的观点语句,利用语句相似度计算公式计算这些观点语句之间的相似度,再利用自底向上的层次聚类方法完成话题观点聚类;步骤3,抽取观点代表语句;对于聚类所得的该话题每一观点类,从隶属该观点类的所有观点语句中,按照语句平均相似度最高的原则,选取其中最具代表性的语句作为该观点类的代表观点语句。

【技术特征摘要】
1.一种基于语句相似度的话题观点聚类方法,其特征在于:首先利用人机结合的方式构建针对话题的观点词库,然后抽取话题的所有观点语句并利用观点语句的相似度进行观点聚类,最后根据语句平均相似度为每一观点类选取代表观点语句;具体可以分为三个步骤:步骤1,构建观点词库;从互联网中围绕待聚类话题的文本中筛选该话题的种子观点词,之后利用同义词扩展规则对种子观点词进行扩展,最终形成针对该话题的观点词库;步骤2,话题观点聚类;抽取该话题所有相关文本中的观点语句,利用语句相似度计算公式计算这些观点语句之间的相似度,再利用自底向上的层次聚类方法完成话题观点聚类;步骤3,抽取观点代表语...

【专利技术属性】
技术研发人员:杨鹏袁志伟顾梁赵丹丹
申请(专利权)人:东南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1