文本内容的聚类方法和装置制造方法及图纸

技术编号:13864706 阅读:40 留言:0更新日期:2016-10-19 18:37
本发明专利技术公开了一种文本内容的聚类方法和装置。其中,文本内容的聚类方法包括:获取第一文本内容中包含的第一标签和第二文本内容中包含的第二标签;根据第一标签和第二标签,计算得到多个第一关联度;判断多个第一关联度是否均大于每个第一关联度对应的预设阈值;在判断出多个第一关联度均大于每个第一关联度对应的预设阈值的情况下,确定第一文本内容和第二文本内容的归属类别相同;在判断出多个第一关联度中任一第一关联度AA小于第一关联度AA对应的预设阈值的情况下,确定第一文本内容和第二文本内容的归属类别不同。通过本发明专利技术,解决了现有技术中对文本内容聚类不够准确的问题,进而达到了提高文本内容聚类准确性的效果。

【技术实现步骤摘要】

本专利技术涉及文本处理领域,具体而言,涉及一种文本内容的聚类方法和装置
技术介绍
现在的众多舆情监测报系统在对互联网的内容进行数据分析之前,会通过设置网络爬虫抓取到互联网上大量的文章(也可以称为文本),进而可以对爬取到的文章进行数据分析。为了提高对抓取到的文章进行数据分析的效率和准确性,需要先对抓取到的文章进行聚类,也就是将内容相似的文章归为一类。现有技术中对文章进行聚类的方式是通过分析不同文章中文本字符的相似度,从而得出文章之间的相似度,进而确定文章之间的关联性,再根据关联性对文章进行聚类。例如:文章A中反复出现了10次“美丽”和8次“虚拟现实”;文章B中反复出现了10次“美丽”;文章C中反复出现了8次“虚拟现实”。按照现有技术对文章进行聚类的逻辑分析得出:文章A与文章B之间的关联性大于文章A与文章C之间,所以将文章A与文章B归为一类,但其实文章A与文章C应该被归为一类,因为文章A与文章C之间关于“虚拟现实”的关联性对于文章聚类更加重要,即,文章A与文章C可能都是在讲解关于虚拟现实技术的一些应用问题,而文章B却可能仅仅是一篇旅游日志。通过上述内容可知,现有技术中对文章聚类的聚类方式不够准确,若不能准确对文章进行聚类,会导致舆情监测系统后续基于聚类后的文章进行数据分析的分析结果有误。针对现有技术中对文本内容聚类不够准确的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术的主要目的在于提供一种文本内容的聚类方法和装置,以解决现有技术中对文本内容聚类不够准确的问题。为了实现上述目的,根据本专利技术实施例的一个方面,提供了一种文本内容的聚类方法。根据本专利技术的文本内容的聚类方法包括:获取第一文本内容中包含的第一标签和第二文本内容中包含的第二标签,其中,所述第一文本内容为第一网页页面的文本内
容,所述第二文本内容为第二网页页面的文本内容,所述第一标签为所述第一文本内容中包含的标签,所述第二标签为所述第二文本内容中包含的标签,所述第一网页页面和所述第二网页页面为不同的网页页面;根据所述第一标签和所述第二标签,计算得到多个第一关联度;判断多个所述第一关联度是否均大于每个所述第一关联度对应的预设阈值;在判断出多个所述第一关联度均大于每个所述第一关联度对应的预设阈值的情况下,确定所述第一文本内容和所述第二文本内容的归属类别相同;以及在判断出多个所述第一关联度中任一第一关联度AA小于所述第一关联度AA对应的预设阈值的情况下,确定所述第一文本内容和所述第二文本内容的归属类别不同。进一步地,多个所述第一关联度包括:总相似关联度、每个目标标签的出现频次关联度和目标标签数关联度,其中,根据所述第一标签和所述第二标签,计算得到多个第一关联度包括:计算所述第一文本内容中包含所述第一标签的数量;计算所述第二文本内容中包含所述第二标签的数量;计算目标标签的数量和每个所述目标标签的目标出现频次,其中,所述目标出现频次包括第一目标出现频次和第二目标出现频次,所述第一目标出现频次为所述目标标签在所述第一文本内容中的出现频次,所述第二目标出现频次为所述目标标签在所述第二文本内容中的出现频次,所述目标标签为所述第一标签与所述第二标签中相同的标签;根据所述第一标签的数量、所述第二标签的数量、所述目标标签的数量以及每个所述目标标签的所述目标出现频次,计算得到所述总相似关联度;根据每个所述目标标签的所述目标出现频次,计算得到每个所述目标标签的出现频次关联度;以及根据所述目标标签的数量,计算得到所述目标标签数关联度。进一步地,按照公式计算所述总相似关联度,其中,A为所述总相似关联度,V3为所述目标标签的数量,V1为所述第一标签的数量,V2为所述第二标签的数量,P1Dk为目标标签Dk的第一目标出现频次,P2Dk为目标标签Dk的第二目标出现频次;按照公式B(Dk)=P1Dk*P2Dk计算所述目标标签Dk的出现频次关联度,其中,B(Dk)为所述目标标签Dk的出现频次关联度;以及按照公式C=V3计算所述目标标签数关联度,其中,C为所述目标标签数关联度。进一步地,所述预设阈值包括第一预设阈值、第二预设阈值和第三预设阈值,其中,判断多个所述第一关联度是否均大于每个所述第一关联度对应的预设阈值包括:判断所述总相似关联度是否大于所述第一预设阈值、判断每个所述目标标签的出现频次关联度是否均大于所述第二预设阈值,以及所述目标标签数关联度是否大于第三预设阈值;在判断出多个所述第一关联度均大于每个所述第一关联度对应的预设阈值的情况下,确定所述第一文本内容和所述第二文本内容的归属类别相同包括:在判断出
所述总相似关联度大于所述第一预设阈值、每个所述目标标签的出现频次关联度均大于所述第二预设阈值,并且所述目标标签数关联度大于所述第三预设阈值的情况下,确定所述第一文本内容和所述第二文本内容的所述归属类别相同;在判断出多个所述第一关联度中任一所述第一关联度AA小于所述第一关联度AA对应的预设阈值的情况下,确定所述第一文本内容和所述第二文本内容的归属类别不同包括:在判断出所述总相似关联度小于所述第一预设阈值、任一所述目标标签的出现频次关联度小于所述第二预设阈值、或者所述目标标签数关联度小于所述第三预设阈值的情况下,确定所述第一文本内容和所述第二文本内容的所述归属类别不同。进一步地,在获取第一文本内容中包含的第一标签和第二文本内容中包含的第二标签之前,所述聚类方法还包括:接收设置指令,其中,所述设置指令用于生成标签库,所述标签库中存储多个标签,以及与每个所述标签包含的至少一个关联词。进一步地,获取第一文本内容中包含的第一标签和所述第二文本内容中包含的第二标签包括:将所述第一文本内容与所述标签库进行匹配,得到多个第一关联词,其中,所述第一关联词为所述第一文本内容中包含的关联词;查找包含每个所述第一关联词的标签,得到多个不同的所述第一标签;根据每个所述第一标签中包含的所述第一关联词在所述第一文本内容中的出现频次,得到每个所述第一标签在所述第一文本内容中的出现频次;将所述第二文本内容与所述标签库进行匹配,得到多个第二关联词,其中,所述第二关联词为所述第二文本内容中包含的关联词;查找包含每个所述第二关联词的标签,得到多个不同的所述第二标签;以及根据每个所述第二标签中包含的所述第二关联词在所述第二文本内容中的出现频次,得到每个所述第二标签在所述第二文本内容中的出现频次。进一步地,在确定所述第一文本内容和所述第二文本内容的归属类别相同之后,或者在确定所述第一文本内容和所述第二文本内容的归属类别不同之后,所述聚类方法还包括:获取第三文本内容中包含的第三标签,其中,所述第三文本内容为第三网页页面的文本内容,所述第三标签为所述第三文本内容中包含的标签,所述第一网页页面、所述第二网页页面和所述第三网页页面均为不同的网页页面;根据所述第一标签和所述第三标签,计算得到多个第二关联度;判断多个所述第二关联度是否均大于每个所述第二关联度对应的预设阈值;在判断出多个所述第二关联度均大于每个所述第二关联度对应的预设阈值的情况下,确定所述第一文本内容和所述第三文本内容的归属类别相同;在判断出多个所述第二关联度中任一第二关联度BB小于所述第二关联度BB对应的预设阈值的情况下,确定所述第一文本内本文档来自技高网
...

【技术保护点】
一种文本内容的聚类方法,其特征在于,包括:获取第一文本内容中包含的第一标签和第二文本内容中包含的第二标签,其中,所述第一文本内容为第一网页页面的文本内容,所述第二文本内容为第二网页页面的文本内容,所述第一标签为所述第一文本内容中包含的标签,所述第二标签为所述第二文本内容中包含的标签,所述第一网页页面和所述第二网页页面为不同的网页页面;根据所述第一标签和所述第二标签,计算得到多个第一关联度;判断多个所述第一关联度是否均大于每个所述第一关联度对应的预设阈值;在判断出多个所述第一关联度均大于每个所述第一关联度对应的预设阈值的情况下,确定所述第一文本内容和所述第二文本内容的归属类别相同;以及在判断出多个所述第一关联度中任一第一关联度AA小于所述第一关联度AA对应的预设阈值的情况下,确定所述第一文本内容和所述第二文本内容的归属类别不同。

【技术特征摘要】
1.一种文本内容的聚类方法,其特征在于,包括:获取第一文本内容中包含的第一标签和第二文本内容中包含的第二标签,其中,所述第一文本内容为第一网页页面的文本内容,所述第二文本内容为第二网页页面的文本内容,所述第一标签为所述第一文本内容中包含的标签,所述第二标签为所述第二文本内容中包含的标签,所述第一网页页面和所述第二网页页面为不同的网页页面;根据所述第一标签和所述第二标签,计算得到多个第一关联度;判断多个所述第一关联度是否均大于每个所述第一关联度对应的预设阈值;在判断出多个所述第一关联度均大于每个所述第一关联度对应的预设阈值的情况下,确定所述第一文本内容和所述第二文本内容的归属类别相同;以及在判断出多个所述第一关联度中任一第一关联度AA小于所述第一关联度AA对应的预设阈值的情况下,确定所述第一文本内容和所述第二文本内容的归属类别不同。2.根据权利要求1所述的聚类方法,其特征在于,多个所述第一关联度包括:总相似关联度、每个目标标签的出现频次关联度和目标标签数关联度,其中,根据所述第一标签和所述第二标签,计算得到多个第一关联度包括:计算所述第一文本内容中包含所述第一标签的数量;计算所述第二文本内容中包含所述第二标签的数量;计算目标标签的数量和每个所述目标标签的目标出现频次,其中,所述目标出现频次包括第一目标出现频次和第二目标出现频次,所述第一目标出现频次为所述目标标签在所述第一文本内容中的出现频次,所述第二目标出现频次为所述目标标签在所述第二文本内容中的出现频次,所述目标标签为所述第一标签与所述第二标签中相同的标签;根据所述第一标签的数量、所述第二标签的数量、所述目标标签的数量以及每个所述目标标签的所述目标出现频次,计算得到所述总相似关联度;根据每个所述目标标签的所述目标出现频次,计算得到每个所述目标标签的出现频次关联度;以及根据所述目标标签的数量,计算得到所述目标标签数关联度。3.根据权利要求2所述的聚类方法,其特征在于,按照公式计算所述总相似关联度,其中,A为所述总相似关联度,V3为所述目标标签的数量,V1为所述第一标签的数量,V2为所述第二标签的数量,P1Dk为目标标签Dk的第一目标出现频次,P2Dk为目标标签Dk的第二目标出现频次;按照公式B(Dk)=P1Dk*P2Dk计算所述目标标签Dk的出现频次关联度,其中,B(Dk)为所述目标标签Dk的出现频次关联度;以及按照公式C=V3计算所述目标标签数关联度,其中,C为所述目标标签数关联度。4.根据权利要求2所述的聚类方法,其特征在于,所述预设阈值包括第一预设阈值、第二预设阈值和第三预设阈值,其中,判断多个所述第一关联度是否均大于每个所述第一关联度对应的预设阈值包括:判断所述总相似关联度是否大于所述第一预设阈值、判断每个所述目标标签的出现频次关联度是否均大于所述第二预设阈值,以及所述目标标签数关联度是否大于第三预设阈值;在判断出多个所述第一关联度均大于每个所述第一关联度对应的预设阈值的情况下,确定所述第一文本内容和所述第二文本内容的归属类别相同包括:在判断出所述总相似关联度大于所述第一预设阈值、每个所述目标标签的出现频次关联度均大于所述第二预设阈值,并且所述目标标签数关联度大于所述第三预设阈值的情况下,确定所述第一文本内容和所述第二文本内容的所述归属类别相同;在判断出多个所述第一关联度中任一第一关联度AA小于所述第一关联度AA对应的预设阈值的情况下,确定所述第一文本内容和所述第二文本内容的归属类别不同包括:在判断出所述总相似关联度小于所述第一预设阈值、任一所述目标标签的出现频次关联度小于所述第二预设阈值、或者所述目标标签数关联度小于所述第三预设阈值的情况下,确定所述第一文本内容和所述第二文本内容的所述归属类别不同。5.根据权利要求1所述的聚类方法,其特征在于,在获取第一文本内容中包含的第一标签和第二文本内容中包含的第二标签之前,所述聚类方法还包括:接收设置指令,其中,所述设置指令用于生成标签库,所述标签库中存储多个标签,以及与每个所述标签包含的至少一个关联词。6.根据权利要求5所述的聚类方法,其特征在于,获取第一文本内容中包含的第一标签和所述第二文本内容中包含的第二标签包括:将所述第一文本内容与所述标签库进行匹配,得到多个第一关联词,其中,所述第一关联词为所述第一文本内容中包含的关联词;查找包含每个所述第一关联词的标签,得到多个不同的所述第一标签;根据每个所述第一标签中包含的所述第一关联词在所述第一文本内容中的出现频次,得到每个所述第一标签在所述第一文本内容中的出现频次;将所述第二文本内容与所述标签库进行匹配,得到多个第二关联词,其中,所述第二关联词为所述第二文本内容中包含的关联词;查找包含每个所述第二关联词的标签,得到多个不同的所述第二标签;以及根据每个所述第二标签中包含的所述第二关联词在所述第二文本内容中的出现频次,得到每个所述第二标签在所述第二文本内容中的出现频次。7.根据权利要求1所述的聚类方法,其特征在于,在确定所述第一文本内容和所述第二文本内容的归属类别相同之后,或者在确定所述第一文本内容和所述第二文本内容的归属类别不同之后,所述聚类方法还包括:获取第三文本内容中包含的第三标签,其中,所述第三文本内容为第三网页页面的文本内容,所述第三标签为所述第三文本内容中包含的标签,所述第一网页页面、所述第二网页页面和所述第三网页页面均为不同的网页页面;根据所述第一标签和所述第三标签,计算得到多个第二关联度;判断多个所述第二关联度是否均大于每个所述第二关联度对应的预设阈值;在判断出多个所述第二关联度均大于每个所述第二关联度对应的预设阈值的情况下,确定所述第一文本内容和所述第三文本内容的归属类别相同;在判断出多个所述第二关联度中任一第二关联度BB小于所述第二关联度BB对应的预设阈值的情况下,确定所述第一文本内容和所述第三文本内容的归属类别不同;根据所述第二标签和所述第三标签,计算得到多个第三关联度;判断多个所述第三关联度是否均大于每个所述第三关联度对应的预设阈值;在判断出多个所述第三关联度均大于每个所述第三关联度对应的预设阈值的情况下,确定所述第二文本内容和所述第三文本内容的归属类别相同;以及在判断出多个所述第三关联度中任一第三关联度CC小于所述第三关联度CC对应的预设阈值的情况下,确定所述第二文本内容和所述第三文本内容的归属类别不同,其中,在确定所述第一文本内容和所述第二文本内容的归属类别相同、所述第一文本内容和所述第三文本内容的归属类别相同、并且所述第二文本内容和所述第三文本内容的归属类别相同的情况下,确定所述第一文本内容、所述第二文本内容和所述第三文本内容的所述归属类别相同。8.一种文本内容的聚类装置,其特征在于,包括:第一获取单元,用于获取第一文本内容中包含的第一标签和第二文本内容...

【专利技术属性】
技术研发人员:陈俊宏余德乐杨韬赵冬玲
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1