System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于BAMIC多示例算法的网页聚类方法、系统及存储介质技术方案_技高网

一种基于BAMIC多示例算法的网页聚类方法、系统及存储介质技术方案

技术编号:40925974 阅读:2 留言:0更新日期:2024-04-18 14:49
本发明专利技术涉及聚类分析领域,公开了一种基于BAMIC多示例算法的网页聚类方法、系统及存储介质,该方法包括:收集网页文本数据,对网页文本数据进行预处理;在多个网页文本数据中选取k个网页文本数据作为簇中心;使用基于OWA算子的Hausdorff距离计算其余网页文本数据分别与各个簇中心的距离,将其余网页文本数据分配至距离最近的簇中形成新的簇;计算新的簇中每个网页文本数据之间的距离,确定新的簇中心;重复获得多个聚类划分结果,每一聚类划分结果包括n个簇中心和n个簇;评估每一聚类划分的结果,获得最佳聚类数。本发明专利技术对网页的特征拆分更加细粒度化,提高了聚类算法的准确性和可靠性。

【技术实现步骤摘要】

本专利技术涉及聚类分析领域,具体而言,涉及一种基于bamic多示例算法的网页聚类方法、系统及存储介质。


技术介绍

1、聚类分析是将给定的未标记标签的集合分组为包含相似特征的不同子集。这些组称为簇。这些簇的特征是,簇内单个对象都与簇内其他对象具有相似性。相反,簇与簇之间的样本则没有这种相似性。一种优秀的聚类方法应该产生集群内相似度高、集群间相似度低的聚类。

2、随着商品经济的发展,产品的生产制造也从统一化供给逐渐发展到个性化供给。互联网作为信息的载体,每时每刻都在产生大量主题各异的web网页文本,数据量巨大,且内容越来越丰富。web网页聚类技术能够实现对互联网中海量数据的快速检索、过滤、聚类和归档,提高人们对网络的利用率,降低搜索信息的时间,是网页大数据处理的基础。当前网页聚类算法中常采用k-means算法(k-means clustering algorithm k均值聚类算法)实现,然而在如今信息爆炸的时代,一张网页中可能包含了不同标签的文本。使用k-means算法的时候,计算特征距离会把无关特征加入,最终导致集群内相似度下降,聚类效果较差。

3、因此,有必要设计一种基于bamic多示例算法的网页聚类方法、系统及存储介质用以解决当前技术中存在的问题。


技术实现思路

1、鉴于此,本专利技术提出了一种基于bamic多示例算法的网页聚类方法、系统及存储介质,旨在解决当前网页聚类过程中受噪声影响大、聚类分析结果准确率低的问题。

2、一个方面,本专利技术提出了一种基于bamic多示例算法的网页聚类方法,包括:

3、s100:收集网页文本数据,对所述网页文本数据进行预处理;

4、s200:在多个所述网页文本数据中选取k个所述网页文本数据作为簇中心;

5、s300:使用基于owa算子的hausdorff距离计算其余网页文本数据分别与各个簇中心的距离,将所述其余网页文本数据分配至距离最近的簇中形成新的簇;

6、s400:计算新的簇中每个所述网页文本数据之间的距离,确定新的簇中心;

7、s500:重复s300和s400获得多个聚类划分结果,每一所述聚类划分结果包括n个簇中心和n个簇;

8、s600:评估每一聚类划分的结果,获得最佳聚类数。

9、进一步的,所述基于owa算子改良的hausdorff距离计算其余网页文本数据分别与k个簇中心的距离,包括:

10、计算公式如下:

11、h(a,b)=max(h(a,b),h(b,a)),其中,

12、h(a,b)=owaamax(a∈a)owabmin(b∈b)‖a-b‖;

13、h(b,a)=owabmax(b∈b)owaamin(a∈a)‖b-a‖;

14、其中,owaamax为示例a的owa算子中最大权重的距离,owaamin为示例a的owa算子中最小权重的距离;owabmin为示例b的owa算子中最小权重的距离;owabmax为示例b的owa算子中最大权重的距离,‖a-b‖为句子a和句子b间的距离范式,‖b-a‖为句子b和句子a间的距离范式。

15、进一步的,句子a和句子b间或句子b和句子a间的距离范式使用余弦距离公式计算:

16、

17、其中,xi是句子a第i个词向量,yi是句子b的第i个词向量。

18、进一步的,对所述网页文本数据进行预处理,包括:

19、使用文本分词工具对所述网页文本数据进行分句、分词以及文字向量化。

20、进一步的,评估每一聚类划分的结果,获得最佳聚类数,包括:

21、评估每一聚类划分结果的凝聚度和分离度,通过比对所述凝聚度和分离度获得最佳聚类数。

22、进一步的,评估每一聚类划分结果的凝聚度和分离度,包括:

23、通过计算轮廓系数去评估每一聚类划分结果的凝聚度和分离度;轮廓系数表达为:

24、

25、其中,a(i)是与同簇中其他样本的平均距离,用于量化簇内的凝聚度,b(i)是与距离最近不同簇中样本的平均距离,用于量化簇之间的分离度。

26、进一步的,所述使用文本分词工具对所述网页文本数据进行分句、分词以及文字向量化,包括:

27、使用jieba python中文分词组件将所述网页文本数据进行分句、分词,使用tf-idf(term frequency-inverse document frequency)算法将每一句话由n个最重要的词向量特征表示。

28、进一步的,s500中还包括:

29、重复至指定迭代次数或是簇中心不再变化时终止。

30、与现有技术相比,本专利技术的有益效果在于:将多实例学习应用在了网页聚类分析当中,相较于以往的传统单示例聚类分析,对于网页的特征拆分更加细粒度化。解决了‘尽管网页样本属于一个簇,但它的一些或大部分实例可能并不真正与该簇相关’的问题。通过引入owa算子和hausdorff距离,改进了传统k-means算法,特别是在处理包含不同标签的网页文本数据时。提高了聚类的准确性。通过重复迭代和评估最佳聚类数,确定最佳的聚类划分,实现更好地组织和归档网页文本数据。

31、另一方面,本申请还提供了一种基于bamic多示例算法的网页聚类系统,包括:

32、存储器;以及

33、耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行上述基于bamic多示例算法的网页聚类方法。

34、另一方面,本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述基于bamic多示例算法的网页聚类方法。

35、可以理解的是,上述基于bamic多示例算法的网页聚类方法、系统及存储介质具备相同的有益效果,在此不再赘述。

本文档来自技高网...

【技术保护点】

1.一种基于BAMIC多示例算法的网页聚类方法,其特征在于,包括:

2.根据权利要求1所述的基于BAMIC多示例算法的网页聚类方法,其特征在于,所述基于OWA算子改良的Hausdorff距离计算其余网页文本数据分别与k个簇中心的距离,包括:

3.根据权利要求2所述的基于BAMIC多示例算法的网页聚类方法,其特征在于,句子a和句子b间或句子b和句子a间的距离范式使用余弦距离公式计算:

4.根据权利要求1所述的基于BAMIC多示例算法的网页聚类方法,其特征在于,对所述网页文本数据进行预处理,包括:

5.根据权利要求1所述的基于BAMIC多示例算法的网页聚类方法,其特征在于,评估每一聚类划分的结果,获得最佳聚类数,包括:

6.根据权利要求5所述的基于BAMIC多示例算法的网页聚类方法,其特征在于,评估每一聚类划分结果的凝聚度和分离度,包括:

7.根据权利要求4所述的基于BAMIC多示例算法的网页聚类方法,其特征在于,所述使用文本分词工具对所述网页文本数据进行分句、分词以及文字向量化,包括:

8.根据权利要求1所述的基于BAMIC多示例算法的网页聚类方法,其特征在于,S500中还包括:

9.一种基于BAMIC多示例算法的网页聚类系统,其特征在于,包括:

10.一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现权利要求1-8任一项所述的基于BAMIC多示例算法的网页聚类方法。

...

【技术特征摘要】

1.一种基于bamic多示例算法的网页聚类方法,其特征在于,包括:

2.根据权利要求1所述的基于bamic多示例算法的网页聚类方法,其特征在于,所述基于owa算子改良的hausdorff距离计算其余网页文本数据分别与k个簇中心的距离,包括:

3.根据权利要求2所述的基于bamic多示例算法的网页聚类方法,其特征在于,句子a和句子b间或句子b和句子a间的距离范式使用余弦距离公式计算:

4.根据权利要求1所述的基于bamic多示例算法的网页聚类方法,其特征在于,对所述网页文本数据进行预处理,包括:

5.根据权利要求1所述的基于bamic多示例算法的网页聚类方法,其特征在于,评估每一聚类划分的结果,获得最佳聚类...

【专利技术属性】
技术研发人员:蔡灿宏
申请(专利权)人:天翼云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1