一种文本处理方法、装置及可读存储介质制造方法及图纸

技术编号:35277834 阅读:33 留言:0更新日期:2022-10-22 12:19
本发明专利技术公开了一种文本处理方法、装置及可读存储介质,文本处理方法,包括:对目标文本进行聚合获得聚类数据集合;基于所述聚类数据集合确定各个类别的聚类数据的聚类中心;根据所述聚类中心通过预设算法进行类合并,以获得文本处理结果。本发明专利技术实施例在确定目标文本的聚类中心之后,根据所确定的聚类中心进行类合并,由此能够缩短还海量数据的处理时间,提高文本数据的处理效率。文本数据的处理效率。文本数据的处理效率。

【技术实现步骤摘要】
一种文本处理方法、装置及可读存储介质


[0001]本专利技术涉及计算机数据处理
,尤其涉及一种文本处理方法、装置及可读存储介质。

技术介绍

[0002]面对动辄成百上千万的新闻媒体数据,常见的聚类算法会出现计算量爆炸问题,导致聚类过程非常耗时,满足不了时效性需求,无法在生产环境中使用。

技术实现思路

[0003]本专利技术实施例提供一种文本处理方法、装置及可读存储介质,缩短还海量数据的处理时间,提高文本数据的处理效率。
[0004]本专利技术实施例提出一种文本处理方法,包括:
[0005]对目标文本进行聚合获得聚类数据集合;
[0006]基于所述聚类数据集合确定各个类别的聚类数据的聚类中心;
[0007]根据所述聚类中心通过预设算法进行类合并,以获得文本处理结果。
[0008]在一示例中,所述对目标文本进行聚合获得聚类数据集合包括:
[0009]采用TF

IDF提取所述目标文本中的关键词数据;
[0010]对所述关键词数据进行过滤,获得过滤结果数据;
[0011]根据TF

IDF权重选取所述过滤结果数据中第一数量的关键词;
[0012]对所述关键词进行排序并拼接,获得标签数据;
[0013]基于所述标签数据利用Reduce函数进行聚合,获得聚类数据集合。
[0014]在一示例中,所述基于所述聚类数据集合确定各个类别的聚类数据的聚类中心包括:
[0015]利用map函数对所述聚类数据集合中每一类别的聚类数据进行关键词统计,获得各个类别的关键词集合;
[0016]根据所述关键词集合中的关键词的TF

IDF权重值确定各个关键词的均值权重;
[0017]选取所述关键词集合中均值权重靠前的第二数量的关键词作为对应类别的聚类中心;
[0018]基于所述聚类中心生成类集合。
[0019]在一示例中,所述选取所述关键词集合中均值权重靠前的第二数量的关键词作为对应类别的聚类中心包括:
[0020]过滤掉所述关键词集合中关键词数量低于所述第二数量的类别。
[0021]在一示例中,所述根据所述聚类中心通过预设算法进行类合并包括:
[0022]利用map函数对所述类集合进行处理,计算所述类集合中不同类别两两元素的相似度;
[0023]在计算获得的所述相似度大于预设相似度阈值的情况下,将两个不同类别的进行
合并。
[0024]在一示例中,所述利用map函数对所述类集合进行处理,计算所述类集合中不同类别两两元素的相似度包括:
[0025]基于所述类集合生成共享集合;
[0026]利用map函数将所述类集合中的元素去扫描所述共享集合中的元素,实现计算不同类别两两元素的相似度。
[0027]在一示例中,所述在计算获得的所述相似度大于预设相似度阈值的情况下,将两个不同类别的进行合并包括:
[0028]将相似度大于预设相似度阈值的两个类别对应的文段合并,获得中间文段;
[0029]重复确定所述中间文段的聚类中心;
[0030]保持所述中间文段在共享集合的索引位置不变,根据所述中间文段的聚类中心更新所述共享集合,并按照预设格式将更新后的类别索引位置添加至合并记录中。
[0031]在一示例中,按照预设格式将更新后的类别索引位置添加至合并记录中之后,所述文本处理方法还包括:
[0032]利用所述合并记录对所述类集合进行合并,获得合并结果集合;
[0033]根据所述合并结果集合中每个元素所包含的集合子目录进行排序;
[0034]从所述合并结果集合中选取集合子目录的数量靠前的第三数量的元素,以获得聚类结果。
[0035]本专利技术实施例还提出一种文本处理装置,包括:
[0036]聚合单元,用于对目标文本进行聚合获得聚类数据集合;
[0037]数据处理单元,用于基于所述聚类数据集合确定各个类别的聚类数据的聚类中心;
[0038]合并单元,用于根据所述聚类中心通过预设算法进行类合并,以获得文本处理结果。
[0039]本专利技术实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现前述的文本处理方法的步骤。
[0040]本专利技术实施例在确定目标文本的聚类中心之后,根据所确定的聚类中心进行类合并,由此能够缩短还海量数据的处理时间,提高文本数据的处理效率。
[0041]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。
附图说明
[0042]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0043]图1为本专利技术实施例基本流程图;
[0044]图2为本专利技术实施例子流程图。
具体实施方式
[0045]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0046]本专利技术实施例提供一种文本处理方法,如图1所示,包括:
[0047]S101、对目标文本进行聚合获得聚类数据集合;
[0048]S102、基于所述聚类数据集合确定各个类别的聚类数据的聚类中心;
[0049]S103、根据所述聚类中心通过预设算法进行类合并,以获得文本处理结果。
[0050]本实施例中,对目标文本进行聚合获得聚类数据集合之前,所述文本处理方法还可以包括:对输入文本数据进行过滤,获得中间文本数据;截取所述中间文本数据中预定位置的指定长度的文本内容,获得目标文本。在一示例中,可以对新闻文章标题和内容正文清除html标签或空格,过滤类似广告无意义或字数不够的文章。然后选取参与计算的文章标题和内容,例如文章的摘要概述一般出现在文章第一段,文章标题对内容得描述也很重要。所以本文综合考虑选取文章标题、摘要等内容,开头200字,中间200字和最后200字内容作为参与后续关键词提取的内容。上述仅代表示例,具体的截取位置以及长度在此不做限定。由此本示例可以利用较少文字来参与聚类分析,提高了计算效率。根据截取到的文段或者文本作为目标文本进行聚合,由此获得聚类数据集合,然后基于聚类数据集合确定各个类别的聚类数据的聚类中心。也即本示例中,一个聚类数据集合中可以包含多个类别的聚类数据,不同的聚类数据可以包括对应的聚类中心。最后根据所述聚类中心通过本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:对目标文本进行聚合获得聚类数据集合;基于所述聚类数据集合确定各个类别的聚类数据的聚类中心;根据所述聚类中心通过预设算法进行类合并,以获得文本处理结果。2.如权利要求1所述的文本处理方法,其特征在于,所述对目标文本进行聚合获得聚类数据集合包括:采用TF

IDF提取所述目标文本中的关键词数据;对所述关键词数据进行过滤,获得过滤结果数据;根据TF

IDF权重选取所述过滤结果数据中第一数量的关键词;对所述关键词进行排序并拼接,获得标签数据;基于所述标签数据利用Reduce函数进行聚合,获得聚类数据集合。3.如权利要求2所述的文本处理方法,其特征在于,所述基于所述聚类数据集合确定各个类别的聚类数据的聚类中心包括:利用map函数对所述聚类数据集合中每一类别的聚类数据进行关键词统计,获得各个类别的关键词集合;根据所述关键词集合中的关键词的TF

IDF权重值确定各个关键词的均值权重;选取所述关键词集合中均值权重靠前的第二数量的关键词作为对应类别的聚类中心;基于所述聚类中心生成类集合。4.如权利要求3所述的文本处理方法,其特征在于,所述选取所述关键词集合中均值权重靠前的第二数量的关键词作为对应类别的聚类中心包括:过滤掉所述关键词集合中关键词数量低于所述第二数量的类别。5.如权利要求3所述的文本处理方法,其特征在于,所述根据所述聚类中心通过预设算法进行类合并包括:利用map函数对所述类集合进行处理,计算所述类集合中不同类别两两元素的相似度;在计算获得的所述相似度大于预设相似度阈值的情...

【专利技术属性】
技术研发人员:万倩朱里越
申请(专利权)人:国家广播电视总局广播电视科学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1