一种文本处理方法、装置及可读存储介质制造方法及图纸

技术编号：35277834 阅读：33 留言：0更新日期：2022-10-22 12:19

本发明专利技术公开了一种文本处理方法、装置及可读存储介质，文本处理方法，包括：对目标文本进行聚合获得聚类数据集合；基于所述聚类数据集合确定各个类别的聚类数据的聚类中心；根据所述聚类中心通过预设算法进行类合并，以获得文本处理结果。本发明专利技术实施例在确定目标文本的聚类中心之后，根据所确定的聚类中心进行类合并，由此能够缩短还海量数据的处理时间，提高文本数据的处理效率。文本数据的处理效率。文本数据的处理效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本处理方法、装置及可读存储介质

[0001]本专利技术涉及计算机数据处理
，尤其涉及一种文本处理方法、装置及可读存储介质。

技术介绍

[0002]面对动辄成百上千万的新闻媒体数据，常见的聚类算法会出现计算量爆炸问题，导致聚类过程非常耗时，满足不了时效性需求，无法在生产环境中使用。

技术实现思路

[0003]本专利技术实施例提供一种文本处理方法、装置及可读存储介质，缩短还海量数据的处理时间，提高文本数据的处理效率。
[0004]本专利技术实施例提出一种文本处理方法，包括：
[0005]对目标文本进行聚合获得聚类数据集合；
[0006]基于所述聚类数据集合确定各个类别的聚类数据的聚类中心；
[0007]根据所述聚类中心通过预设算法进行类合并，以获得文本处理结果。
[0008]在一示例中，所述对目标文本进行聚合获得聚类数据集合包括：
[0009]采用TF
‑
IDF提取所述目标文本中的关键词数据；
[0010]对所述关键词数据进行过滤，获得过滤结果数据；
[0011]根据TF
‑
IDF权重选取所述过滤结果数据中第一数量的关键词；
[0012]对所述关键词进行排序并拼接，获得标签数据；
[0013]基于所述标签数据利用Reduce函数进行聚合，获得聚类数据集合。
[0014]在一示例中，所述基于所述聚类数据集合确定各个类别的聚类数据的聚类中心包括：
[0015]利用ma...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法，其特征在于，包括：对目标文本进行聚合获得聚类数据集合；基于所述聚类数据集合确定各个类别的聚类数据的聚类中心；根据所述聚类中心通过预设算法进行类合并，以获得文本处理结果。2.如权利要求1所述的文本处理方法，其特征在于，所述对目标文本进行聚合获得聚类数据集合包括：采用TF
‑
IDF提取所述目标文本中的关键词数据；对所述关键词数据进行过滤，获得过滤结果数据；根据TF
‑
IDF权重选取所述过滤结果数据中第一数量的关键词；对所述关键词进行排序并拼接，获得标签数据；基于所述标签数据利用Reduce函数进行聚合，获得聚类数据集合。3.如权利要求2所述的文本处理方法，其特征在于，所述基于所述聚类数据集合确定各个类别的聚类数据的聚类中心包括：利用map函数对所述聚类数据集合中每一类别的聚类数据进行关键词统计，获得各个类别的关键词集合；根据所述关键词集合中的关键词的TF
‑
IDF权重值确定各个关键词的均值权重；选取所述关键词集合中均值权重靠前的第二数量的关键词作为对应类别的聚类中心；基于所述聚类中心生成类集合。4.如权利要求3所述的文本处理方法，其特征在于，所述选取所述关键词集合中均值权重靠前的第二数量的关键词作为对应类别的聚类中心包括：过滤掉所述关键词集合中关键词数量低于所述第二数量的类别。5.如权利要求3所述的文本处理方法，其特征在于，所述根据所述聚类中心通过预设算法进行类合并包括：利用map函数对所述类集合进行处理，计算所述类集合中不同类别两两元素的相似度；在计算获得的所述相似度大于预设相似度阈值的情...

【专利技术属性】
技术研发人员：万倩，朱里越，
申请(专利权)人：国家广播电视总局广播电视科学研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人