一种文本处理用聚类方法系统技术方案

技术编号：34192477 阅读：27 留言：0更新日期：2022-07-17 15:46

本发明专利技术公开了一种文本处理用聚类方法系统，包括以下步骤，专利数据集构建、基础Word2Vec模型训练、搜索训练语料中低频词、生成低频词的扩展词、扩展词筛选、利用筛选后的扩展词替换低频词生成扩增数据、对基础Word2Vec模型增量训练、生成词向量表示、结合粗分类标签生成专利说明书摘要的向量化表示、融合多次聚类结果与相似度阈值灵活生成专利聚类结果和聚类结果评价。本发明专利技术能够有效提取文本的语义特征，优化低频词的词表示，解决一词多义问题，从而提高聚类的准确性，利用数据共现频率代替设定聚类个数来灵活化得到聚类结果的方法，在未知聚类个数的情况下提高专利文献聚类结果的准确性。文献聚类结果的准确性。文献聚类结果的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本处理用聚类方法系统

[0001]本专利技术涉及专利文本处理
，尤其涉及一种文本处理用聚类方法系统。

技术介绍

[0002]专利聚类是挖掘专利内有价值信息的基础步骤，聚类是一种无监督分析方法，在未知类别与类别数量的情况下将数据的有效特征进行表示，来处理形成类内数据对象高度相似且类间差别尽可能大的聚簇。
[0003]公开号为CN109446319A公开了一种基于K
‑
means的生物医药专利聚类分析方法，属于信息检索
改方法将专利分析中专利申请量、专利授权量、专利成长率、专利有效率4个重要评价指标同时选作为聚类变量进行聚类分析。能够深层次挖掘数据间的关联，较好地对专利数据进行类别划分，使聚类结果更具整体性，以弥补传统专利数据分析的不足。
[0004]公开号CN104881401B公开了一种专利文献聚类方法，包括以下步骤：S1、语料集采集及预处理；S2、聚类分析语料的特征词提取；S3、基于词向量的聚类分析数据专利向量表示；S4、聚类；S5、聚类结果评价。该专利文献聚类方法综合...

【技术保护点】

【技术特征摘要】
1.一种文本处理用聚类方法系统，其特征在于，包括以下步骤：S1：专利数据集构建，从选定领域的专利文献数据库采集专利文献信息组成原始数据集，所述专利文献信息包括专利文献号、专利名称、专利说明书摘要、专利所属IPC大类，从所述原始数据集中提取所有专利的说明书摘要采用分词模型对其去停用词与分词处理存储为训练语料，从所述原始数据集中提取部分专利说明书摘要的关键词存储为测试数据集；S2：专利说明书摘要词向量表示阶段，使用基于数据增强的DAbased
‑
W2V模型来生成词的向量化表示，包括如下小步骤，a1：搜索训练语料中低频词、低频词阈值，则有：其中S
count
为原始语料中词总数，S
V
为词典中词总数，ceil为向上取整，利用训练语料在MLM任务上对BERT模型进行增量训练得到BERT
‑
target模型；对低频词所在文档中低频词位置使用“MASK”进行替换，再使用训练得到的BERT
‑
target的MLM任务对“MASK”位置预测生成最相关的k个待定扩展词；a2：利用训练语料训练得到Word2Vec模型，判断扩展词是否存在于原始语料库内，如果存在则将其表示为1级扩展词，否则将其表示为未登录词；将1级扩展词输入至基础模型中分别得到每个扩展词基于原始语料的m个相关词；而对于原始语料外的未登录词，则利用义原树得到5个2级扩展词，再次判断其是否在原始语料库内，若原始语料库内存在至少1个2级扩展词，则将2级扩展词同样输入至基模型中求解m个相关词，否则将其对应的1级扩展词丢弃；在Word2Vec模型的基础上构建所有1级扩展词、2级扩展词之间的余弦相似度矩阵M；使用矩阵M的行均值m
j
作为该相关词的权值，矩阵M的均值m作为共性阈值；将扩展词对应相关词权重累加平均值作为该扩展词的共性权重D
i
，则有：当共性权重大于0时则保留该词，其中1级待扩展词直接加入扩展词集，2级词将其对应1级词加入扩展词集；a3：用筛选后保留的扩展词替换文档中对应位置的低频词，来生成扩增数据；将扩增数据输入至使用原始数据训练得到的Word2Vec模型中进行增量训练，得到各个词的词表示；S3:词向量组合阶段，将词的整体TF
‑
IDF值whole(tfidf
i
)和粗分类下TF
‑
IDF值part(tfidf
i
)分别与该词向量相乘后再取平均作为该词的加权...

【专利技术属性】
技术研发人员：和志强，王梦雪，马宁，
申请(专利权)人：河北经贸大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人