文本数据处理方法技术

技术编号:39813842 阅读:7 留言:0更新日期:2023-12-22 19:31
本发明专利技术涉及数据处理技术领域,提供一种文本数据处理方法

【技术实现步骤摘要】
文本数据处理方法、装置、电子设备及存储介质


[0001]本专利技术涉及数据处理
,尤其涉及一种文本数据处理方法

装置

电子设备及存储介质


技术介绍

[0002]随着互联网技术的普及,跨语言信息传输变得愈发重要

机器翻译作为一种能够帮助人们快速理解和传播不同语言内容的工具,在各个领域都具有广泛应用价值

机器翻译采用的主流翻译模型在训练和调试时均需要大量分类准确的文本

[0003]现有的文本数据处理方法,通常是直接将语料库中类别已知的分类文档拆解成固定粒度的文本,并将拆解得到的所有文本均归为分类文档所属的类别,但是由于分类文档中并非所有文本都属于分类文档所属的类别,这将导致文本数据处理结果无法准确地应用于下游任务


技术实现思路

[0004]本专利技术提供一种文本数据处理方法

装置

电子设备及存储介质,用以解决现有技术中存在的缺陷

[0005]本专利技术提供一种文本数据处理方法,包括:
[0006]将类别已知的每个分类文档切分为多个单位文本,并对所述多个单位文本进行聚类,得到多个不可划分的叶子簇;
[0007]基于各分类文档对应的叶子簇,构成叶子簇集合,计算所述叶子簇集合中各叶子簇的单位文本之间的相似度,得到所述叶子簇集合的相似度矩阵,并基于所述相似度矩阵,构建所述叶子簇集合中的叶子簇相似链,基于所述叶子簇相似链,确定所述叶子簇集合中各叶子簇的簇标签;
[0008]确定所述各分类文档中出现的行业术语,并计算所述行业术语在不同类别下的逆文档频率,基于所述行业术语在每个类别下各叶子簇内的出现频率以及所述逆文档频率,计算每个类别下各叶子簇在所属类别下的簇权重;
[0009]合并具有相同簇标签的叶子簇的单位文本,得到所属簇标签下的文本集合

[0010]根据本专利技术提供的一种文本数据处理方法,对所述多个单位文本进行聚类,得到多个不可划分的叶子簇,包括:
[0011]对所述多个单位文本进行聚类,得到多个聚类簇;
[0012]对于任一聚类簇,若所述任一聚类簇的类型为可划分的中间簇,则对所述任一聚类簇进行聚类操作,直至得到的聚类簇的类型为所述叶子簇

[0013]根据本专利技术提供的一种文本数据处理方法,基于所述相似度矩阵,构建所述叶子簇集合中的叶子簇相似链,包括:
[0014]取出所述叶子簇集合中的任一叶子簇作为当前叶子簇相似链的初始叶子簇,计算所述叶子簇集合中的剩余叶子簇与所述当前叶子簇相似链的初始叶子簇的相似度,并选取
所述叶子簇集合中相似度大于相似度阈值的剩余叶子簇加入所述当前叶子簇相似链;
[0015]若所述叶子簇集合与所述当前叶子簇相似链的差集不为空,则取出所述差集中的任一叶子簇作为下一叶子簇相似链的初始叶子簇,计算所述差集中的剩余叶子簇与所述下一叶子簇相似链的初始叶子簇的相似度,并选取所述差集中相似度大于所述相似度阈值的剩余叶子簇加入所述下一叶子簇相似链;
[0016]计算所述差集与所述下一叶子簇相似链的差集,迭代进行叶子簇相似链的构建过程,直至最终计算得到的差集为空

[0017]根据本专利技术提供的一种文本数据处理方法,计算所述行业术语在不同类别下的逆文档频率,包括:
[0018]对于任一类别,计算所述任一类别的分类文档中出现所述行业术语的第一文档数量以及所述任一类别的分类文档的第二文档数量,并计算所述第一文档数量与所述第二文档数量的第一比值;
[0019]计算其他类别的分类文档中出现所述行业术语的第三文档数量以及所述其他类别的分类文档的第四文档数量,并计算所述第三文档数量与所述第四文档数量的第二比值;
[0020]基于所述第一比值以及所述第二比值,计算所述行业术语在所述任一类别下的逆文档频率

[0021]根据本专利技术提供的一种文本数据处理方法,基于所述第一比值以及所述第二比值,计算所述行业术语在所述任一类别下的逆文档频率,包括:
[0022]计算所述第一比值与所述第二比值的比值,得到所述行业术语在所述任一类别下的逆文档频率

[0023]根据本专利技术提供的一种文本数据处理方法,基于所述行业术语在所述叶子簇集合中各叶子簇内的出现频率以及所述逆文档频率,计算所述叶子簇集合中各叶子簇在所属类别下的簇权重,包括:
[0024]对于任一类别下任一叶子簇内出现的任一行业术语,计算所述任一行业术语在所述任一叶子簇内的出现频率与所述任一行业术语在所述任一类别下的逆文档频率的乘积,并将所述任一叶子簇内出现的各行业术语对应的所述乘积进行相加,得到所述任一叶子簇在所述任一类别下的权重基值;
[0025]将所述任一类别下各叶子簇的权重基值进行归一化,得到所述任一类别下各叶子簇的簇权重

[0026]本专利技术还提供一种文本数据处理装置,包括:
[0027]聚类模块,用于将类别已知的每个分类文档切分为多个单位文本,并对所述多个单位文本进行聚类,得到多个不可划分的叶子簇;
[0028]簇标签确定模块,用于基于各分类文档对应的叶子簇,构成叶子簇集合,计算所述叶子簇集合中各叶子簇的单位文本之间的相似度,得到所述叶子簇集合的相似度矩阵,并基于所述相似度矩阵,构建所述叶子簇集合中的叶子簇相似链,基于所述叶子簇相似链,确定所述叶子簇集合中各叶子簇的簇标签;
[0029]簇权重确定模块,用于确定所述各分类文档中出现的行业术语,并计算所述行业术语在不同类别下的逆文档频率,基于所述行业术语在每个类别下各叶子簇内的出现频率
以及所述逆文档频率,计算每个类别下各叶子簇在所属类别下的簇权重;
[0030]合并模块,用于合并具有相同簇标签的叶子簇的单位文本,得到所属簇标签下的文本集合

[0031]本专利技术还提供一种电子设备,包括存储器

处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述的文本数据处理方法

[0032]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的文本数据处理方法

[0033]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的文本数据处理方法

[0034]本专利技术提供的文本数据处理方法

装置

电子设备及存储介质,该方法首先将类别已知的每个分类文档切分为多个单位文本,并对多个单位文本进行聚类,得到多个不可划分的叶子簇;然后基于各分类文档对应的叶子簇,构成叶子簇集合,计算叶子簇集合中各叶子簇的单位文本之间的相似度,得到叶子簇集合的相似度矩阵,并基本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种文本数据处理方法,其特征在于,包括:将类别已知的每个分类文档切分为多个单位文本,并对所述多个单位文本进行聚类,得到多个不可划分的叶子簇;基于各分类文档对应的叶子簇,构成叶子簇集合,计算所述叶子簇集合中各叶子簇的单位文本之间的相似度,得到所述叶子簇集合的相似度矩阵,并基于所述相似度矩阵,构建所述叶子簇集合中的叶子簇相似链,基于所述叶子簇相似链,确定所述叶子簇集合中各叶子簇的簇标签;确定所述各分类文档中出现的行业术语,并计算所述行业术语在不同类别下的逆文档频率,基于所述行业术语在每个类别下各叶子簇内的出现频率以及所述逆文档频率,计算每个类别下各叶子簇在所属类别下的簇权重;合并具有相同簇标签的叶子簇的单位文本,得到所属簇标签下的文本集合
。2.
根据权利要求1所述的文本数据处理方法,其特征在于,对所述多个单位文本进行聚类,得到多个不可划分的叶子簇,包括:对所述多个单位文本进行聚类,得到多个聚类簇;对于任一聚类簇,若所述任一聚类簇的类型为可划分的中间簇,则对所述任一聚类簇进行聚类操作,直至得到的聚类簇的类型为所述叶子簇
。3.
根据权利要求1所述的文本数据处理方法,其特征在于,基于所述相似度矩阵,构建所述叶子簇集合中的叶子簇相似链,包括:取出所述叶子簇集合中的任一叶子簇作为当前叶子簇相似链的初始叶子簇,计算所述叶子簇集合中的剩余叶子簇与所述当前叶子簇相似链的初始叶子簇的相似度,并选取所述叶子簇集合中相似度大于相似度阈值的剩余叶子簇加入所述当前叶子簇相似链;若所述叶子簇集合与所述当前叶子簇相似链的差集不为空,则取出所述差集中的任一叶子簇作为下一叶子簇相似链的初始叶子簇,计算所述差集中的剩余叶子簇与所述下一叶子簇相似链的初始叶子簇的相似度,并选取所述差集中相似度大于所述相似度阈值的剩余叶子簇加入所述下一叶子簇相似链;计算所述差集与所述下一叶子簇相似链的差集,迭代进行叶子簇相似链的构建过程,直至最终计算得到的差集为空
。4.
根据权利要求1所述的文本数据处理方法,其特征在于,计算所述行业术语在不同类别下的逆文档频率,包括:对于任一类别,计算所述任一类别的分类文档中出现所述行业术语的第一文档数量以及所述任一类别的分类文档的第二文档数量,并计算所述第一文档数量与所述第二文档数量的第一比值;计算其他类别的分类文档中出现所述行业术语的第三文档数量以及所述其他类别的分类文档的第四文档数量,并计算所述第三文档数量与所述第四文档数量的第二比值;基于所述第一比值以及所述第二比值,计算所述行业术语...

【专利技术属性】
技术研发人员:张芃
申请(专利权)人:传神语联网网络科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1