一种判断制造技术

技术编号:39730943 阅读:8 留言:0更新日期:2023-12-17 23:34
本申请提供了一种判断

【技术实现步骤摘要】
一种判断PowerPoint文档相似度的方法和装置


[0001]本申请涉及知识管理
,具体涉及一种判断
PowerPoint
文档相似度的方法和装置


技术介绍

[0002]当今世界经济正在向经济一体化及知识经济方向发展,网络化

虚拟化

数字化

知识化正成为现代经济发展的重要特征,这使企业面临的经营环境日趋复杂多变

在市场竞争越来越激烈的情况下,知识已成为企业经营的首要资源,企业的竞争优势越来越体现在企业是否拥有雄厚的知识资本以及独特的经营能力,因此,知识管理正在成为企业最核心的管理内容

大型企业和组织等,逐渐开始部署知识管理平台,实现显性知识和隐性知识的共享,员工自愿合作共享和开发知识资源,以使企业和组织达到更高的目标和产生更好的效益

[0003]随着用户的快速增长,知识管理平台累积了大量的文档,且文档数量保持快速增长

这也带来了一个新的问题,即内容重复或相似的文档逐渐增多,为平台的运营带来了新的挑战

面对百万级别数量的文档,仅靠平台运营团队手工审核内容,以达到识别重复或相似文档,效率太低

知识管理平台必须提供一种自动化的识别文档相似度的方法


技术实现思路

[0004]针对上述现有技术中存在的问题,本申请提出了一种判断
PowerPoint
文档相似度的方法和装置,因为不同文档类型差别较大,本申请仅用于
PowerPoint
文档的相似度

通过提取
PowerPoint
文档中的文字,借助
Embedding
技术,通过提取文档中文字的语义相关性并通过向量的相似性比较方法,判断文档的相似度

本申请所采用的技术方案如下:
[0005]一种判断
PowerPoint
文档相似度的方法,该方法包括如下步骤:
[0006]步骤
S1、
将获取的
PowerPoint
文档中的文本进行提取,形成与
PowerPoint
文档对应的语料库;
[0007]步骤
S2、
选择两个待识别相似度的
PowerPoint
文档,进行基于语料库的
Embedding
计算,以得到各个
PowerPoint
文档对应的向量的集合
{z1,z2,z3,
……
,z
n
}

[0008]步骤
S3、
计算两个待识别相似度的
PowerPoint
文档的相似度的指标
Similar
,判断出两个
PowerPoint
文档的相似性

[0009]进一步的,在步骤
S1
中,所述文本进行提取,具体包括:将知识平台上所有或部分
PowerPoint
文档所包含的一系列
XML
文件中提取文本

[0010]进一步的,在步骤
S2
中,具体包括:逐页提取
PowerPoint
文档的每页中的文字,将每页中的文字构成一个文本块,并基于所述语料库进行
Embedding
计算

[0011]进一步的,所述
Embedding
计算结果为的长度可配置的向量,向量的长度越大,相关计算量也越大,默认向量长度为
64。
[0012]进一步的,在所述
Embedding
计算中,先计算所述文本块中每个词的词频

逆文档
频率
TF

IDF
值,计算方法如下:
[0013][0014][0015]TF

IDF

TF*IDF
[0016]其中,
TF

IDF
值越大,表明某个词对于这个文本块的重要性越大

[0017]进一步的,将每个词的
TF

IDF
值按从大到小的顺序排序,如果
Embedding
计算结果的向量的长度设置为
64
,则取前
64
个值,构成这个文本块的
Embedding
的值

[0018]进一步的,两个
PowerPoint
文档相似度的指标
Similar
按如下方式计算:
[0019]Similar

Num
similar
/Min(Num
D1
,Num
D2
)
[0020]其中,
Num
similar
为两个
PowerPoint
文档中相似页的数量,
Num
D1
为第一
PowerPoint
文档的页数,
Num
D2
为第二
PowerPoint
文档的页数

[0021]进一步的,在步骤
S3
中,如果该指标
Similar
大于比例阈值
Th
ratio
,则表示两个
PowerPoint
文档是相似的;否则,则表示两个
PowerPoint
文档不相似

[0022]进一步的,在步骤
S3
中,
Num
similar
的计算过程如下:
[0023]将第一
PowerPoint
文档进行
Embedding
计算后的所有向量,依次与第二
PowerPoint
文档的
Embedding
计算后的所有向量进行相似性比较,并计算相似度;如果相似度大于相似度的阈值
Th
vector
,则
Num
similar
递增1,遍历直至所有向量均进行了相似性比较

[0024]一种判断
PowerPoint
文档相似度的装置,该装置包括处理器以及存储有所述处理器可执行指令的存储器,当所述指令被处理器执行时,所述处理器执行上述方法步骤

[0025]通过本申请实施例,可以获得如下技术效果:借助
Embedding
技术,通过提取文档中文字的语义相关性并通过向量的相似性比较方法,判断文档的相似度,而不需要本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种判断
PowerPoint
文档相似度的方法,其特征在于,包括如下步骤:步骤
S1、
将获取的
PowerPoint
文档中的文本进行提取,形成与
PowerPoint
文档对应的语料库;步骤
S2、
选择两个待识别相似度的
PowerPoint
文档,进行基于语料库的
Embedding
计算,以得到各个
PowerPoint
文档对应的向量的集合
{z1,z2,z3,
……
,z
n
}
;步骤
S3、
计算两个待识别相似度的
PowerPoint
文档的相似度的指标
Similar
,判断出两个
PowerPoint
文档的相似性
。2.
根据权利要求1所述的方法,其特征在于,在步骤
S1
中,所述文本进行提取,具体包括:将知识平台上所有或部分
PowerPoint
文档所包含的一系列
XML
文件中提取文本
。3.
根据权利要求1所述的方法,其特征在于,在步骤
S2
中,具体包括:逐页提取
PowerPoint
文档的每页中的文字,将每页中的文字构成一个文本块,并基于所述语料库进行
Embedding
计算
。4.
根据权利要求3所述的方法,其特征在于,所述
Embedding
计算结果为的长度可配置的向量,向量的长度越大,相关计算量也越大,默认向量长度为
64。5.
根据权利要求1所述的方法,其特征在于,在所述
Embedding
计算中,先计算所述文本块中每个词的词频

逆文档频率
TF

IDF
值,计算方法如下:值,计算方法如下:
TF

IDF

TF*IDF
其中,
TF
为词频,
IDF
为逆文档频率,
TF

IDF
值越大,表明某个词对于这个文本块的重要性越大
。6.
根据权利要求5所述的方法,其特征在于,将每个词的
...

【专利技术属性】
技术研发人员:张宇谢国庆师栋瑜陈家宁孙学贺张碧昭赵蕾蕾
申请(专利权)人:中电信数智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1