【技术实现步骤摘要】
一种判断PowerPoint文档相似度的方法和装置
[0001]本申请涉及知识管理
,具体涉及一种判断
PowerPoint
文档相似度的方法和装置
。
技术介绍
[0002]当今世界经济正在向经济一体化及知识经济方向发展,网络化
、
虚拟化
、
数字化
、
知识化正成为现代经济发展的重要特征,这使企业面临的经营环境日趋复杂多变
。
在市场竞争越来越激烈的情况下,知识已成为企业经营的首要资源,企业的竞争优势越来越体现在企业是否拥有雄厚的知识资本以及独特的经营能力,因此,知识管理正在成为企业最核心的管理内容
。
大型企业和组织等,逐渐开始部署知识管理平台,实现显性知识和隐性知识的共享,员工自愿合作共享和开发知识资源,以使企业和组织达到更高的目标和产生更好的效益
。
[0003]随着用户的快速增长,知识管理平台累积了大量的文档,且文档数量保持快速增长
。
这也带来了一个新的问题,即内容重复或相似的文档逐渐增多,为平台的运营带来了新的挑战
。
面对百万级别数量的文档,仅靠平台运营团队手工审核内容,以达到识别重复或相似文档,效率太低
。
知识管理平台必须提供一种自动化的识别文档相似度的方法
。
技术实现思路
[0004]针对上述现有技术中存在的问题,本申请提出了一种判断
PowerPoint
文档相似度的方法和装置 ...
【技术保护点】
【技术特征摘要】
1.
一种判断
PowerPoint
文档相似度的方法,其特征在于,包括如下步骤:步骤
S1、
将获取的
PowerPoint
文档中的文本进行提取,形成与
PowerPoint
文档对应的语料库;步骤
S2、
选择两个待识别相似度的
PowerPoint
文档,进行基于语料库的
Embedding
计算,以得到各个
PowerPoint
文档对应的向量的集合
{z1,z2,z3,
……
,z
n
}
;步骤
S3、
计算两个待识别相似度的
PowerPoint
文档的相似度的指标
Similar
,判断出两个
PowerPoint
文档的相似性
。2.
根据权利要求1所述的方法,其特征在于,在步骤
S1
中,所述文本进行提取,具体包括:将知识平台上所有或部分
PowerPoint
文档所包含的一系列
XML
文件中提取文本
。3.
根据权利要求1所述的方法,其特征在于,在步骤
S2
中,具体包括:逐页提取
PowerPoint
文档的每页中的文字,将每页中的文字构成一个文本块,并基于所述语料库进行
Embedding
计算
。4.
根据权利要求3所述的方法,其特征在于,所述
Embedding
计算结果为的长度可配置的向量,向量的长度越大,相关计算量也越大,默认向量长度为
64。5.
根据权利要求1所述的方法,其特征在于,在所述
Embedding
计算中,先计算所述文本块中每个词的词频
‑
逆文档频率
TF
‑
IDF
值,计算方法如下:值,计算方法如下:
TF
‑
IDF
=
TF*IDF
其中,
TF
为词频,
IDF
为逆文档频率,
TF
‑
IDF
值越大,表明某个词对于这个文本块的重要性越大
。6.
根据权利要求5所述的方法,其特征在于,将每个词的
...
【专利技术属性】
技术研发人员:张宇,谢国庆,师栋瑜,陈家宁,孙学贺,张碧昭,赵蕾蕾,
申请(专利权)人:中电信数智科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。