一种文档的嵌入信息的计算方法技术

技术编号：40546176 阅读：18 留言：0更新日期：2024-03-05 19:03

本发明专利技术涉及一种文档的嵌入信息的计算方法，属于信息嵌入技术领域，该方法包括：S1.从目标文档中提取关键词，并基于所述关键词获取关于所述目标文档的关键段落；S2.通过训练好的Word2Vec词嵌入模型确定关键段落的嵌入信息；S3.获取所述目标文档的目录结构，并根据所述目录结构对所述目标文档的所有目录项进行分级，且分级后至少包括直接包含所述关键段落的基础目录项；S4.通过所述关键段落的嵌入信息计算与之对应的所述基础目录项的嵌入信息，并且还通过计算同等级目录项嵌入信息的均值来确定所述目标文档的嵌入信息。在本发明专利技术方法中，通过对关键词、关键句、关键段落的嵌入信息的逐层计算获得最终文档的嵌入信息，具有良好的计算效率及准确度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于信息嵌入，尤其涉及一种文档的嵌入信息的计算方法。

技术介绍

1、近年来，随着线上平台的快速发展，越来越多的大型企业和机构逐渐开始部署线上管理平台，这些平台中积累了大量的知识文档，为方便从平台中快速获取相关管理文档，则需要平台具有相应的内容搜索及内容推荐能力。而对于现有的线上管理平台，其内容搜索及内容推荐均是根据各文档的文本嵌入信息来实现的。

2、文本嵌入是指将词、句子、段落或整个文档内容等映射到特征空间的操作，最终形成映射后的特征空间中连续且稠密的高维向量。在文本嵌入处理过程中，对文本进行特征抽象，同时保留了语义信息。所有的这些嵌入向量就构成了向量空间，进而可以用普通的统计学的方法来研究向量之间的关系。文本嵌入是内容相似性判断、内容推荐等机器学习算法的基础，在这些算法的应用场景中，计算机程序通过对嵌入后的向量进行处理，从而实现分类、聚类和预测等操作，因此，设计一个具有精确内容相似性判断和内容推荐功能的文档嵌入算法是十分必要的。

技术实现思路

1、鉴于以上现有技术的...

【技术保护点】

1.一种文档的嵌入信息的计算方法，其特征在于，包括步骤：

2.根据权利要求1所述的文档的嵌入信息的计算方法，其特征在于，步骤S2中利用储存有训练文档的语料库训练所述Word2Vec词嵌入模型。

3.根据权利要求2所述的文档的嵌入信息的计算方法，其特征在于，训练所述Word2Vec词嵌入模型时：

4.根据权利要求3所述的文档的嵌入信息的计算方法，其特征在于，步骤S1中，提取关键词包括：

5.根据权利要求4所述的文档的嵌入信息的计算方法，其特征在于，所述词频TF按照如下公式计算：

6.根据权利要求5所述的文档的嵌入信息的计算方法，其...

【技术特征摘要】

1.一种文档的嵌入信息的计算方法，其特征在于，包括步骤：

2.根据权利要求1所述的文档的嵌入信息的计算方法，其特征在于，步骤s2中利用储存有训练文档的语料库训练所述word2vec词嵌入模型。

3.根据权利要求2所述的文档的嵌入信息的计算方法，其特征在于，训练所述word2vec词嵌入模型时：

4.根据权利要求3所述的文档的嵌入信息的计算方法，其特征在于，步骤s1中，提取关键词包括：

5.根据权利要求4所述的文档的嵌入信息的计算方法，其特征在于，所述词频tf按照如下公式计算：

6.根据权利要求5所述的文...

【专利技术属性】
技术研发人员：张宇，
申请(专利权)人：中电信数智科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人