System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种文档的嵌入信息的计算方法技术_技高网

一种文档的嵌入信息的计算方法技术

技术编号:40546176 阅读:7 留言:0更新日期:2024-03-05 19:03
本发明专利技术涉及一种文档的嵌入信息的计算方法,属于信息嵌入技术领域,该方法包括:S1.从目标文档中提取关键词,并基于所述关键词获取关于所述目标文档的关键段落;S2.通过训练好的Word2Vec词嵌入模型确定关键段落的嵌入信息;S3.获取所述目标文档的目录结构,并根据所述目录结构对所述目标文档的所有目录项进行分级,且分级后至少包括直接包含所述关键段落的基础目录项;S4.通过所述关键段落的嵌入信息计算与之对应的所述基础目录项的嵌入信息,并且还通过计算同等级目录项嵌入信息的均值来确定所述目标文档的嵌入信息。在本发明专利技术方法中,通过对关键词、关键句、关键段落的嵌入信息的逐层计算获得最终文档的嵌入信息,具有良好的计算效率及准确度。

【技术实现步骤摘要】

本专利技术属于信息嵌入,尤其涉及一种文档的嵌入信息的计算方法


技术介绍

1、近年来,随着线上平台的快速发展,越来越多的大型企业和机构逐渐开始部署线上管理平台,这些平台中积累了大量的知识文档,为方便从平台中快速获取相关管理文档,则需要平台具有相应的内容搜索及内容推荐能力。而对于现有的线上管理平台,其内容搜索及内容推荐均是根据各文档的文本嵌入信息来实现的。

2、文本嵌入是指将词、句子、段落或整个文档内容等映射到特征空间的操作,最终形成映射后的特征空间中连续且稠密的高维向量。在文本嵌入处理过程中,对文本进行特征抽象,同时保留了语义信息。所有的这些嵌入向量就构成了向量空间,进而可以用普通的统计学的方法来研究向量之间的关系。文本嵌入是内容相似性判断、内容推荐等机器学习算法的基础,在这些算法的应用场景中,计算机程序通过对嵌入后的向量进行处理,从而实现分类、聚类和预测等操作,因此,设计一个具有精确内容相似性判断和内容推荐功能的文档嵌入算法是十分必要的。


技术实现思路

1、鉴于以上现有技术的不足,本专利技术的目的在于提供一种文档的嵌入信息的计算方法,具体通过高斯混合模型与深度学习诊断的结合来提高故障异常检测的准确率。

2、为实现上述目的,本专利技术提供如下技术方案:

3、一种文档的嵌入信息的计算方法,包括步骤:

4、s1.从目标文档中提取关键词,并基于所述关键词获取关于所述目标文档的关键段落;

5、s2.通过训练好的word2vec词嵌入模型确定关键段落的嵌入信息;

6、s3.获取所述目标文档的目录结构,并根据所述目录结构对所述目标文档的所有目录项进行分级,且分级后至少包括直接包含所述关键段落的基础目录项;

7、s4.通过所述关键段落的嵌入信息计算与之对应的所述基础目录项的嵌入信息,并且还通过计算同等级目录项嵌入信息的均值来确定所述目标文档的嵌入信息。

8、进一步地,步骤s2中利用储存有训练文档的语料库训练所述word2vec词嵌入模型。

9、进一步地,训练所述word2vec词嵌入模型时:

10、通过skip-gram算法或cbow算法构建包含所述训练文档的中心词和上下文的训练数据集;

11、通过所述训练数据集训练word2vec词嵌入模型。

12、进一步地,步骤s1中,提取关键词包括:

13、对所述目标文档进行分词处理,并删除所述目标文档中的停用词;

14、通过计算词频和逆文档频率确定所述目标文档的关键词。

15、进一步地,所述词频tf按照如下公式计算:

16、式中,wi表示词i在所述目标文档中出现的次数,wmax表示所述目标文档中除停用词外的总词数。

17、进一步地,所述逆文档频率idf按照如下公式计算:

18、式中,nmax表示所述语料库中的文档总数,ni表示所述语料库中包含词i的文档总数。

19、进一步地,确定所述目标文档的关键词时:

20、首先计算所述词频与所述逆文档频率的差值;

21、然后通过降值筛选所述差值的方式在所述目标文档中确定预设数量的关键词。

22、进一步地,步骤s1中,基于所述关键词获取关于所述目标文档的关键段落包括:

23、以包含有所述关键词的句子为所述目标文档的关键句;

24、以包含有所述关键句的段落为所述目标文档的关键段落。

25、进一步地,步骤s2中:

26、对所述关键句进行切词,去除停用词,再对剩余的每个词使用训练好的word2vec词嵌入模型计算剩余的每个词的嵌入信息;

27、将剩余的每个词的嵌入信息求和并取平均值,得到所述关键句的嵌入信息;

28、以所述关键段落中所有的关键句的嵌入信息的均值为所述关键段落的嵌入信息。

29、进一步地,步骤s4中:以所述基础目录项中所有的关键段落的嵌入信息的均值为所述基础目录的嵌入信息。

30、本专利技术有益效果如下:

31、在本专利技术提出的文档的嵌入信息的计算方法中,先提取关键词以及word2vec词嵌入模型计算出每个关键词的嵌入信息,并将包含关键词的句子作为对文档语义表达贡献较大的关键句,然后以关键句中除停用词外的所有词的嵌入信息的均值作为关键句的嵌入信息,其中,所有词的嵌入信息通过word2vec词嵌入模型计算得出,接着以各段落中关键句的嵌入信息作为段落的嵌入信息,最后根据文档的目录等级,按照由低向高的计算结构依次计算各目录项的均值,最终得出整个文档的嵌入信息,在整体过程中,忽略非关键句的嵌入计算,以此一方面能有效减少冗余计算量,提高计算效率,另一方面还能有效提高文档嵌入信息的计算准确度。

本文档来自技高网...

【技术保护点】

1.一种文档的嵌入信息的计算方法,其特征在于,包括步骤:

2.根据权利要求1所述的文档的嵌入信息的计算方法,其特征在于,步骤S2中利用储存有训练文档的语料库训练所述Word2Vec词嵌入模型。

3.根据权利要求2所述的文档的嵌入信息的计算方法,其特征在于,训练所述Word2Vec词嵌入模型时:

4.根据权利要求3所述的文档的嵌入信息的计算方法,其特征在于,步骤S1中,提取关键词包括:

5.根据权利要求4所述的文档的嵌入信息的计算方法,其特征在于,所述词频TF按照如下公式计算:

6.根据权利要求5所述的文档的嵌入信息的计算方法,其特征在于,所述逆文档频率IDF按照如下公式计算:

7.根据权利要求6所述的文档的嵌入信息的计算方法,其特征在于,确定所述目标文档的关键词时:

8.根据权利要求7所述的文档的嵌入信息的计算方法,其特征在于,步骤S1中,基于所述关键词获取关于所述目标文档的关键段落包括:

9.根据权利要求8所述的文档的嵌入信息的计算方法,其特征在于,步骤S2中:

10.根据权利要求9所述的文档的嵌入信息的计算方法,其特征在于,步骤S4中:以所述基础目录项中所有的关键段落的嵌入信息的均值为所述基础目录的嵌入信息。

...

【技术特征摘要】

1.一种文档的嵌入信息的计算方法,其特征在于,包括步骤:

2.根据权利要求1所述的文档的嵌入信息的计算方法,其特征在于,步骤s2中利用储存有训练文档的语料库训练所述word2vec词嵌入模型。

3.根据权利要求2所述的文档的嵌入信息的计算方法,其特征在于,训练所述word2vec词嵌入模型时:

4.根据权利要求3所述的文档的嵌入信息的计算方法,其特征在于,步骤s1中,提取关键词包括:

5.根据权利要求4所述的文档的嵌入信息的计算方法,其特征在于,所述词频tf按照如下公式计算:

6.根据权利要求5所述的文...

【专利技术属性】
技术研发人员:张宇
申请(专利权)人:中电信数智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1