【技术实现步骤摘要】
本专利技术属于信息嵌入,尤其涉及一种文档的嵌入信息的计算方法。
技术介绍
1、近年来,随着线上平台的快速发展,越来越多的大型企业和机构逐渐开始部署线上管理平台,这些平台中积累了大量的知识文档,为方便从平台中快速获取相关管理文档,则需要平台具有相应的内容搜索及内容推荐能力。而对于现有的线上管理平台,其内容搜索及内容推荐均是根据各文档的文本嵌入信息来实现的。
2、文本嵌入是指将词、句子、段落或整个文档内容等映射到特征空间的操作,最终形成映射后的特征空间中连续且稠密的高维向量。在文本嵌入处理过程中,对文本进行特征抽象,同时保留了语义信息。所有的这些嵌入向量就构成了向量空间,进而可以用普通的统计学的方法来研究向量之间的关系。文本嵌入是内容相似性判断、内容推荐等机器学习算法的基础,在这些算法的应用场景中,计算机程序通过对嵌入后的向量进行处理,从而实现分类、聚类和预测等操作,因此,设计一个具有精确内容相似性判断和内容推荐功能的文档嵌入算法是十分必要的。
技术实现思路
1、鉴于以上现有技术的
...【技术保护点】
1.一种文档的嵌入信息的计算方法,其特征在于,包括步骤:
2.根据权利要求1所述的文档的嵌入信息的计算方法,其特征在于,步骤S2中利用储存有训练文档的语料库训练所述Word2Vec词嵌入模型。
3.根据权利要求2所述的文档的嵌入信息的计算方法,其特征在于,训练所述Word2Vec词嵌入模型时:
4.根据权利要求3所述的文档的嵌入信息的计算方法,其特征在于,步骤S1中,提取关键词包括:
5.根据权利要求4所述的文档的嵌入信息的计算方法,其特征在于,所述词频TF按照如下公式计算:
6.根据权利要求5所述的文档的嵌
...【技术特征摘要】
1.一种文档的嵌入信息的计算方法,其特征在于,包括步骤:
2.根据权利要求1所述的文档的嵌入信息的计算方法,其特征在于,步骤s2中利用储存有训练文档的语料库训练所述word2vec词嵌入模型。
3.根据权利要求2所述的文档的嵌入信息的计算方法,其特征在于,训练所述word2vec词嵌入模型时:
4.根据权利要求3所述的文档的嵌入信息的计算方法,其特征在于,步骤s1中,提取关键词包括:
5.根据权利要求4所述的文档的嵌入信息的计算方法,其特征在于,所述词频tf按照如下公式计算:
6.根据权利要求5所述的文...
【专利技术属性】
技术研发人员:张宇,
申请(专利权)人:中电信数智科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。