文档向量化方法及装置、计算机可读存储介质、计算机设备制造方法及图纸

技术编号：38205571 阅读：9 留言：0更新日期：2023-07-21 16:52

一种文档向量化方法及装置、计算机可读存储介质、计算机设备，所述方法包括：将目标文档分割得到一个或多个句子；对每个句子进行分词，得到每个句子中的一个或多个词；生成每个句子对应的句子向量，每个句子向量由对应的句子包含的一个或多个词对应的词向量构建；将所述目标文档的所有句子向量输入神经主题模型中，得到所述目标文档的主题向量。由此，高效地训练和生成高质量的长文档表示，能够有效地改善文档分析、识别、分类的结果。分类的结果。分类的结果。

全部详细技术资料下载

【技术实现步骤摘要】
文档向量化方法及装置、计算机可读存储介质、计算机设备

[0001]本专利技术涉及文档分析领域以及计算机
，尤其涉及一种文档向量化方法及装置、计算机可读存储介质、计算机设备。

技术介绍

[0002]在对多字节集合构成的文档进行识别、分析、分类等处理时，通常需要先将文档转化为计算机可识别的文档表示。
[0003]传统的文档表示方式包括基于词
‑
向量转化(word to vector，简称Word2Vec)模型或全局向量(Global Vectors，简称GloVe)模型等工具，将文档转化为对应的向量。然而，使用传统的文档表示方法在后续的文档分析、识别、分类等场景中使用时，会导致文档分析、识别、分类的效果较差。在处理字节数较多的长文档时，这一问题尤为明显。
[0004]因此，如何高效地训练和生成高质量的长文档表示，能够有效地改善文档分析、识别、分类的结果，成为当前亟需解决的问题。

技术实现思路

[0005]本专利技术解决的技术问题是如何高效地训练和生成高质量的长文档表示，能够有效地改善文档分析、识别、分类的结果。
[0006]为解决上述问题，本专利技术实施例提供了一种文档向量化方法，所述方法包括：将目标文档分割得到一个或多个句子；对每个句子进行分词，得到每个句子中的一个或多个词；生成每个句子对应的句子向量，每个句子向量由对应的句子包含的一个或多个词对应的词向量构建；将所述目标文档的所有句子向量输入神经主题模型中，得到所述目标文档的主题向量。
[0007

【技术保护点】

【技术特征摘要】
1.一种文档向量化方法，其特征在于，所述方法包括：将目标文档分割得到一个或多个句子；对每个句子进行分词，得到每个句子中的一个或多个词；生成每个句子对应的句子向量，每个句子向量由对应的句子包含的一个或多个词对应的词向量构建；将所述目标文档的所有句子向量输入神经主题模型中，得到所述目标文档的主题向量。2.根据权利要求1所述的方法，其特征在于，所述神经主题模型包括句子主题层和文档主题层，所述句子主题层用于计算所述目标文档中各个句子向量对应的文档主题向量；所述文档主题层用于根据所述句子主题层得到的文档主题向量，生成所述目标文档的主题向量。3.根据权利要求2所述的方法，其特征在于，所述神经主题模型还包括：分类层，所述分类层是以样本文档及所述样本文档的分类结果作为训练样本训练得到的，并且在训练后得到参数集；所述句子主题层在所述参数集的控制下，计算输入的各个句子向量对应的文档主题向量。4.根据权利要求3所述的方法，其特征在于，所述分类层用于计算所述样本文档的所有句子向量对应的文档主题向量的均值，并根据计算得到的均值对所述样本文档进行分类得到所述样本文档的分类结果。5.根据权利要求3所述的方法，其特征在于，所述方法还包括：通过所述句子主题层计算所述目标文档中各个句子向量对应的文档主题向量；通过所述分类层计算所述目标文档的所有句子向量对应的文档主题向量的均值，记作目标文档的均值向量；获取查询内容，生成所述查询内容的向量；计算所述目标文档的均值向量与所述查询内容的向量之间的相似度。6.根据权利要求3或4所述的方法，其特征在于，所述训练样本的构建方式，包括：获取所述样本文档和所述样本文档的分类结果，生成所述样本文档包含的一个或多个句子的句子向量；确定所述样本文档中每个句子的标签，所述样本文档中每个句子的标签通过以下公式表示：其中，表示所述样本文档的标签，为所述样本文档T
i
中第n个句子v

【专利技术属性】
技术研发人员：郭顺，陈成才，
申请(专利权)人：上海智臻智能网络科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人