一种信息汇集实时形成主题的方法技术

技术编号：38009319 阅读：11 留言：0更新日期：2023-06-30 10:28

本发明专利技术涉及一种信息汇集实时形成主题的方法，属于大数据技术领域，该方法包括：获取输入文本中的关键句；将输入文本中的关键句作为输入文档，获取N个与输入文档相似的候选文档；构建N个<输入文档，候选文档>对，获取输入文档对应的主题或判断k

全部详细技术资料下载

【技术实现步骤摘要】
一种信息汇集实时形成主题的方法

[0001]本专利技术涉及大数据
，尤其涉及一种信息汇集实时形成主题的方法。

技术介绍

[0002]目前针对文本主题分析和聚类的技术基本上可以分为两类：划分聚类法和层次聚类法，通过划分聚类法进行聚类的过程为：给定一个包含n个术语或者关键词的文档集，形成k个划分，其中每个划分代表一个簇，从而，生成k个主题簇，在同一个簇中的概念是相似的，而不同簇中的概念是相异的；层次聚类法将概念组成一棵聚类的树，根据层次分解是自底向上的，还是自顶向下形成的，层次聚类方法可以进一步分为聚类方法和分裂聚类方法，凝聚聚类方法将每一个概念视为一个小的主题聚类，然后逐渐收拢，分裂聚类方法是将所有概念视为一个大的主题聚类，进而按照一定的标准进行拆分。
[0003]然而，划分聚类法和层次聚类法在生成主题时依赖人工给定聚类边界、关联系数，并且这个参数往往难以界定；同时，划分聚类法和层次聚类法发现主题的过程仅仅使用了文本的构成信息，而没有使用更深度的语义信息，并且，在业务系统中，数据还有其他的描述信息，如来源、发表时间等，划分聚类法和层次聚类法并没有对这些信息进行考量；此外，划分聚类法和层次聚类法对包括主旨信息以及其他相关信息的一般的文字处理过程中，在进行主题关联时没有摒弃掉无关文本。

技术实现思路

[0004]本专利技术意在提供一种信息汇集实时形成主题的方法，以解决现有技术中存在的不足，本专利技术要解决的技术问题通过以下技术方案来实现。
[0005]本专利技术提供的信息汇集实时形成主

【技术保护点】

【技术特征摘要】
1.一种信息汇集实时形成主题的方法，其特征在于，所述方法包括：计算输入文本中各个句子之间的相似度，根据各个句子之间的相似度计算输入文本中各个句子的第一得分，根据输入文本中的各个句子是否为主旨段，获取输入文本中各个句子的第二得分，根据第二得分获取输入文本中的关键句；基于k
‑
d树来存储所有待使用文档的内容特征向量，将输入文本中的关键句作为输入文档，获取输入文档的内容特征向量，通过k
‑
d树查询算法获取k
‑
d树中N个与输入文档相似的候选文档；构建N个<输入文档，候选文档>对，根据N个<输入文档，候选文档>对获取BERT预训练模型的输入串，将输入串输入至BERT预训练模型获取长向量，并根据长向量获取输入文档对应的主题或判断k
‑
d树中没有输入文档对应的主题；将输入文档的内容特征向量以及输入文档对应的主题存储到k
‑
d树中。2.根据权利要求1所述的信息汇集实时形成主题的方法，其特征在于，所述计算输入文本中各个句子之间的相似度，根据各个句子之间的相似度计算输入文本中各个句子的第一得分，根据输入文本中的各个句子是否为主旨段，获取输入文本中各个句子的第二得分，根据第二得分获取输入文本中的关键句包括：将输入文本中的一个句子视作查询语句，其余的句子视作待查询的文档，通过BM25算法中的相似度计算公式计算输入文本中各个句子之间的相似度；以输入文本中每个句子作为图节点，将获取的相似度作为边权值，通过TextRank得分计算公式计算输入文本中各个句子的第一得分；根据输入文本中的各个句子是否为主旨段，对输入文本中各个句子的第一得分进行加权计算，获取各个句子的第二得分；根据第二得分从高到低对输入文本中的句子进行排序，选择前K个句子作为输入文本的关键句。3.根据权利要求1所述的信息汇集实时形成主题的方法，其特征在于，所述获取输入文档的内容特征向量包括：获取输入文档的词袋向量；通过doc2vec模型对输入文档的词袋向量进行计算；获取一个预设长度向量作为输入文档的内容特征向量。4.根据权利要求1所述的信息汇集实时形成主题的方法，其特征在于，所述构建N个<输入文档，候选文档>对，根据N个<输入文档，候选文档>对获取BERT预训练模型的输入串，将输入串输入至BERT预训练模型获取长向量，并根据长向量获取输入文档对应的主题或判断k
‑
d树中没有输入文档对应的主题包括：构建N个<输入文档，候选文档>对，分别计算N个<输入文档，候选文档>对中输入文档的上下文的特征向量与相似文档描述的特征向量；对输入文档的上下文的特征向量与相似文档描述的特征向量进行字符串直接拼接，获取BERT预训练模型的输入串；将输入串输入至BERT预训练模型，通过BERT预训练模型对输入串进行转化、变换以及拼接获取一个长向量；将长向量输入至预测结果标记处添加无法链接分类标签的MLP多层感知模型中，获取
输入文档对应的主题或判断k
‑
d树中没有输入文档对应的主题。5.根据权利要求4所述的信息汇集实时形成主题的方法，其特征在于，所述将输入串输入至BERT预训练模型，通过BERT预训练模型对输入串进行转化、变换以及拼接获取一个长向量包括：将输入串输入至BERT预训练模型，通过BERT预训练模型对输入串转化为文本向量token_ids_i和位置向量segment_ids_i，其中，i为候选文档的序号；对每一对文本向量token_ids_i和位置向量segment_ids_i进行Functional变换；将Functional变换结果输入至conca...

【专利技术属性】
技术研发人员：张昊，岳一峰，任祥辉，
申请(专利权)人：中国电子科技集团公司第十五研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人