一种信息汇集实时形成主题的方法技术

技术编号:38009319 阅读:11 留言:0更新日期:2023-06-30 10:28
本发明专利技术涉及一种信息汇集实时形成主题的方法,属于大数据技术领域,该方法包括:获取输入文本中的关键句;将输入文本中的关键句作为输入文档,获取N个与输入文档相似的候选文档;构建N个<输入文档,候选文档>对,获取输入文档对应的主题或判断k

【技术实现步骤摘要】
一种信息汇集实时形成主题的方法


[0001]本专利技术涉及大数据
,尤其涉及一种信息汇集实时形成主题的方法。

技术介绍

[0002]目前针对文本主题分析和聚类的技术基本上可以分为两类:划分聚类法和层次聚类法,通过划分聚类法进行聚类的过程为:给定一个包含n个术语或者关键词的文档集,形成k个划分,其中每个划分代表一个簇,从而,生成k个主题簇,在同一个簇中的概念是相似的,而不同簇中的概念是相异的;层次聚类法将概念组成一棵聚类的树,根据层次分解是自底向上的,还是自顶向下形成的,层次聚类方法可以进一步分为聚类方法和分裂聚类方法,凝聚聚类方法将每一个概念视为一个小的主题聚类,然后逐渐收拢,分裂聚类方法是将所有概念视为一个大的主题聚类,进而按照一定的标准进行拆分。
[0003]然而,划分聚类法和层次聚类法在生成主题时依赖人工给定聚类边界、关联系数,并且这个参数往往难以界定;同时,划分聚类法和层次聚类法发现主题的过程仅仅使用了文本的构成信息,而没有使用更深度的语义信息,并且,在业务系统中,数据还有其他的描述信息,如来源、发表时间等,划分聚类法和层次聚类法并没有对这些信息进行考量;此外,划分聚类法和层次聚类法对包括主旨信息以及其他相关信息的一般的文字处理过程中,在进行主题关联时没有摒弃掉无关文本。

技术实现思路

[0004]本专利技术意在提供一种信息汇集实时形成主题的方法,以解决现有技术中存在的不足,本专利技术要解决的技术问题通过以下技术方案来实现。
[0005]本专利技术提供的信息汇集实时形成主题的方法,包括:
[0006]计算输入文本中各个句子之间的相似度,根据各个句子之间的相似度计算输入文本中各个句子的第一得分,根据输入文本中的各个句子是否为主旨段,获取输入文本中各个句子的第二得分,根据第二得分获取输入文本中的关键句;
[0007]基于k

d树来存储所有待使用文档的内容特征向量,将输入文本中的关键句作为输入文档,获取输入文档的内容特征向量,通过k

d树查询算法获取k

d树中N个与输入文档相似的候选文档;
[0008]构建N个<输入文档,候选文档>对,根据N个<输入文档,候选文档>对获取BERT预训练模型的输入串,将输入串输入至BERT预训练模型获取长向量,并根据长向量获取输入文档对应的主题或判断k

d树中没有输入文档对应的主题;
[0009]将输入文档的内容特征向量以及输入文档对应的主题存储到k

d树中。
[0010]在上述的方案中,所述计算输入文本中各个句子之间的相似度,根据各个句子之间的相似度计算输入文本中各个句子的第一得分,根据输入文本中的各个句子是否为主旨段,获取输入文本中各个句子的第二得分,根据第二得分获取输入文本中的关键句包括:
[0011]将输入文本中的一个句子视作查询语句,其余的句子视作待查询的文档,通过
BM25算法中的相似度计算公式计算输入文本中各个句子之间的相似度;
[0012]以输入文本中每个句子作为图节点,将获取的相似度作为边权值,通过TextRank得分计算公式计算输入文本中各个句子的第一得分;
[0013]根据输入文本中的各个句子是否为主旨段,对输入文本中各个句子的第一得分进行加权计算,获取各个句子的第二得分;
[0014]根据第二得分从高到低对输入文本中的句子进行排序,选择前K个句子作为输入文本的关键句。
[0015]在上述的方案中,所述获取输入文档的内容特征向量包括:
[0016]获取输入文档的词袋向量;
[0017]通过doc2vec模型对输入文档的词袋向量进行计算;
[0018]获取一个预设长度向量作为输入文档的内容特征向量。
[0019]在上述的方案中,所述构建N个<输入文档,候选文档>对,根据N个<输入文档,候选文档>对获取BERT预训练模型的输入串,将输入串输入至BERT预训练模型获取长向量,并根据长向量获取输入文档对应的主题或判断k

d树中没有输入文档对应的主题包括:
[0020]构建N个<输入文档,候选文档>对,分别计算N个<输入文档,候选文档>对中输入文档的上下文的特征向量与相似文档描述的特征向量;
[0021]对输入文档的上下文的特征向量与相似文档描述的特征向量进行字符串直接拼接,获取BERT预训练模型的输入串;
[0022]将输入串输入至BERT预训练模型,通过BERT预训练模型对输入串进行转化、变换以及拼接获取一个长向量;
[0023]将长向量输入至预测结果标记处添加无法链接分类标签的MLP多层感知模型中,获取输入文档对应的主题或判断k

d树中没有输入文档对应的主题。
[0024]在上述的方案中,所述将输入串输入至BERT预训练模型,通过BERT预训练模型对输入串进行转化、变换以及拼接获取一个长向量包括:
[0025]将输入串输入至BERT预训练模型,通过BERT预训练模型对输入串转化为文本向量token_ids_i和位置向量segment_ids_i,其中,i为候选文档的序号;
[0026]对每一对文本向量token_ids_i和位置向量segment_ids_i进行Functional变换;
[0027]将Functional变换结果输入至concatenate层进行拼接,获取一个长向量。
[0028]在上述的方案中,所述将长向量输入至预测结果标记处添加无法链接分类标签的MLP多层感知模型中,获取输入文档对应的主题或判断k

d树中没有输入文档对应的主题包括:
[0029]将长向量输入至预测结果标记处添加无法链接分类标签的MLP多层感知模型的Dence层中,Dence层对输入的长向量进行Dense线性变换;
[0030]将Dense线性变换结果输入至预测结果标记处添加无法链接分类标签的MLP多层感知模型的Softmax层中,得到每个预测结果的概率分布,将概率最高的预测结果作为输入文档对应的主题,或者判断k

d树中没有输入文档对应的主题。
[0031]在上述的方案中,所述BM25算法中的相似度计算公式为:
[0032][0033]其中,V
i
为输入文本中的第i个句子,V
j
为输入文本中的第j个句子,v
jh
为将对输入文本中的第j个句子V
j
进行分词处理得到的集合V
j
(v
j1
,v
j2


,v
jn
)中的词项,IDF(v
jh
)为句子V...

【技术保护点】

【技术特征摘要】
1.一种信息汇集实时形成主题的方法,其特征在于,所述方法包括:计算输入文本中各个句子之间的相似度,根据各个句子之间的相似度计算输入文本中各个句子的第一得分,根据输入文本中的各个句子是否为主旨段,获取输入文本中各个句子的第二得分,根据第二得分获取输入文本中的关键句;基于k

d树来存储所有待使用文档的内容特征向量,将输入文本中的关键句作为输入文档,获取输入文档的内容特征向量,通过k

d树查询算法获取k

d树中N个与输入文档相似的候选文档;构建N个<输入文档,候选文档>对,根据N个<输入文档,候选文档>对获取BERT预训练模型的输入串,将输入串输入至BERT预训练模型获取长向量,并根据长向量获取输入文档对应的主题或判断k

d树中没有输入文档对应的主题;将输入文档的内容特征向量以及输入文档对应的主题存储到k

d树中。2.根据权利要求1所述的信息汇集实时形成主题的方法,其特征在于,所述计算输入文本中各个句子之间的相似度,根据各个句子之间的相似度计算输入文本中各个句子的第一得分,根据输入文本中的各个句子是否为主旨段,获取输入文本中各个句子的第二得分,根据第二得分获取输入文本中的关键句包括:将输入文本中的一个句子视作查询语句,其余的句子视作待查询的文档,通过BM25算法中的相似度计算公式计算输入文本中各个句子之间的相似度;以输入文本中每个句子作为图节点,将获取的相似度作为边权值,通过TextRank得分计算公式计算输入文本中各个句子的第一得分;根据输入文本中的各个句子是否为主旨段,对输入文本中各个句子的第一得分进行加权计算,获取各个句子的第二得分;根据第二得分从高到低对输入文本中的句子进行排序,选择前K个句子作为输入文本的关键句。3.根据权利要求1所述的信息汇集实时形成主题的方法,其特征在于,所述获取输入文档的内容特征向量包括:获取输入文档的词袋向量;通过doc2vec模型对输入文档的词袋向量进行计算;获取一个预设长度向量作为输入文档的内容特征向量。4.根据权利要求1所述的信息汇集实时形成主题的方法,其特征在于,所述构建N个<输入文档,候选文档>对,根据N个<输入文档,候选文档>对获取BERT预训练模型的输入串,将输入串输入至BERT预训练模型获取长向量,并根据长向量获取输入文档对应的主题或判断k

d树中没有输入文档对应的主题包括:构建N个<输入文档,候选文档>对,分别计算N个<输入文档,候选文档>对中输入文档的上下文的特征向量与相似文档描述的特征向量;对输入文档的上下文的特征向量与相似文档描述的特征向量进行字符串直接拼接,获取BERT预训练模型的输入串;将输入串输入至BERT预训练模型,通过BERT预训练模型对输入串进行转化、变换以及拼接获取一个长向量;将长向量输入至预测结果标记处添加无法链接分类标签的MLP多层感知模型中,获取
输入文档对应的主题或判断k

d树中没有输入文档对应的主题。5.根据权利要求4所述的信息汇集实时形成主题的方法,其特征在于,所述将输入串输入至BERT预训练模型,通过BERT预训练模型对输入串进行转化、变换以及拼接获取一个长向量包括:将输入串输入至BERT预训练模型,通过BERT预训练模型对输入串转化为文本向量token_ids_i和位置向量segment_ids_i,其中,i为候选文档的序号;对每一对文本向量token_ids_i和位置向量segment_ids_i进行Functional变换;将Functional变换结果输入至conca...

【专利技术属性】
技术研发人员:张昊岳一峰任祥辉
申请(专利权)人:中国电子科技集团公司第十五研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1