文本主题抽取方法、系统、设备及存储介质技术方案

技术编号:30169383 阅读:25 留言:0更新日期:2021-09-25 15:27
本申请涉及人工智能技术领域,揭露了文本主题抽取方法、系统、设备及存储介质,包括服务器端将第一矩阵W发送给多个第一客户端;第一客户端获取自身的文本特征矩阵X

【技术实现步骤摘要】
文本主题抽取方法、系统、设备及存储介质


[0001]本申请涉及人工智能
,尤其涉及文本主题抽取方法、系统、设备及存储介质。

技术介绍

[0002]随着社会的不断发展,人们对于隐私的保护越来越看重,并且各国也颁布了各种条款来加以对隐私数据的保护,例如欧盟的GDPR(General Date Protection Regulation,通用数据保护条款)和我国出台的《数据安全管理办法》(征求意见稿),面对这种情况,如何在保护用户数据不泄露的情况下对文档主题进行抽取。现有技术中常利用非负矩阵分解技术来将非负的大矩阵分解成两个非负的小矩阵,以在自然语言处理领域抽取文档的主题。但需要获取直接大量的用户数据并开发式计算,会造成用户隐私泄露。因此,如何保证用户隐私不泄露的情况下完成对用户文本数据主题的抽取成为了亟待解决的问题。

技术实现思路

[0003]本申请提供了文本主题抽取方法、系统、设备及存储介质,以解决现有技术中对文本主题进行抽取时,需要大量的用户数据,从而可能造成用户数据泄露的问题。
[0004]为解决上述问题,本申请本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本主题抽取方法,其特征在于,所述方法包括:服务器端基于各主题中的多个关键词权重构建第一矩阵W;客户端基于各文本对应的多个主题权重构建第二矩阵H
k
,基于自身文本数据中各文本中的多个关键词权重构建文本特征矩阵X
k
,所述客户端包括第一客户端和第二客户端;所述服务器端将所述第一矩阵W发送给多个所述第一客户端;各所述第一客户端获取自身的文本特征矩阵X
k
,并结合所述第一矩阵W、所述第二矩阵H
k
以进行小批量随机梯度下降训练,得到更新后的第一矩阵W,并上传至所述服务器端;所述服务器端对所有第一客户端上传的更新后的第一矩阵W进行加权平均聚合,得到第三矩阵W
t
,所述第三矩阵W
t
中每一列为一个主题在各关键词上的权重;所述服务器端将所述第三矩阵W
t
发送给多个所述第二客户端进行所述小批量随机梯度下降训练,得到所有第二客户端更新后的第三矩阵W
t
,并基于所有所述更新后的第三矩阵W
t
进行加权平均聚合,得到第四矩阵W
t+1
;所述服务器端根据所述第三矩阵W
t
和第四矩阵W
t+1
进行收敛判断,得到第五矩阵W
i
,基于所述第五矩阵W
i
中各关键词的权重,对文本主题进行抽取;其中,所述第一矩阵W、第三矩阵W
t
、第四矩阵W
t+1
和第五矩阵W
i
都为m*r每个元素均非负的矩阵,所述第二矩阵H
k
为r*n每个元素均为非负的矩阵,所述文本特征矩阵X
K
为m*n每个元素均非负的矩阵,m、r、n分别为全部关键词数目、主题数目和文本数目。2.根据权利要求1所述的文本主题抽取方法,其特征在于,所述各所述第一客户端获取自身的文本特征矩阵X
k
,并结合所述第一矩阵W、所述第二矩阵H
k
以进行小批量随机梯度下降训练,得到更新后的第一矩阵W包括:将所述文本特征矩阵X
k
中的数据分为多个小批量集数据;提取一个所述小批量集数据,并结合所述第一矩阵W和第二矩阵H
K
,计算损失函数L
K
,得到损失值;通过利用损失值进行反向传播,计算所述第一矩阵W和第二矩阵H
K
的梯度;根据所述第一矩阵W和第二矩阵H
K
的梯度以及梯度下降算法,更新所述第一矩阵W和第二矩阵H
K
;根据更新后的第一矩阵W和第二矩阵H
K
,结合另一所述小批量数据进行训练,以迭代更新,直至所述文本特征矩阵X
k
的小批量集数据都使用完毕,得到所述更新后的第一矩阵W。3.根据权利要求2所述的文本主题抽取方法,其特征在于,所述根据所述第一矩阵W和第二矩阵H
K
的梯度以及梯度下降算法,更新所述第一矩阵W和第二矩阵H
K
包括:计算上一次训练得到的第一矩阵W与当前得到的所述第一矩阵W的第一差值,以及学习率和当前所述第一矩阵W的梯度的第一乘积,根据所述第一差值等于所述第一乘积,更新第一矩阵W;计算上一次训练得到的第二矩阵H
K
与当前得到的所述第二矩阵H
K
的第二差值,以及学习率和当前所述第二矩阵H
K
的梯度的第二乘积,根据所述第二差值等于所述第二乘积,更新第二矩阵H
K
。4.根据权利要求1至3中任一项所述的文本主题抽取方法,其特征在于,所述根据所述第三矩阵W
t
和第四矩阵W
t+1
进行收敛判断,得到第五矩阵W
i
包括:判断所述第三矩阵W
t
和第四矩阵W
t+1
的变化率与预设百分比容忍率的大小;
若所述变化率大于所述百分比容忍率,则将第四矩阵W
t+1
...

【专利技术属性】
技术研发人员:司世景王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1