文本主题的确定方法、装置及电子设备制造方法及图纸

技术编号:33537310 阅读:32 留言:0更新日期:2022-05-19 02:21
本公开提供了文本主题的确定方法,涉及数据处理技术领域,尤其涉及大数据、自然语言处理等人工智能领域。具体实现方案为:在确定待处理文本对应的词序列,及词序列中每两个词在待处理文本中间隔的词数量后,可以根据每两个词在待处理文本中间隔的词数量,确定待处理文本对应的图结构,之后,可以根据词序列及图结构,确定文本对应的主题分布,然后,根据主题分布,可以确定文本对应的主题。由此,通过根据词序列及图结构,确定文本对应的主题分布,进而确定文本对应的主题,不仅使得确定的主题考虑了文本中词的语义信息,还考虑文本中各词间的依赖关系,提高了确定的主题的正确性和可靠性。性。性。

【技术实现步骤摘要】
文本主题的确定方法、装置及电子设备


[0001]本公开涉及数据处理
,尤其涉及大数据、自然语言处理等人工智能领域,具体涉及文本主题的确定方法、装置及电子设备。

技术介绍

[0002]随着人工智能的发展,文本主题挖掘的应用场景越来越多。因此,如何能够准确的确定文本主题成为自然语言处理领域亟需解决的问题。

技术实现思路

[0003]本公开提供了一种文本主题的确定方法和装置。
[0004]根据本公开的一方面,提供了一种文本主题的确定方法,包括:
[0005]确定待处理文本对应的词序列,及所述词序列中每两个词在所述待处理文本中间隔的词数量;
[0006]根据所述每两个词在所述待处理文本中间隔的词数量,确定所述待处理文本对应的图结构;
[0007]根据所述词序列及所述图结构,确定所述文本对应的主题分布;
[0008]根据所述主题分布,确定所述文本对应的主题。
[0009]根据本公开的另一方面,提供了一种文本主题的确定装置,包括:
[0010]预处理模块,用于确定待处理文本对应的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本主题的确定方法,包括:确定待处理文本对应的词序列,及所述词序列中每两个词在所述待处理文本中间隔的词数量;根据所述每两个词在所述待处理文本中间隔的词数量,确定所述待处理文本对应的图结构;根据所述词序列及所述图结构,确定所述文本对应的主题分布;根据所述主题分布,确定所述文本对应的主题。2.如权利要求1所述的方法,其中,所述根据所述每两个词在所述待处理文本中间隔的词数量,确定所述待处理文本对应的图结构,包括:在任意两个词在所述待处理文本中间隔的词数量小于第一阈值的情况下,确定所述任意两个词之间有连接边;根据所述词序列中各词间是否存在连接边,生成所述待处理文本对应的图结构。3.如权利要求1所述的方法,其中,所述根据所述词序列及所述图结构,确定所述文本对应的主题分布,包括:基于预设的词表中各词对应的主题分布标签,确定所述词序列中每个词对应的主题分布标签;根据预设的各主题间的依赖概率及所述图结构中各个词间的连接边,将所述词序列对应的各个主题分布标签进行融合,以确定所述文本对应的主题分布。4.如权利要求3所述的方法,其中,在所述基于预设的词表中各词对应的主题分布标签,确定所述词序列中每个词对应的主题分布标签之前,还包括:获取训练数据集,其中,所述训练数据集中包括多个文本;将所述文本进行预处理,以确定每个所述文本对应的参考图结构及参考词集;基于初始主题生成函数,确定所述文本对应的初始主题分布;依据初始词表中各词对应的主题分布标签及初始的各主题间的依赖概率,确定基于所述初始主题分布生成所述参考图结构的第一概率及生成所述参考词集的第二概率;根据所述第一概率及所述第二概率,确定损失值;基于所述损失值,对所述初始词表中各词对应的主题分布标签、初始的各主题间的依赖概率、及所述初始主题分布函数进行修正,以获取所述预设的词表中各词对应的主题分布标签及所述预设的各主题间的依赖概率。5.如权利要求4所述的方法,其中,所述依据初始词表中各词对应的主题分布标签及初始的各主题间的依赖概率,确定基于所述初始主题分布生成所述参考图结构的第一概率及生成所述参考词集的第二概率,包括:根据所述初始主题分布,确定每个参考词对应的主题分布标签;确定在所述初始的各主题间的依赖概率及每个参考词的基础上,基于所述初始主题分布生成所述参考图结构的第一概率;确定在所述初始词表中各词对应的主题分布标签的基础上,基于所述参考图结构及所述初始主题分布生成所述参考词集的第二概率。6.一种文本主题的确定装置,包括:预处理模块,用于确定待处理文本对应的词序列,及所述词序列中每两个词在所述待
处理文本中间隔的词数量;所述预处理模块,用于根据所述每两个词在所述待处理文本中间隔的词数量,...

【专利技术属性】
技术研发人员:申大忠秦川王超董政祝恒书熊辉
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1