主题确定方法及相关装置制造方法及图纸

技术编号:35735414 阅读:10 留言:0更新日期:2022-11-26 18:37
本发明专利技术公开了一种主题确定方法及相关装置,可以通过获得多份目标数据;通过预先训练好的LDA主题模型,分别识别各所述目标数据对应的主题词;针对任一所述主题词对应的各所述目标数据,分别从所述目标数据中抽取得到至少多个关键词;针对任一所述主题词对应的任一所述目标数据,计算相应的各所述关键词之间的相关性;根据各所述关键词之间的相关性,从各所述关键词中选择至少一个关键词,并根据选择的所述关键词和相应的所述主题词,构建得到对应的主题。由此可以看出,本发明专利技术可以基于LDA主题模型快速识别得到主题词,然后选择合适关键词与主题词共同构建得到主题,效率较高。效率较高。效率较高。

【技术实现步骤摘要】
主题确定方法及相关装置


[0001]本专利技术涉及金融科技领域,特别涉及一种主题确定方法及相关装置。

技术介绍

[0002]高效挖掘海量金融领域科研成果和业务数据中蕴含的主要内容以明确新主题的数据集市建设目标,是金融领域建设人员在大数据时代亟待解决的重要问题,目前暂无合适的方案用于挖掘主题。

技术实现思路

[0003]鉴于上述问题,本专利技术提供一种克服上述问题或者至少部分地解决上述问题的一种主题确定方法及相关装置。
[0004]第一方面,一种主题确定方法,包括:
[0005]获得多份目标数据;
[0006]通过预先训练好的LDA主题模型,分别识别各所述目标数据对应的主题词;
[0007]针对任一所述主题词对应的各所述目标数据,分别从所述目标数据中抽取得到至少多个关键词;
[0008]针对任一所述主题词对应的任一所述目标数据,计算相应的各所述关键词之间的相关性;
[0009]根据各所述关键词之间的相关性,从各所述关键词中选择至少一个关键词,并根据选择的所述关键词和相应的所述主题词,构建得到对应的主题。
[0010]结合第一方面,在某些可选的实施方式中,所述获得多份目标数据,包括:
[0011]从互联网上抓取金融领域涉及的网上数据,其中,所述网上数据包括论文、报告和会议文献中的至少一种;
[0012]获得金融行业的业务数据,其中,所述业务数据包括业务报表和内部汇报材料中的至少一种。
[0013]结合第一方面,在某些可选的实施方式中,在所述通过预先训练好的 LDA主题模型,分别识别各所述目标数据对应的主题词之前,所述方法还包括:
[0014]针对任一所述目标数据,对所述目标数据进行分词得到多个词;
[0015]标注各所述词的词性;
[0016]根据各所述词的词性,过滤预设词性的词,从而得到对应的待识别数据,其中,所述预设词性包括:冠词、连词和介词,一份所述待识别数据对应一份所述目标数据;
[0017]所述通过预先训练好的LDA主题模型,分别识别各所述目标数据对应的主题词,包括:
[0018]针对任一所述待识别数据,将所述待识别数据输入至所述LDA主题模型,以使得所述LDA主题模型计算所述待识别数据中的各所述词的出现频率,并使得所述LDA主题模型根据各所述词的出现频率确定所述主题词,其中,一个所述主题词对应多份所述待识别数据。
[0019]结合上一个实施方式,在某些可选的实施方式中,所述针对任一所述主题词对应的各所述目标数据,分别从所述目标数据中抽取得到至少多个关键词,包括:
[0020]针对任一所述主题词对应的各所述目标数据,分别通过TextRank算法从所述目标数据中抽取得到至少多个关键词。
[0021]结合上一个实施方式,在某些可选的实施方式中,所述针对任一所述主题词对应的任一所述目标数据,计算相应的各所述关键词之间的相关性,包括:
[0022]针对任一所述主题词对应的任一所述目标数据,通过SO

PMI算法计算相应的各所述关键词之间的相关性。
[0023]结合上一个实施方式,在某些可选的实施方式中,所述根据各所述关键词之间的相关性,从各所述关键词中选择至少一个关键词,并根据选择的所述关键词和相应的所述主题词,构建得到对应的主题,包括:
[0024]针对任一所述主题对应的任一所述目标数据,根据对应的各所述关键词之间的相关性,确定所述目标数据对应所述主题的情感倾向,其中,所述情感倾向为肯定、否定或者中立;
[0025]针对任一所述主题,确定对应的目标数据的数量最多的第一情感倾向,并从所述第一情感倾向对应的各所述目标数据中选择至少一个所述关键词;
[0026]根据选择的所述关键词和相应的所述主题词,构建得到对应的所述主题。
[0027]结合上一个实施方式,在某些可选的实施方式中,所述根据选择的所述关键词和相应的所述主题词,构建得到对应的所述主题,包括:
[0028]基于选择的所述关键词和相应的所述主题词,进行语义替换,从而转化为业务语言的所述主题。
[0029]第二方面,一种主题确定装置,包括:数据获得单元、主题词识别单元、关键词抽取单元、相关性计算单元和主题构建单元;
[0030]所述数据获得单元,用于获得多份目标数据;
[0031]所述主题词识别单元,用于通过预先训练好的LDA主题模型,分别识别各所述目标数据对应的主题词;
[0032]所述关键词抽取单元,用于针对任一所述主题词对应的各所述目标数据,分别从所述目标数据中抽取得到至少多个关键词;
[0033]所述相关性计算单元,用于针对任一所述主题词对应的任一所述目标数据,计算相应的各所述关键词之间的相关性;
[0034]所述主题构建单元,用于根据各所述关键词之间的相关性,从各所述关键词中选择至少一个关键词,并根据选择的所述关键词和相应的所述主题词,构建得到对应的主题。
[0035]第三方面,一种计算机可读存储介质,其上存储有程序,所述程序被处理器执行时实现上述任一项所述的主题确定方法。
[0036]第四方面,一种电子设备,所述电子设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行上述任一项所述的主题确定方法。
[0037]借由上述技术方案,本专利技术提供的一种主题确定方法及相关装置,可以通过获得
多份目标数据;通过预先训练好的LDA主题模型,分别识别各所述目标数据对应的主题词;针对任一所述主题词对应的各所述目标数据,分别从所述目标数据中抽取得到至少多个关键词;针对任一所述主题词对应的任一所述目标数据,计算相应的各所述关键词之间的相关性;根据各所述关键词之间的相关性,从各所述关键词中选择至少一个关键词,并根据选择的所述关键词和相应的所述主题词,构建得到对应的主题。由此可以看出,本专利技术可以基于LDA主题模型快速识别得到主题词,然后选择合适关键词与主题词共同构建得到主题,效率较高。
[0038]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。
附图说明
[0039]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0040]图1示出了本专利技术提供的第一种主题确定方法的流程图;
[0041]图2示出了本专利技术提供的第二种主题确定方法的流程图;
[0042]图3示出了本专利技术提供的第三种主题确定方法的流程图;
[0043]图4示出了本发本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种主题确定方法,其特征在于,包括:获得多份目标数据;通过预先训练好的LDA主题模型,分别识别各所述目标数据对应的主题词;针对任一所述主题词对应的各所述目标数据,分别从所述目标数据中抽取得到至少多个关键词;针对任一所述主题词对应的任一所述目标数据,计算相应的各所述关键词之间的相关性;根据各所述关键词之间的相关性,从各所述关键词中选择至少一个关键词,并根据选择的所述关键词和相应的所述主题词,构建得到对应的主题。2.根据权利要求1所述的方法,其特征在于,所述获得多份目标数据,包括:从互联网上抓取金融领域涉及的网上数据,其中,所述网上数据包括论文、报告和会议文献中的至少一种;获得金融行业的业务数据,其中,所述业务数据包括业务报表和内部汇报材料中的至少一种。3.根据权利要求1所述的方法,其特征在于,在所述通过预先训练好的LDA主题模型,分别识别各所述目标数据对应的主题词之前,所述方法还包括:针对任一所述目标数据,对所述目标数据进行分词得到多个词;标注各所述词的词性;根据各所述词的词性,过滤预设词性的词,从而得到对应的待识别数据,其中,所述预设词性包括:冠词、连词和介词,一份所述待识别数据对应一份所述目标数据;所述通过预先训练好的LDA主题模型,分别识别各所述目标数据对应的主题词,包括:针对任一所述待识别数据,将所述待识别数据输入至所述LDA主题模型,以使得所述LDA主题模型计算所述待识别数据中的各所述词的出现频率,并使得所述LDA主题模型根据各所述词的出现频率确定所述主题词,其中,一个所述主题词对应多份所述待识别数据。4.根据权利要求3所述的方法,其特征在于,所述针对任一所述主题词对应的各所述目标数据,分别从所述目标数据中抽取得到至少多个关键词,包括:针对任一所述主题词对应的各所述目标数据,分别通过TextRank算法从所述目标数据中抽取得到至少多个关键词。5.根据权利要求4所述的方法,其特征在于,所述针对任一所述主题词对应的任一所述目标数据,计算相应的各所述关键词之间的相关性,包括:针对任一所述主题词对应的任一所述目标数据,通过SO

P...

【专利技术属性】
技术研发人员:江梦茹
申请(专利权)人:中国银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1