System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 热点研究方向获取方法、装置、设备及介质制造方法及图纸_技高网

热点研究方向获取方法、装置、设备及介质制造方法及图纸

技术编号:40182679 阅读:9 留言:0更新日期:2024-01-26 23:48
本申请公开了热点研究方向获取方法、装置、设备及介质,可应用于人工智能领域或金融领域。将多个文献分别对应的英文标题以及多个文献分别对应的英文关键词放置于同一文档;从文档中获取多个短语;获取共现矩阵,针对每一词元,确定共现矩阵中所述词元对应的列向量中各个元素之和为词元的度;针对每一词元,确定词元的度与词元在文档中出现的次数的比值为词元的第一分数;针对每一短语,确定组成短语的多个词元的度之和,为短语的第二分数;依据第二分数对所述多个短语进行降序排序,以得到排序结果;确定排序结果中靠前的第一数目个短语,为热点研究方向。从而实现了基于多个文献确定热点研究方向的目的。

【技术实现步骤摘要】

本申请涉及自然语言处理,更具体的说,是涉及热点研究方向获取方法、装置、设备及介质


技术介绍

1、很多企业或高校收录有大量文献,为了能够把握国际研究的热点和前言,需要对收录的大量文献进行分析,以得到热点研究方向;从而辅助高校或企业的科研工作者选择热点研究方向作为选题。

2、因此如何通过大量文献确定热点研究方向是急需解决的技术问题。


技术实现思路

1、有鉴于此,本申请提供了一种热点研究方向获取方法、装置、设备及介质。

2、为实现上述目的,本申请提供如下技术方案:

3、根据本公开实施例的第一方面,提供一种热点研究方向获取方法,包括:

4、获取文档,所述文档包括多个文献分别对应的英文标题,以及,所述多个文献分别对应的英文关键词;

5、从所述文档中获取多个短语,每一所述短语为所述英文关键词或所述英文标题中位于设定字符之间的词汇,每一所述短语由多个词元组成;

6、获取共现矩阵,所述共现矩阵包括构成所述多个短语的每一词元对应的列向量,所述每一所述词元对应的列向量包括所述词元分别与构成所述多个短语的词元的共现次数;

7、针对每一所述词元,确定所述共现矩阵中所述词元对应的列向量中各个元素之和为所述词元的度;

8、针对每一所述词元,确定所述词元的度与所述词元在所述文档中出现的次数的比值,为所述词元的第一分数;

9、针对每一所述短语,确定组成所述短语的多个所述词元的第一分数之和,为所述短语的第二分数;

10、依据所述第二分数对所述多个短语进行降序排序,以得到排序结果;

11、确定所述排序结果中靠前的第一数目个所述短语,为所述热点研究方向。

12、根据本公开实施例的第二方面,提供一种热点研究方向获取装置,其特征在于,包括:

13、第一获取模块,用于获取文档,所述文档包括多个文献分别对应的英文标题,以及,所述多个文献分别对应的英文关键词;

14、第二获取模块,用于从所述文档中获取多个短语,每一所述短语为所述英文关键词或所述英文标题中位于设定字符之间的词汇,每一所述短语由多个词元组成;

15、第三获取模块,用于获取共现矩阵,所述共现矩阵包括构成所述多个短语的每一词元对应的列向量,所述每一所述词元对应的列向量包括所述词元分别与构成所述多个短语的词元的共现次数;

16、第一确定模块,用于针对每一所述词元,确定所述共现矩阵中所述词元对应的列向量中各个元素之和为所述词元的度;

17、第二确定模块,用于针对每一所述词元,确定所述词元的度与所述词元在所述文档中出现的次数的比值,为所述词元的第一分数;

18、第三确定模块,用于针对每一所述短语,确定组成所述短语的多个所述词元的第一分数之和,为所述短语的第二分数;

19、排序模块,用于依据所述第二分数对所述多个短语进行降序排序,以得到排序结果;

20、第四确定模块,用于确定所述排序结果中靠前的第一数目个所述短语,为所述热点研究方向。

21、根据本公开实施例的第三方面,提供一种电子设备,包括:

22、处理器;

23、用于存储所述处理器可执行指令的存储器;

24、其中,所述处理器被配置为执行所述指令,以实现如第一方面所述热点研究方向获取方法。

25、根据本公开实施例的第四方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面所述热点研究方向获取方法。

26、经由上述的技术方案可知,本申请提供了热点研究方向获取方法,将多个文献分别对应的英文标题以及多个文献分别对应的英文关键词放置于同一文档;从文档中获取多个短语;获取共现矩阵,共现矩阵包括构成多个短语的每一词元对应的列向量,每一词元对应的列向量包括词元分别与构成多个短语的词元的共现次数;针对每一词元,确定共现矩阵中所述词元对应的列向量中各个元素之和为词元的度;针对每一词元,确定词元的度与词元在文档中出现的次数的比值为词元的第一分数;针对每一短语,确定组成短语的多个词元的度之和,为短语的第二分数;依据第二分数对所述多个短语进行降序排序,以得到排序结果;确定排序结果中靠前的第一数目个短语,为热点研究方向。从而实现了基于多个文献确定热点研究方向的目的。

本文档来自技高网...

【技术保护点】

1.一种热点研究方向获取方法,其特征在于,包括:

2.根据权利要求1所述热点研究方向获取方法,其特征在于,还包括:

3.根据权利要求2所述热点研究方向获取方法,其特征在于,所述候选数目的数量有多个,还包括:

4.根据权利要求3所述热点研究方向获取方法,其特征在于,计算主题tA与主题tB分别对应的短语集合的相似度cosθAB的公式如下:

5.一种热点研究方向获取装置,其特征在于,包括:

6.根据权利要求5所述热点研究方向获取装置,其特征在于,还包括:

7.根据权利要求6所述热点研究方向获取装置,其特征在于,所述候选数目的数量有多个,还包括:

8.根据权利要求7所述热点研究方向获取装置,其特征在于,计算主题tA与主题tB分别对应的短语集合的相似度cosθAB的公式如下:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至4中任一项所述热点研究方向获取方法。

【技术特征摘要】

1.一种热点研究方向获取方法,其特征在于,包括:

2.根据权利要求1所述热点研究方向获取方法,其特征在于,还包括:

3.根据权利要求2所述热点研究方向获取方法,其特征在于,所述候选数目的数量有多个,还包括:

4.根据权利要求3所述热点研究方向获取方法,其特征在于,计算主题ta与主题tb分别对应的短语集合的相似度cosθab的公式如下:

5.一种热点研究方向获取装置,其特征在于,包括:

6.根据权利要求5所述热点研究方向获取装置...

【专利技术属性】
技术研发人员:李姝霏刘棋翟玉月
申请(专利权)人:中银金融科技苏州有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1