一种基于自然语言的思路拓展方法、设备及介质技术

技术编号:32972418 阅读:9 留言:0更新日期:2022-04-09 11:41
本申请公开了一种基于自然语言的思路拓展方法、设备及介质,用以解决现有技术中新研究课题的发现较为困难的技术问题。方法包括:获取指定用户对应的文本集合,并基于综合词库通过预设的分词算法,对文本集合中的文本进行分词,得到对应的分词结果;通过预设的统计算法对分词结果进行处理,以获取文本集合中的关键词;根据指定关键词确定出对应的权重,并根据对应的权重,构建指定用户对应的关键词特征向量;基于预先获取的关键词特征矩阵以及预设的过滤算法,根据指定用户对应的关键词特征向量,确定出为指定用户推荐的关键词,并将关键词推荐给指定用户,以使指定用户根据推荐的关键词进行思路扩展,确定出新的研究课题。确定出新的研究课题。确定出新的研究课题。

【技术实现步骤摘要】
一种基于自然语言的思路拓展方法、设备及介质


[0001]本申请涉及数据挖掘
,尤其涉及一种基于自然语言的思路拓展方法、设备及介质。

技术介绍

[0002]目前,新的研究课题的探索无论对于学术界还是工业界而言,都具有重要意义。对于学术界而言,进行新的课题研究有助于延续科研进程或开拓科研方向,促成新的科研成果的产生;对于工业界而言,研究新课题能够促成新产品的研发和生产,为企业解决技术难题或者带来新的赢利点,同时,还可以通过发表论文、专利等形式彰显企业的核心科技实力,保护企业的权益,增强企业的竞争力。
[0003]但是对于作者而言,新的研究课题的发现较为匮乏。通常是常规研究课题之外的发现及某一时刻灵光一现的想法,或者是长期对某一方向的研究以及和相近行业研究者的研讨会交流所产生的延续性或合作性的新想法。

技术实现思路

[0004]本申请实施例提供了一种基于自然语言的思路拓展方法、设备及介质,用以解决现有技术中新研究课题的发现较为困难,仅凭借科研人员自己发现的时间周期较长,针对科研人员长期对某一特定研究方向进行研究,容易形成思维定式,无法轻易地将思路扩展到与自身研究课题相关的其他新课题的技术问题。
[0005]一方面,本申请实施例提供了一种基于自然语言的思路拓展方法,包括:获取指定用户对应的文本集合,并基于综合词库,通过预设的分词算法,对所述文本集合中的文本进行分词,得到对应的分词结果;其中,所述文本集合中包括所述指定用户发表的所有文献;通过预设的统计算法,对所述分词结果进行处理,以获取所述文本集合中的关键词;根据指定关键词确定出对应的权重,并根据所述对应的权重,构建所述指定用户对应的关键词特征向量;基于预先获取的关键词特征矩阵以及预设的过滤算法,根据所述指定用户对应的关键词特征向量,确定出为所述指定用户推荐的关键词,并将所述关键词推荐给所述指定用户;其中,所述关键词特征矩阵是由若干用户对应的关键词特征向量拼接组成的。
[0006]在本申请的一种实现方式中,所述通过预设的分词算法,对所述文本集合中的文本进行分词,得到对应的分词结果之前,还包括:从网络中获取若干用户对应的论文,并提取若干论文中的关键词,以根据所述若干论文中的关键词构建关键词词库;以及从网络中获取若干用户对应的文本集合,并通过新词发现算法,从若干文本集合中获取学术名词,以根据所述学术名词构建新词词库;以及从网络中获取基础词库,并将所述基础词库、所述关键词词库和所述新词词库,组合成综合词库。
[0007]在本申请的一种实现方式中,所述基于预先获取的关键词特征向量矩阵以及预设的过滤算法,根据所述指定用户对应的关键词特征向量,确定出为所述指定用户推荐的关键词之前,还包括:获取用户对应的文本集合,并通过所述综合词库,对所述用户对应的文
本集合进行分词,得到所述用户对应文本集合的分词结果;根据所述分词结果,构建出所述用户对应的关键词特征向量;将所述用户对应的文本集合中指定关键词的加权值相加,得到所述用户在所述关键词特征向量的维度,并将若干用户对应的关键词特征向量进行拼接,以得到关键词特征矩阵。
[0008]在本申请的一种实现方式中,所述确定出为所述指定用户推荐的关键词之前,还包括:从预先获取的关键词特征矩阵中,获取若干用户对应的关键词特征向量;通过预设过滤算法,分别计算出所述指定用户对应的关键词特征向量,与所述若干用户对应的关键词特征向量之间的相关系数距离。
[0009]在本申请的一种实现方式中,还包括:A和B的相关系数距离计算公式为:其中,A和B为两个不同的作者,作者A对应的关键词特征向量为X
A
=(x
A1
,x
A2
,

,x
An
),作者B对应的关键词特征向量为X
B
=(x
B1
,x
B2
,

,x
Bn
)。
[0010]在本申请的一种实现方式中,所述基于预先获取的关键词特征矩阵以及预设的过滤算法,根据所述指定用户对应的关键词特征向量,确定出为所述指定用户推荐的关键词,具体包括:根据所述指定用户与所述若干用户之间的相关系数距离,从所述若干用户中,获取预设数量个与所述指定用户的相关系数距离小于预设距离阈值的用户;根据所述指定用户与所述若干用户之间的相关系数,对所述预设用户数量个用户对应的关键词特征向量进行加权求和,得到对应的关键词权重向量。
[0011]在本申请的一种实现方式中,还包括:关键词权重向量计算公式为:其中,m为已有作者对应的预设数量。
[0012]在本申请的一种实现方式中,还包括:根据所述对应的关键词权重向量,从所述若干用户对应的关键词中,确定出预设关键词数量个所述对应的关键词权重向量小于预设权重向量阈值的关键词;将所述确定出的关键词作为推荐词,向所述指定用户进行推荐,以使所述指定用户根据所述推荐词进行思路拓展。
[0013]另一方面,本申请实施例还提供了一种基于自然语言的思路拓展设备,设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:获取指定用户对应的文本集合,并基于综合词库,通过预设的分词算法,对所述文本集合中的文本进行分词,得到对应的分词结果;其中,所述文本集合中包括所述指定用户发表的所有文献;通过预设的统计算法,对所述分词结果进行处理,以获取所述文本集合中的关键词;根据指定关键词确定出对应的权重,并根据所述对应的权重,构建所述指定用户对应的关键词特征向量;基于预先获取的关键词特征矩阵以及预设的过滤算法,根据所述指定用户对应的关键词特征向量,确定出为所述指定用户推荐的关键词,并将所述关键词推荐给所述指定用户;其中,所述关键词特征矩阵是由若干用户对应的关键词特征向量拼接组成的。
[0014]另一方面,本申请实施例还提供了一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:获取指定用户对应的文本集合,并基于综合词
库,通过预设的分词算法,对所述文本集合中的文本进行分词,得到对应的分词结果;其中,所述文本集合中包括所述指定用户发表的所有文献;通过预设的统计算法,对所述分词结果进行处理,以获取所述文本集合中的关键词;根据指定关键词确定出对应的权重,并根据所述对应的权重,构建所述指定用户对应的关键词特征向量;基于预先获取的关键词特征矩阵以及预设的过滤算法,根据所述指定用户对应的关键词特征向量,确定出为所述指定用户推荐的关键词,并将所述关键词推荐给所述指定用户;其中,所述关键词特征矩阵是由若干用户对应的关键词特征向量拼接组成的。
[0015]本申请实施例提供了一种基于自然语言的思路拓展方法、设备及介质,至少包括以下有益效果:通过预设的分词算法基于综合词库,对指定用户对应的文本集合中的文本进行分词,然后通过预设的统计方法处理分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自然语言的思路拓展方法,其特征在于,所述方法包括:获取指定用户对应的文本集合,并基于综合词库,通过预设的分词算法,对所述文本集合中的文本进行分词,得到对应的分词结果;其中,所述文本集合中包括所述指定用户发表的所有文献;通过预设的统计算法,对所述分词结果进行处理,以获取所述文本集合中的关键词;根据指定关键词确定出对应的权重,并根据所述对应的权重,构建所述指定用户对应的关键词特征向量;基于预先获取的关键词特征矩阵以及预设的过滤算法,根据所述指定用户对应的关键词特征向量,确定出为所述指定用户推荐的关键词,并将所述关键词推荐给所述指定用户;其中,所述关键词特征矩阵是由若干用户对应的关键词特征向量拼接组成的。2.根据权利要求1所述的一种基于自然语言的思路拓展方法,其特征在于,所述通过预设的分词算法,对所述文本集合中的文本进行分词,得到对应的分词结果之前,所述方法还包括:从网络中获取若干用户对应的论文,并提取若干论文中的关键词,以根据所述若干论文中的关键词构建关键词词库;以及从网络中获取若干用户对应的文本集合,并通过新词发现算法,从若干文本集合中获取学术名词,以根据所述学术名词构建新词词库;以及从网络中获取基础词库,并将所述基础词库、所述关键词词库和所述新词词库,组合成综合词库。3.根据权利要求1所述的一种基于自然语言的思路拓展方法,其特征在于,所述基于预先获取的关键词特征向量矩阵以及预设的过滤算法,根据所述指定用户对应的关键词特征向量,确定出为所述指定用户推荐的关键词之前,所述方法还包括:获取用户对应的文本集合,并基于所述综合词库通过所述预设的分词算法,对所述用户对应的文本集合进行分词,得到所述用户对应文本集合的分词结果;根据所述分词结果中所述用户的关键词对应的权重,构建出所述用户对应的关键词特征向量;将所述用户对应的文本集合中指定关键词的加权值相加,得到所述用户在所述关键词特征向量的维度,并将若干用户对应的关键词特征向量进行拼接,以得到关键词特征矩阵。4.根据权利要求1所述的一种基于自然语言的思路拓展方法,其特征在于,所述确定出为所述指定用户推荐的关键词之前,所述方法还包括:从预先获取的关键词特征矩阵中,获取若干用户对应的关键词特征向量;通过预设过滤算法,分别计算出所述指定用户对应的关键词特征向量,与所述若干用户对应的关键词特征向量之间的相关系数距离。5.根据权利要求4所述的一种基于自然语言的思路拓展方法,其特征在于,所述方法还包括:A和B的相关系数距离计算公式为:
其中,A表示指定用户,B表示其他用户,指定用户A对应的关键词特征向量为X
A
=(x
A1
,x
A2
,

,x
An
),其他用户B对应的关键词特征向量为X
B
=(x
B1
,x
B2...

【专利技术属性】
技术研发人员:孙永超李照川张艳雪傅玉鑫郭亚琨
申请(专利权)人:浪潮卓数大数据产业发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1