【技术实现步骤摘要】
一种基于自然语言的思路拓展方法、设备及介质
[0001]本申请涉及数据挖掘
,尤其涉及一种基于自然语言的思路拓展方法、设备及介质。
技术介绍
[0002]目前,新的研究课题的探索无论对于学术界还是工业界而言,都具有重要意义。对于学术界而言,进行新的课题研究有助于延续科研进程或开拓科研方向,促成新的科研成果的产生;对于工业界而言,研究新课题能够促成新产品的研发和生产,为企业解决技术难题或者带来新的赢利点,同时,还可以通过发表论文、专利等形式彰显企业的核心科技实力,保护企业的权益,增强企业的竞争力。
[0003]但是对于作者而言,新的研究课题的发现较为匮乏。通常是常规研究课题之外的发现及某一时刻灵光一现的想法,或者是长期对某一方向的研究以及和相近行业研究者的研讨会交流所产生的延续性或合作性的新想法。
技术实现思路
[0004]本申请实施例提供了一种基于自然语言的思路拓展方法、设备及介质,用以解决现有技术中新研究课题的发现较为困难,仅凭借科研人员自己发现的时间周期较长,针对科研人员长期对某一特定研究方向进行研究,容易形成思维定式,无法轻易地将思路扩展到与自身研究课题相关的其他新课题的技术问题。
[0005]一方面,本申请实施例提供了一种基于自然语言的思路拓展方法,包括:获取指定用户对应的文本集合,并基于综合词库,通过预设的分词算法,对所述文本集合中的文本进行分词,得到对应的分词结果;其中,所述文本集合中包括所述指定用户发表的所有文献;通过预设的统计算法,对所述分词结果进行处理,以获取所 ...
【技术保护点】
【技术特征摘要】
1.一种基于自然语言的思路拓展方法,其特征在于,所述方法包括:获取指定用户对应的文本集合,并基于综合词库,通过预设的分词算法,对所述文本集合中的文本进行分词,得到对应的分词结果;其中,所述文本集合中包括所述指定用户发表的所有文献;通过预设的统计算法,对所述分词结果进行处理,以获取所述文本集合中的关键词;根据指定关键词确定出对应的权重,并根据所述对应的权重,构建所述指定用户对应的关键词特征向量;基于预先获取的关键词特征矩阵以及预设的过滤算法,根据所述指定用户对应的关键词特征向量,确定出为所述指定用户推荐的关键词,并将所述关键词推荐给所述指定用户;其中,所述关键词特征矩阵是由若干用户对应的关键词特征向量拼接组成的。2.根据权利要求1所述的一种基于自然语言的思路拓展方法,其特征在于,所述通过预设的分词算法,对所述文本集合中的文本进行分词,得到对应的分词结果之前,所述方法还包括:从网络中获取若干用户对应的论文,并提取若干论文中的关键词,以根据所述若干论文中的关键词构建关键词词库;以及从网络中获取若干用户对应的文本集合,并通过新词发现算法,从若干文本集合中获取学术名词,以根据所述学术名词构建新词词库;以及从网络中获取基础词库,并将所述基础词库、所述关键词词库和所述新词词库,组合成综合词库。3.根据权利要求1所述的一种基于自然语言的思路拓展方法,其特征在于,所述基于预先获取的关键词特征向量矩阵以及预设的过滤算法,根据所述指定用户对应的关键词特征向量,确定出为所述指定用户推荐的关键词之前,所述方法还包括:获取用户对应的文本集合,并基于所述综合词库通过所述预设的分词算法,对所述用户对应的文本集合进行分词,得到所述用户对应文本集合的分词结果;根据所述分词结果中所述用户的关键词对应的权重,构建出所述用户对应的关键词特征向量;将所述用户对应的文本集合中指定关键词的加权值相加,得到所述用户在所述关键词特征向量的维度,并将若干用户对应的关键词特征向量进行拼接,以得到关键词特征矩阵。4.根据权利要求1所述的一种基于自然语言的思路拓展方法,其特征在于,所述确定出为所述指定用户推荐的关键词之前,所述方法还包括:从预先获取的关键词特征矩阵中,获取若干用户对应的关键词特征向量;通过预设过滤算法,分别计算出所述指定用户对应的关键词特征向量,与所述若干用户对应的关键词特征向量之间的相关系数距离。5.根据权利要求4所述的一种基于自然语言的思路拓展方法,其特征在于,所述方法还包括:A和B的相关系数距离计算公式为:
其中,A表示指定用户,B表示其他用户,指定用户A对应的关键词特征向量为X
A
=(x
A1
,x
A2
,
…
,x
An
),其他用户B对应的关键词特征向量为X
B
=(x
B1
,x
B2...
【专利技术属性】
技术研发人员:孙永超,李照川,张艳雪,傅玉鑫,郭亚琨,
申请(专利权)人:浪潮卓数大数据产业发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。