基于AI大数据的技术交易推荐系统及方法技术方案

技术编号:36503103 阅读:10 留言:0更新日期:2023-02-01 15:26
本发明专利技术涉及交易数据处理技术领域,具体涉及一种基于AI大数据的技术交易推荐系统及方法,该方法包括:收集所有用户账号的技术文本构成推荐集;对技术文本进行分词与文本位置划分,根据词出现的文本位置以及在对应文本位置出现的数量获取每个文本位置的重要程度;获取每个技术文本中每个词的共现值和离散程度;根据每个文本位置的重要程度、每个词的共现值以及离散程度更新TF

【技术实现步骤摘要】
基于AI大数据的技术交易推荐系统及方法


[0001]本专利技术涉及交易数据处理
,具体涉及一种基于AI大数据的技术交易推荐系统及方法。

技术介绍

[0002]随着专利数量以及技术成果的不断丰富,对于新技术的需求也在不断增加,如何将有用的技术成果转换成看得见的经济效益是一个重点关注的问题,也因此出现了技术转移并建立了技术转移信息服务平台,技术转移不仅在研究和产业之间起着重要的连接作用,并且能够促进区域内的知识流动。
[0003]目前在技术转移信息服务平台搜索自身需求的相关技术信息时,往往是以文本相似度的匹配为主,对于文本相似度的匹配最常用的方法便是基于TF

IDF算法,利用传统的TF

IDF算法对文本的关键词进行提取以进行匹配,但该方法忽略了不同词的重要程度以及词的分布状况,对于权重的调整精确度较低,且没有考虑到词所在位置的重要性,因此会导致匹配结果不够精准。

技术实现思路

[0004]为了解决上述技术问题,本专利技术的目的在于提供一种基于AI大数据的技术交易推荐系统及方法,所采用的技术方案具体如下:第一方面,本专利技术一个实施例提供了一种基于AI大数据的技术交易推荐方法,该方法包括以下步骤:收集所有用户账号的浏览记录,所述浏览记录中包括至少两个技术文本,所有用户账号的技术文本构成推荐集;对每个技术文本进行文本位置的划分,同时对每个技术文本进行分词,统计特定长度词出现的文本位置以及在对应文本位置出现的数量,以得到每个文本位置中词的出现比例;根据所有词的出现比例以及所有词出现的文本位置得到每个文本位置的重要程度;将每个技术文本进行句子划分得到分句,根据分句中每个词在技术文本中出现的频次筛选分句,得到剩余分句;根据所述剩余分句中所有的词构建矩阵,根据所述矩阵得到每个词的共现值;统计每个词在技术文本中出现的行位置信息,根据每个词出现的行位置信息获取对应的离散程度;根据每个词出现的文本位置的数量、每个词的共现值以及离散程度得到每个词的校正因子;根据所述每个词的校正因子、每个文本位置的重要程度及每个词在每个文本位置中词的出现比例更新TFIDF算法中的关键值函数求得技术文本中每个词的关键值;根据每个词的关键值提取所述推荐集中的相似文本,并获取每个所述相似文本的相似度,根据所述相似度对所述相似文本进行降序排列得到推荐结果。
[0005]优选的,所述根据文本位置中词的数量以及所有词出现的文本位置数量得到每个文本位置的重要程度,包括:
其中,表示第个文本位置的重要程度;表示第个文本位置中词的数量;表示第种词出现的文本位置数量;表示所有的词的种类的数量,U表示文本位置的数量。
[0006]优选的,所述根据每个词出现的文本位置的数量、每个词的共现值以及离散程度得到每个词的校正因子,包括:W表示第种词的校正因子;表示第种词出现的文本位置数量;表示第种词的共现值;表示第种词的离散程度。
[0007]优选的,所述根据所述每个词的校正因子、每个文本位置的重要程度及每个词在每个文本位置中词的出现比例更新TFIDF算法中的关键值函数求得技术文本中每个词的关键值,包括:其中,表示第u种词的关键值,表示文本位置的数量;表示第个文本位置的重要程度;表示第种词在第个文本位置中的出现比例;表示第种词在所有技术文本中出现的技术文本的数量;表示所有技术文本的数量;表示第u种词的校正因子。
[0008]优选的,所述将每个技术文本进行句子划分得到分句,根据分句中每个词在技术文本中出现的频次筛选分句,得到剩余分句,包括:根据技术文本中的标点符号将技术文本划分为多个分句,统计分句中每种词在技术文本中出现的频次,当出现的频次大于预设次数时将该词进行保留;当出现的频次不大于预设次数时,将该词进行舍弃;最终得到所有保留下的分句,将保留下的分句记为剩余分句。
[0009]优选的,所述根据所述剩余分句中所有的词构建矩阵,根据所述矩阵得到每个词的共现值的步骤,包括:由剩余分句中所有种类的词作为矩阵的行和列,矩阵中每个位置的元素表示对应的行和列的两个词出现在同一剩余分句的次数;将矩阵中每行的所有元素值进行相加得到累加结果,最终对于每个词都有一个累加结果,然后对累加结果进行极差归一化,得到每个词的共现值。
[0010]优选的,所述统计每个词在技术文本中出现的行位置信息,根据每个词出现的行
位置信息获取对应的离散程度,包括:所述出现的行位置信息是指每个词在技术文本中每次出现的行的行数;所述离散程度的计算为:其中,表示第种词的离散程度;表示第种词第一次出现的行数;表示第种词下一次出现的行数;表示技术文本的总行数,P即第种词出现的次数;最终得到每个词的离散程度,然后对所有词的离散程度进行极差归一化,作为最终每个词的离散程度。
[0011]优选的所述根据每个词的关键值提取所述推荐集中的相似文本的步骤,包括:获取当前用户账号的搜索关键词以及历史浏览记录,提取所述历史浏览记录中所有技术文本内关键值最高的第一预设数量的词为关键词;根据当前用户账号对应的关键词以及所述搜索关键词在所述推荐集中提取相似文本,每个所述相似文本中关键值最高的第二预设数量的词与当前用户账号对应的第一预设数量的关键词以及所述搜索关键词一致。
[0012]优选的,所述获取每个所述相似文本的相似度的步骤,包括:获取与当前用户账号利用相同所述搜索关键词的其他的目标用户,统计所述目标用户对应的所有历史浏览记录,统计每个所述目标用户的历史浏览记录中对每个技术文本的浏览时间,以每个所述目标用户对每个技术文本的浏览时间与该技术文本中搜索关键词的关键值的乘积作为每个所述目标用户对每个技术文本的关注度,每个技术文本受到所有所述目标用户的关注度的求和为对应技术文本的推荐程度;获取当前用户账号对应的所述相似文本的推荐程度,对当前用户账号对应的第一预设数量关键词以及所述搜索关键词赋予权重,获取每个所述相似文本中第一预设数量关键词以及所述搜索关键词的关键值与权重的加权求和结果,所述加权求和结果与所述相似文本对应推荐程度的乘积为对应所述相似文本的相似度。
[0013]第二方面,本专利技术另一个实施例提供了一种基于AI大数据的技术交易推荐系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器在执行所述计算机程序时实现上述基于AI大数据的技术交易推荐方法中任意一项所述方法的步骤。
[0014]本专利技术具有如下有益效果:本专利技术实施例中通过技术文本中每个词出现的文本位置以及每个文本位置对应的重要程度对TF

IDF算法进行改进,以使得TF

IDF算法中得到的每个词的关键值更加准确可靠;在对每个文本位置的重要程度的获取时,结合所有词的出现比例以及所有词出现的文本位置进行计算,提高了重要程度获取的全面性;同时,对技术文本中每个分句以及每一行的词进行分析,得到每个词对应的共现值和离散程度;在对TF

IDF算法的关键值获取的改进中,同样结合每个词对应的共现值和离散程度本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于AI大数据的技术交易推荐方法,其特征在于,该方法包括以下步骤:收集所有用户账号的浏览记录,所述浏览记录中包括至少两个技术文本,所有用户账号的技术文本构成推荐集;对每个技术文本进行文本位置的划分,同时对每个技术文本进行分词,统计特定长度词出现的文本位置以及在对应文本位置出现的数量,以得到每个文本位置中词的出现比例;根据文本位置中词的数量以及所有词出现的文本位置数量得到每个文本位置的重要程度;将每个技术文本进行句子划分得到分句,根据分句中每个词在技术文本中出现的频次筛选分句,得到剩余分句;根据所述剩余分句中所有的词构建矩阵,根据所述矩阵得到每个词的共现值;统计每个词在技术文本中出现的行位置信息,根据每个词出现的行位置信息获取对应的离散程度;根据每个词出现的文本位置的数量、每个词的共现值以及离散程度得到每个词的校正因子;根据所述每个词的校正因子、每个文本位置的重要程度及每个词在每个文本位置中词的出现比例更新TFIDF算法中的关键值函数求得技术文本中每个词的关键值;根据每个词的关键值提取所述推荐集中的相似文本,并获取每个所述相似文本的相似度,根据所述相似度对所述相似文本进行降序排列得到推荐结果。2.根据权利要求1所述的一种基于AI大数据的技术交易推荐方法,其特征在于,所述根据文本位置中词的数量以及所有词出现的文本位置数量得到每个文本位置的重要程度,包括:其中,表示第个文本位置的重要程度;表示第个文本位置中词的数量;表示第种词出现的文本位置数量;表示所有的词的种类的数量,U表示文本位置的数量。3.根据权利要求1所述的一种基于AI大数据的技术交易推荐方法,其特征在于,所述根据每个词出现的文本位置的数量、每个词的共现值以及离散程度得到每个词的校正因子,包括:W表示第种词的校正因子;表示第种词出现的文本位置数量;表示第种词的共现值;表示第种词的离散程度。4.根据权利要求1所述的一种基于AI大数据的技术交易推荐方法,其特征在于,所述根据所述每个词的校正因子、每个文本位置的重要程度及每个词在每个文本位置中词的出现比例更新TFIDF算法中的关键值函数求得技术文本中每个词的关键值,包括:
其中,表示第u种词的关键值,表示文本位置的数量;表示第个文本位置的重要程度;表示第种词在第个文本位置中的出现比例;表示第种词在技术文本中出现的技术文本的数量;表示所有技术文本的数量;表示第u种词的校正因子。5.根据权利要求1所述的一种基于AI大数据的技术交易推荐方法,其特征在于,所述将每个技术文本进行句子划分得到分句,根据分句中每个词在技术文本中出现的频次筛选分句,得到剩余分句,包括:根据技术文本中的标点符号将技术文本划分为多个分句,统计分句中每种词在技术文本中出现的频次,当出现的频次大于预设次数时将该词进行保留;当出现的频次不大于预设次数时,将该词进行舍弃;最终...

【专利技术属性】
技术研发人员:杨高林兰毅宋文力
申请(专利权)人:果子青岛数字技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1