System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种项目相似度判断方法技术_技高网

一种项目相似度判断方法技术

技术编号:40661687 阅读:2 留言:0更新日期:2024-03-18 18:54
本发明专利技术涉及一种项目相似度判断方法,具体步骤包括:从项目库中提取相关项目的业务数据;建立分词模型对项目库提取的业务数据进行统计切分;利用Tf‑idf算法建立特征向量转化模型,通过统计分词模型输出的分词文本列表的词频数,将分词文本列表转化为分词特征向量列表,并获取各项目各业务数据维度的特征向量列表;利用余弦相似度算法建立相似度计算模型,通过各项目各业务数据维度的特征向量列表分别计算各项目各业务数据维度间的相似度,并进行加权求和,获得各项目的相似度;选取项目间相似度大于预设范围的所有项目作为疑似相似项目。

【技术实现步骤摘要】

本专利技术涉及数据挖掘和自然语言处理,具体为一种项目相似度判断方法


技术介绍

1、随着政务电子化信息系统建设,各单位都积累了大量的电子化数据,但是如何利用这些数据,从中提炼出有效的信息成为当下关注的重点。

2、相似度算法是一种用来计算两个或多个项目之间的相似性的算法。它是一种重要的知识发现技术,在大数据分析领域发挥着重要作用。相似度算法可以用于在大数据集中发现有用的信息,也可以用于搜索引擎来提高搜索结果的准确性。它可以用来比较文本、图像和声音,甚至是视频。

3、项目重复入库发生的原因可能是,一、项目执行年度为多年,单位或者代编部门在每一年都新增项目进行预算申请。二、基建项目可能存在一个事情拆为两个项目进行储备的情况,后期在进行计划申请时,两个项目可关联同一个合同进行用款计划申请。三、可能由于历史原因,找不到原来项目,重新储备项目支撑后续的项目执行。除了以上三个原因之外,还有可能是系统存在bug原因或者其他等等原因,导致重复储备。

4、由于项目重复入库,会导致项目储备量虚多,且无法做到追溯项目全生命周期。


技术实现思路

1、为了解决上述现有技术中存在的问题,本专利技术提出了一种项目相似度判断方法。

2、本专利技术的技术方案如下:

3、一方面,本专利技术提出一种项目相似度判断方法,具体步骤包括:

4、从项目库中提取相关项目的业务数据;

5、建立分词模型对项目库提取的业务数据进行统计切分;

6、利用tf-idf算法建立特征向量转化模型,通过统计分词模型输出的分词文本列表的词频数,将分词文本列表转化为分词特征向量列表,并获取各项目各业务数据维度的特征向量列表;

7、利用余弦相似度算法建立相似度计算模型,通过各项目各业务数据维度的特征向量列表分别计算各项目各业务数据维度间的相似度,并进行加权求和,获得各项目的相似度;

8、选取项目间相似度大于预设范围的所有项目作为疑似相似项目。

9、作为优选实施方式,所述项目的业务数据包括项目设立依据及申报理由、项目概述、绩效目标和项目名称。

10、作为优选实施方式,所述tf-idf算法具体为:

11、所述tf为词频,idf为逆文档频率;

12、逆文档频率idf的计算公式具体为:log(文档总数/包含该词的文档数+1);

13、所述tf-idf算法的计算公式具体为:tf*idf=词频*log(文档总数/包含该词的文档数+1)。

14、作为优选实施方式,所述余弦相似度算法的具体计算公式如下:

15、similarity=cos(θ)=a·b/(||a||*||b||)

16、式中,similarity代表余弦算法相似度,a和b代表两个文本的特征向量列表,||a||和||b||分别表示a和b的模长,a·b表示a和b的内积,θ表示a和b之间的夹角。

17、另一方面,本专利技术提出一种项目相似度判断系统,包括:

18、数据提取模块,从项目库中提取相关项目的业务数据;

19、分词模块,建立分词模型对项目库提取的业务数据进行统计切分;

20、特征向量转化模块,利用tf-idf算法建立特征向量转化模型,通过统计分词模型输出的分词文本列表的词频数,将分词文本列表转化为分词特征向量列表,并获取各项目各业务数据维度的特征向量列表;

21、相似度计算模块,利用余弦相似度算法建立相似度计算模型,通过各项目各业务数据维度的特征向量列表分别计算各项目各业务数据维度间的相似度,并进行加权求和,获得各项目的相似度;

22、相似度判断模块,选取项目间相似度大于预设范围的所有项目作为疑似相似项目。

23、作为优选实施方式,所述项目的业务数据包括项目设立依据及申报理由、项目概述、绩效目标和项目名称。

24、作为优选实施方式,所述tf-idf算法具体为:

25、所述tf为词频,idf为逆文档频率;

26、逆文档频率idf的计算公式具体为:log(文档总数/包含该词的文档数+1);

27、所述tf-idf算法的计算公式具体为:tf*idf=词频*log(文档总数/包含该词的文档数+1)。

28、作为优选实施方式,所述余弦相似度算法的具体计算公式如下:

29、similarity=cos(θ)=a·b/(||a||*||b||)

30、式中,similarity代表余弦算法相似度,a和b代表两个文本的特征向量列表,||a||和||b||分别表示a和b的模长,a·b表示a和b的内积,θ表示a和b之间的夹角。

31、另一方面,本专利技术提出一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本专利技术任一实施例所述的一种项目相似度判断方法。

32、另一方面,本专利技术提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本专利技术任一实施例所述的一种项目相似度判断方法。

33、本专利技术具有如下有益效果:

34、1、本专利技术通过分词模型对提取到的业务数据进行统计切分,准确分割自然语言。

35、2、本专利技术通过tf-idf算法将各项目的设立依据及申报理由、项目概述、绩效目标、项目名称四个维度的分词文本列表转化为特征向量列表,便于后续计算。

36、3、本专利技术通过余弦相似度算法分别判断各项目的各业务数据维度间的相似度,再引入权值来进行各项目间相似度,可以快速发现项目库中的重复项目,且准确性较高。

本文档来自技高网...

【技术保护点】

1.一种项目相似度判断方法,其特征在于,具体步骤包括:

2.根据权利要求1所述的一种项目相似度判断方法,其特征在于,所述项目的业务数据包括项目设立依据及申报理由、项目概述、绩效目标和项目名称。

3.根据权利要求1所述的一种项目相似度判断方法,其特征在于,所述Tf-idf算法具体为:

4.根据权利要求1所述的一种项目相似度判断方法,其特征在于,所述余弦相似度算法的具体计算公式如下:

5.一种项目相似度判断系统,其特征在于,包括:

6.根据权利要求5所述的一种项目相似度判断系统,其特征在于,所述项目的业务数据包括项目设立依据及申报理由、项目概述、绩效目标和项目名称。

7.根据权利要求5所述的一种项目相似度判断系统,其特征在于,所述Tf-idf算法具体为:

8.根据权利要求5所述的一种项目相似度判断系统,其特征在于,所述余弦相似度算法的具体计算公式如下:

9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一权利要求所述的一种项目相似度判断方法。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至4任一权利要求所述的一种项目相似度判断方法。

...

【技术特征摘要】

1.一种项目相似度判断方法,其特征在于,具体步骤包括:

2.根据权利要求1所述的一种项目相似度判断方法,其特征在于,所述项目的业务数据包括项目设立依据及申报理由、项目概述、绩效目标和项目名称。

3.根据权利要求1所述的一种项目相似度判断方法,其特征在于,所述tf-idf算法具体为:

4.根据权利要求1所述的一种项目相似度判断方法,其特征在于,所述余弦相似度算法的具体计算公式如下:

5.一种项目相似度判断系统,其特征在于,包括:

6.根据权利要求5所述的一种项目相似度判断系统,其特征在于,所述项目的业务数据包括项目设立依据及申报理由、项...

【专利技术属性】
技术研发人员:牛晓帅胡锦锋
申请(专利权)人:福建博思软件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1