一种基于语义相似分析的围串标智能识别方法技术

技术编号：24498708 阅读：116 留言：0更新日期：2020-06-13 04:07

本发明专利技术涉及一种基于语义相似分析的围串标智能识别方法，先计算关键词相似性、文本统计相似性及章节综合语义相似性，再结合这三个维度的权重，通过这三个维度的加权平均计算得到两份投标文件的综合相似度，进而判断是否围串标。本申请采用的围串标识别方法，通过人工智能语义分析技术深度解读不同公司的投标文件的相似特征，从统计特征层面与内容语义表达层面多角度分析围串标的疑似可能性，可靠性强，效率高，同时推动了人工智能技术在电力行业围串标分析中的智能应用。

An intelligent recognition method of cluster marks based on semantic similarity analysis

全部详细技术资料下载

【技术实现步骤摘要】
一种基于语义相似分析的围串标智能识别方法
本专利技术涉及信息技术和人工智能领域，特别是涉及一种基于语义相似分析的围串标智能识别方法。
技术介绍
电力行业实际招投标过程中，经常会出现一些围标串标行为，此类行为会引起企业采购成本上升、产品质量以及履约风险等问题。由于目前采购过程中招投标文件中非结构化数据占比较高，这些文件有明显相同之处，或者多处雷同，可以作为串标围标判定的重要依据。现阶段围串标的识别分析工作主要受制于人工识别效率低下以及一些主观判定因素，缺乏一定的客观性和规范化标准，因此有必要提出一种非结构化文本数据的自动分析方法针对招投标文件进行围串标分析。
技术实现思路
为了克服现有技术的上述不足，本专利技术提出了一种基于语义相似分析的围串标智能识别方法，解决现有人工识别围标串标效率低，且主观判定因素大的技术问题。本专利技术是通过以下技术方案实现的：一种基于语义相似分析的围串标智能识别方法，具体包括以下步骤：S1：计算关键词相似性：利用TextRank算法分别从两份投标文件中抽取若干关键词，每一份投标文件的一系列关键词构成关键词集合，利用两份投标文件对应关键词集合的交集比例计算杰卡德距离，得到两份文件的关键词相似度；S2：计算文本统计相似性：过滤文件中的停用词、行业专用词，再利用tf-idf计算方法提取统计权重特征向量，并计算特征向量之间的余弦相似性；S3：计算章节综合语义相似性：先计算每个章节特征向量的余弦相似性，再结合每个章节的权重，得到两份投标文件的章...

【技术保护点】
1.一种基于语义相似分析的围串标智能识别方法，其特征在于，具体包括以下步骤：/nS1：计算关键词相似性：利用TextRank算法分别从两份投标文件中抽取若干关键词，每一份投标文件的一系列关键词构成关键词集合，利用两份投标文件对应关键词集合的交集比例计算杰卡德距离，得到两份文件的关键词相似度；/nS2：计算文本统计相似性：过滤文件中的停用词、行业专用词，再利用tf-idf计算方法提取统计权重特征向量，并计算特征向量之间的余弦相似性即得到文本统计相似性；/nS3：计算章节综合语义相似性：先计算每个章节特征向量的余弦相似性，再结合每个章节的权重，得到两份投标文件的章节综合语义相似度；/nS4：计算综合相似度：根据经验设计关键词相似性、文本统计相似性及章节综合语义相似性这三个维度的权重，通过这三个维度的加权平均计算得到两份投标文件的综合相似度，进而判断是否围串标。/n

【技术特征摘要】
1.一种基于语义相似分析的围串标智能识别方法，其特征在于，具体包括以下步骤：
S1：计算关键词相似性：利用TextRank算法分别从两份投标文件中抽取若干关键词，每一份投标文件的一系列关键词构成关键词集合，利用两份投标文件对应关键词集合的交集比例计算杰卡德距离，得到两份文件的关键词相似度；
S2：计算文本统计相似性：过滤文件中的停用词、行业专用词，再利用tf-idf计算方法提取统计权重特征向量，并计算特征向量之间的余弦相似性即得到文本统计相似性；
S3：计算章节综合语义相似性：先计算每个章节特征向量的余弦相似性，再结合每个章节的权重，得到两份投标文件的章节综合语义相似度；
S4：计算综合相似度：根据经验设计关键词相似性、文本统计相似性及章节综合语义相似性这三个维度的权重，通过这三个维度的加权平均计算得到两份投标文件的综合相似度，进而判断是否围串标。

2.根据权利要求1所述的一种基于语义相似分析的围串标智能识别方法，其特征在于，S2中过滤停用词、行业专用词的步骤是：
S21：根据人工经验和分词统计方法，构建停用词库、行业专用词库；
S22：采用jieba分词对文件进行分词处理，然后将每一个分词分别与停用词库、行业专用词...

【专利技术属性】
技术研发人员：谢荣伟，韩卫民，陆志浩，马仲能，黄康君，
申请(专利权)人：广州供电局有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人