一种基于语义相似分析的围串标智能识别方法技术

技术编号:24498708 阅读:116 留言:0更新日期:2020-06-13 04:07
本发明专利技术涉及一种基于语义相似分析的围串标智能识别方法,先计算关键词相似性、文本统计相似性及章节综合语义相似性,再结合这三个维度的权重,通过这三个维度的加权平均计算得到两份投标文件的综合相似度,进而判断是否围串标。本申请采用的围串标识别方法,通过人工智能语义分析技术深度解读不同公司的投标文件的相似特征,从统计特征层面与内容语义表达层面多角度分析围串标的疑似可能性,可靠性强,效率高,同时推动了人工智能技术在电力行业围串标分析中的智能应用。

An intelligent recognition method of cluster marks based on semantic similarity analysis

【技术实现步骤摘要】
一种基于语义相似分析的围串标智能识别方法
本专利技术涉及信息技术和人工智能领域,特别是涉及一种基于语义相似分析的围串标智能识别方法。
技术介绍
电力行业实际招投标过程中,经常会出现一些围标串标行为,此类行为会引起企业采购成本上升、产品质量以及履约风险等问题。由于目前采购过程中招投标文件中非结构化数据占比较高,这些文件有明显相同之处,或者多处雷同,可以作为串标围标判定的重要依据。现阶段围串标的识别分析工作主要受制于人工识别效率低下以及一些主观判定因素,缺乏一定的客观性和规范化标准,因此有必要提出一种非结构化文本数据的自动分析方法针对招投标文件进行围串标分析。
技术实现思路
为了克服现有技术的上述不足,本专利技术提出了一种基于语义相似分析的围串标智能识别方法,解决现有人工识别围标串标效率低,且主观判定因素大的技术问题。本专利技术是通过以下技术方案实现的:一种基于语义相似分析的围串标智能识别方法,具体包括以下步骤:S1:计算关键词相似性:利用TextRank算法分别从两份投标文件中抽取若干关键词,每一份投标文件的一系列关键词构成关键词集合,利用两份投标文件对应关键词集合的交集比例计算杰卡德距离,得到两份文件的关键词相似度;S2:计算文本统计相似性:过滤文件中的停用词、行业专用词,再利用tf-idf计算方法提取统计权重特征向量,并计算特征向量之间的余弦相似性;S3:计算章节综合语义相似性:先计算每个章节特征向量的余弦相似性,再结合每个章节的权重,得到两份投标文件的章节综合语义相似度;S4:计算综合相似度:根据经验设计关键词相似性、文本统计相似性及章节综合语义相似性这三个维度的权重,通过这三个维度的加权平均计算得到两份投标文件的综合相似度,进而判断是否围串标。进一步的,S2中过滤停用词、行业专用词的步骤是:S21:根据人工经验和分词统计方法,构建停用词库、行业专用词库;S22:采用jieba分词对文件进行分词处理,然后将每一个分词分别与停用词库、行业专用词库中的词进行比较,如果是停用词库、行业专用词库的词则删除,以此循环删除所有的停用词、行业专业词。进一步的,S3中每个章节特征向量的余弦相似性的具体计算步骤如下:S31:利用WORD2VEC技术对历史所有投标文件进行词向量训练;S32:将两份投标文件中每个章节的停用词、行业专用词过滤掉,得到的剩下词语,获取词向量取平均值得到章节内容的向量特征,再计算每个章节特征向量的余弦相似性。进一步的,S3中每个章节的权重是根据经验设计的。进一步的,S4中关键词相似性、文本统计相似性及章节综合语义相似性这三个维度的权重之和为1。进一步的,S4中判断是否围串标的具体步骤是:将计算的综合相似度值与设置的相似度阈值进行比较,如果综合相似度值超过阈值,则两份文件有围串标嫌疑,进行预警。与现有技术相比,本专利技术的有益效果在于:本专利技术提出的一种基于语义相似分析的围串标智能识别方法,通过人工智能语义分析技术深度解读不同公司的投标文件的相似特征,从统计特征层面与内容语义表达层面多角度分析围串标的疑似可能性,可靠性强,效率高,同时推动了人工智能技术在电力行业围串标分析中的智能应用。说明书附图图1为本专利技术实施例所述一种基于语义相似分析的围串标智能识别方法的流程图;图2为本专利技术实施例所述文本统计相似性计算流程图。具体实施方式展示一下实例来具体说明本专利技术的某些实施例,且不应解释为限制本专利技术的范围。对本专利技术公开的内容可以同时从材料、方法和反应条件进行改进,所有这些改进,均应落入本专利技术的精神和范围之内。如图1所示,一种基于语义相似分析的围串标智能识别方法,具体包括以下步骤:S1:计算关键词相似性:利用TextRank算法分别从第i个投标文件、第j个投标文件中抽取50个关键词,每一份投标文件的一系列关键词构成关键词集合,第i个投标文件、第j个投标文件中关键词集合对应的表达式如下:Doci={KWi1,KWi2,KWi3,…,KWi50},Docj{KWj1,KWj2,KWj3,…,KWj50},其中,KWik、KWjk分别代表第i个投标文件、第j个投标文件中的第k个关键词;然后利用第i个投标文件和第j个投标文件对应关键词集合的交集比例计算杰卡德距离,得到两份文件的关键词相似度,即为下式:Jaccard(Doci,Docj)=|Doci∩Docj|/|Doci∪Docj|,其中∩代表交集,∪代表并集,∣·∣代表集合的元素个数。S2:计算文本统计相似性,如图2所示:根据人工经验和分词统计方法,构建停用词库、行业专用词库;采用jieba分词对文件进行分词处理,然后将每一个分词分别与停用词库、行业专用词库中的词进行比较,如果是停用词库、行业专用词库的词则删除,以此循环删除所有的停用词、行业专业词过滤文件中的停用词、行业专用词,因电力专业术语是不同企业都会用到的,不能仅以此说明围串标嫌疑,例如物资采购中涉及到物资名称“变压器”、“安全帽”等,需要针对性删除;再利用tf-idf计算方法提取统计权重特征向量,并计算tf-idf向量之间的余弦相似性,tf-idf实际上是:tf*idf,TF词频(TermFrequency),IDF反文档频率(InverseDocumentFrequency),TF是指某一个给定的词语在给定文件中出现的频率,表示为:式子中ni,j是该词在文件中的出现次数,而分母则是在文件中所有字词的出现次数之和;IDF是度量词语的普遍重要性:如果包含某个词条的文档越少,IDF越大,则说明该词条具有很好的类别区分能力,式中|D|:语料库中的文件总数,|{j:ti∈dj}|:包含词语的文件数目(即ni,j≠0的文件数目),如果该词语不在语料库中,就会导致被除数为零,因此一般情况下使用1+|{j:ti∈dj}|;则tf-idf的计算公式:tfidfi,j=tfi,j×idfi,得出tf-idf向量的余弦相似性即为文本相似性Sim_tfidf。S3:计算章节综合语义相似性:利用WORD2VEC技术对历史所有投标文件进行词向量训练,得到所有词语的词向量;采用S2中的过滤方式将两份投标文件中每个章节的停用词、行业专用词过滤掉,得到的剩下词语,获取词向量取平均值得到章节内容的向量特征,再计算每个章节特征向量的余弦相似性,选取技术投标文件中运行可靠性、制作工艺水平、生产能力水平等25个章节进行内容语义相似度计算,章节向量的余弦相似性衡量章节的相似度,其中,x,y分别表示两个投标文件对应章节的向量化表示;根据经验设计每个章节的权重,因每个章节由若干词语和短语句子组成具有特定代表含义的段落,例如售后服务水平、企业规模、专用资格要求、制作工艺水平等,每个段落表达的含义不一样,有些是主观部分较多(需要投标人自己组织语言,如企业规模),有些是客观部分本文档来自技高网...

【技术保护点】
1.一种基于语义相似分析的围串标智能识别方法,其特征在于,具体包括以下步骤:/nS1:计算关键词相似性:利用TextRank算法分别从两份投标文件中抽取若干关键词,每一份投标文件的一系列关键词构成关键词集合,利用两份投标文件对应关键词集合的交集比例计算杰卡德距离,得到两份文件的关键词相似度;/nS2:计算文本统计相似性:过滤文件中的停用词、行业专用词,再利用tf-idf计算方法提取统计权重特征向量,并计算特征向量之间的余弦相似性即得到文本统计相似性;/nS3:计算章节综合语义相似性:先计算每个章节特征向量的余弦相似性,再结合每个章节的权重,得到两份投标文件的章节综合语义相似度;/nS4:计算综合相似度:根据经验设计关键词相似性、文本统计相似性及章节综合语义相似性这三个维度的权重,通过这三个维度的加权平均计算得到两份投标文件的综合相似度,进而判断是否围串标。/n

【技术特征摘要】
1.一种基于语义相似分析的围串标智能识别方法,其特征在于,具体包括以下步骤:
S1:计算关键词相似性:利用TextRank算法分别从两份投标文件中抽取若干关键词,每一份投标文件的一系列关键词构成关键词集合,利用两份投标文件对应关键词集合的交集比例计算杰卡德距离,得到两份文件的关键词相似度;
S2:计算文本统计相似性:过滤文件中的停用词、行业专用词,再利用tf-idf计算方法提取统计权重特征向量,并计算特征向量之间的余弦相似性即得到文本统计相似性;
S3:计算章节综合语义相似性:先计算每个章节特征向量的余弦相似性,再结合每个章节的权重,得到两份投标文件的章节综合语义相似度;
S4:计算综合相似度:根据经验设计关键词相似性、文本统计相似性及章节综合语义相似性这三个维度的权重,通过这三个维度的加权平均计算得到两份投标文件的综合相似度,进而判断是否围串标。


2.根据权利要求1所述的一种基于语义相似分析的围串标智能识别方法,其特征在于,S2中过滤停用词、行业专用词的步骤是:
S21:根据人工经验和分词统计方法,构建停用词库、行业专用词库;
S22:采用jieba分词对文件进行分词处理,然后将每一个分词分别与停用词库、行业专用词...

【专利技术属性】
技术研发人员:谢荣伟韩卫民陆志浩马仲能黄康君
申请(专利权)人:广州供电局有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1