一种基于文本挖掘识别串标风险的方法及系统技术方案

技术编号：24409961 阅读：20 留言：0更新日期：2020-06-06 08:45

本发明专利技术公开了一种基于文本挖掘识别串标风险的方法及系统，通过预处理后进行分词，按照标签转化为结构化的招投标文本数据，抽取招投标文本数据中的每个标签中的条款文本的主题词并选出最高词频的主题词作为主题词，将主题词与知识库中的所有招投标文本数据中的每个标签中的条款文本的主题词进行相似比对得到对比度，当对比度大于预设相似阈值时则标记招投标文本数据为异常；可以方便的自动检测异常招投标信息，能够快速的定位招投标异常点，智能的自主学习新的知识，能准确的快速定位出风险点和招投标的问题，极大的减少了招投标审查的工作量，及时的显示出招投标中的风险。

A method and system of identifying the risk of collusion based on Text Mining

全部详细技术资料下载

【技术实现步骤摘要】
一种基于文本挖掘识别串标风险的方法及系统
本公开涉及文本数据处理领域、自然语言处理领域，具体涉及一种基于文本挖掘识别串标风险的方法及系统。
技术介绍
在检查招投标文件(投标技术文件)的文本的时候，有很多重复性的结构化文本是需要重复检查的内容，如果由人工检查的话，又容易出错重复性又高，而且很多问题都是很隐晦的；而且招投标文本的记录一般以非结构文本的形式存在，因此对于自动化文本处理并不友好难以准确地进行数据处理；当前的招投标文本的风险度检测方法通常采用预置的招投标类型模板的方式来帮助快速定位招投标文本中的问题，通过人工来提取特征词语，以及用特征词语通过预设规则来完成招投标文本的快速的检测，或者通过计算两个招投标文本中共有的关键词的相似度来计算两个招投标文本之间的相似度。由于特征词汇的表达方式经常不同，因此这些方法并不能准确的快速定位出风险点和招投标文件中的问题。
技术实现思路
本公开提供一种基于文本挖掘识别串标风险的方法及系统，通过预处理后进行分词，按照标签转化为结构化的招投标文本数据，抽取招投标文本数据中的每个标签中的条款文本的主题词并选出最高词频的主题词作为主题词，将主题词与知识库中的所有招投标文本数据中的每个标签中的条款文本的主题词进行相似比对得到对比度，当对比度大于预设相似阈值时则标记招投标文本数据为异常。本公开的目的是针对上述问题，提供一种基于文本挖掘识别串标风险的方法及系统，具体包括以下步骤：S100：读取招投标文本数据；S200：将招投标文本数据进行预处理...

【技术保护点】
1.一种基于文本挖掘识别串标风险的方法，其特征在于，所述方法包括以下步骤：/nS100：读取招投标文本数据；/nS200：将招投标文本数据进行预处理得到第一招投标文本数据；/nS300：将第一招投标文本数据进行分词得到第二招投标文本数据；/nS400：将第二招投标文本数据按照标签转化为结构化的第三招投标文本数据；/nS500：抽取第三招投标文本数据中的每个标签中的条款文本的主题词并选出最高词频的主题词作为第一主题词；/nS600：将第一主题词与知识库中的所有招投标文本数据中的每个标签中的条款文本的主题词进行相似比对得到对比度；/nS700：当对比度大于预设相似阈值时则标记招投标文本数据为异常。/n

【技术特征摘要】
1.一种基于文本挖掘识别串标风险的方法，其特征在于，所述方法包括以下步骤：
S100：读取招投标文本数据；
S200：将招投标文本数据进行预处理得到第一招投标文本数据；
S300：将第一招投标文本数据进行分词得到第二招投标文本数据；
S400：将第二招投标文本数据按照标签转化为结构化的第三招投标文本数据；
S500：抽取第三招投标文本数据中的每个标签中的条款文本的主题词并选出最高词频的主题词作为第一主题词；
S600：将第一主题词与知识库中的所有招投标文本数据中的每个标签中的条款文本的主题词进行相似比对得到对比度；
S700：当对比度大于预设相似阈值时则标记招投标文本数据为异常。

2.根据权利要求1所述的一种基于文本挖掘识别串标风险的方法，其特征在于，在S200中，将招投标文本数据进行预处理得到第一招投标文本数据的方法为：
S210：将招投标文本数据去停顿词、虚词等处理；
S220：通过包括有分词字典对语篇内容进行词的划分，去除数字、连字符、标点符号、特殊字符，将所有大写字母转换成小写；
S230：去除停顿词，过滤对不属于标签的词；
S240：去除虚词、停顿词得到第二招投标文本数据；
其中，所述分词字典至少包括了招投标文本名称、招投标时间、招标方名称、投标方名称、代理人名称。

3.根据权利要求1所述的一种基于文本挖掘识别串标风险的方法，其特征在于，在S300中，分词的方法包括最大正向匹配法、逆向最大匹配法、最少切分法、双向匹配法中任意一种。

4.根据权利要求1所述的一种基于文本挖掘识别串标风险的方法，其特征在于，在S400中，所述结构化的第三招投标文本数据是数据以标签为单位，一行数据表示一个实体的信息，每一行数据的属性是相同的。

5.根据权利要求1所述的一种基于文本挖掘识别串标风险的方法，其特征在于，在S500中，抽取第三招投标文本数据中的每个标签中的条款文本的主题词并选出最高词频的主题词作为第一主题词的方法为：
抽取第三招投标文本数据中主题词的方法为LDA、TextRank、GibbsLDA任意一种主题词抽取方法；
计算各个主题词...

【专利技术属性】
技术研发人员：王淼，金昌铉，程俊春，马博，朱宇龙，赵永国，刘森，黎晚晴，张君，梁惠欣，
申请(专利权)人：中国南方电网有限责任公司，南方电网数字电网研究院有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人