一种基于文本挖掘识别串标风险的方法及系统技术方案

技术编号:24409961 阅读:20 留言:0更新日期:2020-06-06 08:45
本发明专利技术公开了一种基于文本挖掘识别串标风险的方法及系统,通过预处理后进行分词,按照标签转化为结构化的招投标文本数据,抽取招投标文本数据中的每个标签中的条款文本的主题词并选出最高词频的主题词作为主题词,将主题词与知识库中的所有招投标文本数据中的每个标签中的条款文本的主题词进行相似比对得到对比度,当对比度大于预设相似阈值时则标记招投标文本数据为异常;可以方便的自动检测异常招投标信息,能够快速的定位招投标异常点,智能的自主学习新的知识,能准确的快速定位出风险点和招投标的问题,极大的减少了招投标审查的工作量,及时的显示出招投标中的风险。

A method and system of identifying the risk of collusion based on Text Mining

【技术实现步骤摘要】
一种基于文本挖掘识别串标风险的方法及系统
本公开涉及文本数据处理领域、自然语言处理领域,具体涉及一种基于文本挖掘识别串标风险的方法及系统。
技术介绍
在检查招投标文件(投标技术文件)的文本的时候,有很多重复性的结构化文本是需要重复检查的内容,如果由人工检查的话,又容易出错重复性又高,而且很多问题都是很隐晦的;而且招投标文本的记录一般以非结构文本的形式存在,因此对于自动化文本处理并不友好难以准确地进行数据处理;当前的招投标文本的风险度检测方法通常采用预置的招投标类型模板的方式来帮助快速定位招投标文本中的问题,通过人工来提取特征词语,以及用特征词语通过预设规则来完成招投标文本的快速的检测,或者通过计算两个招投标文本中共有的关键词的相似度来计算两个招投标文本之间的相似度。由于特征词汇的表达方式经常不同,因此这些方法并不能准确的快速定位出风险点和招投标文件中的问题。
技术实现思路
本公开提供一种基于文本挖掘识别串标风险的方法及系统,通过预处理后进行分词,按照标签转化为结构化的招投标文本数据,抽取招投标文本数据中的每个标签中的条款文本的主题词并选出最高词频的主题词作为主题词,将主题词与知识库中的所有招投标文本数据中的每个标签中的条款文本的主题词进行相似比对得到对比度,当对比度大于预设相似阈值时则标记招投标文本数据为异常。本公开的目的是针对上述问题,提供一种基于文本挖掘识别串标风险的方法及系统,具体包括以下步骤:S100:读取招投标文本数据;S200:将招投标文本数据进行预处理得到第一招投标文本数据;S300:将第一招投标文本数据进行分词得到第二招投标文本数据;S400:将第二招投标文本数据按照标签转化为结构化的第三招投标文本数据;S500:抽取第三招投标文本数据中的每个标签中的条款文本的主题词并选出最高词频的主题词作为第一主题词;S600:将第一主题词与知识库中的所有招投标文本数据中的每个标签中的条款文本的主题词进行相似比对得到对比度;S700:当对比度大于预设相似阈值时则标记招投标文本数据为异常。进一步地,在S100中,所述招投标文本数据中的标签包括了招投标文本名称、招投标时间、招标方名称、投标方名称、代理人名称,还包括交换代理人、技术方案查重、招投标围标(交换代理人)、投标信息(包括项目、项目投标厂家、投标厂家代理人等);招投标文本数据为招投标文件的文本。进一步地,在S200中,将招投标文本数据进行预处理得到第一招投标文本数据的方法为:S210:将招投标文本数据去停顿词、虚词等处理;S220:通过包括有分词字典对语篇内容进行词的划分,去除数字、连字符、标点符号、特殊字符,用正则表达式Stringres[]=line.split(“[^a-zA-Z]”)将所有大写字母转换成小写;S230:去除停顿词,过滤对不属于标签的词;S240:去除虚词、停顿词得到第二招投标文本数据;其中,所述分词字典至少包括了招投标文本名称、招投标时间、招标方名称、投标方名称、代理人名称,还包括交换代理人、技术方案查重、招投标围标(交换代理人)、投标信息(包括项目、项目投标厂家、投标厂家代理人等)。进一步地,在S300中,分词的方法包括最大正向匹配法、逆向最大匹配法、最少切分法、双向匹配法中任意一种。进一步地,在S400中,所述结构化的第三招投标文本数据是数据以标签为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。进一步地,在S500中,抽取第三招投标文本数据中的每个标签中的条款文本的主题词并选出最高词频的主题词作为第一主题词的方法为:抽取第三招投标文本数据中主题词的方法为LDA、TextRank、GibbsLDA任意一种主题词抽取方法;计算各个主题词的词频F(t)的方法为:其中,nt表示主题词t在第三招投标文本数据中出现的次数,N表示第三招投标文本数据中的总词汇数;选出最高词频的主题词作为第一主题词。进一步地,在S600中,将第一主题词与知识库中的所有招投标文本数据中的每个标签中的条款文本的主题词进行相似比对得到对比度的方法为:记知识库中的所有招投标文本数据中的每个标签中的条款文本的主题词为对比主题词;依次通过计算第一主题词与所有知识库中对比主题词的文本向量所表示的两个招投标文本数据d和dj之间的对比度,d为待进行相似比对的招投标文本数据,dj为知识库中参与相似比对的招投标文本数据,计算对比度S(d,di)如下:其中,Rk为主题词所表示的招投标文本数据的值,Rik表示知识库中第i个招投标文本数据的第k个标签的值,M为知识库中招投标文本数据标签的数量,i为整数,i取值范围为1到N,N为知识库中招投标文本数据的数量,为Rk的平方,为Rik的平方。其中,所述知识库包括多个招投标文本数据,每个招投标文本数据包括多个标签,每个标签对应有一个条款文本。进一步地,在S600中,将第一主题词与知识库中的所有招投标文本数据中的每个标签中的条款文本的主题词进行相似比对得到对比度的计算方法还可以为余弦相似度的计算方法。进一步地,在S700中,显示出预设相似阈值以上对比度的所有招标信息部分,异常的招标信息部分按照从大到小或从小到大进行排序,预设相似阈值默认设置为20%,可人工调整。本专利技术还提供了一种基于文本挖掘识别串标风险的系统,所述系统包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序运行在以下系统的单元中:数据采集单元,用于读取招投标文本数据;预处理单元,用于将招投标文本数据进行预处理得到第一招投标文本数据;分词单元,用于将第一招投标文本数据进行分词得到第二招投标文本数据;结构化单元,用于将第二招投标文本数据按照标签转化为结构化的第三招投标文本数据;高频主题词单元,用于抽取第三招投标文本数据中的每个标签中的条款文本的主题词并选出最高词频的主题词作为第一主题词;相似比对单元,用于将第一主题词与知识库中的所有招投标文本数据中的每个标签中的条款文本的主题词进行相似比对得到对比度;异常标记单元,用于当对比度大于预设相似阈值时则标记招投标文本数据为异常。本公开的有益效果为:本专利技术公开了一种基于文本挖掘识别串标风险的方法,可以方便的自动检测异常招投标信息,能够快速的定位招投标异常点,智能的自主学习新的知识,能准确的快速定位出风险点和招投标的问题,极大的减少了招投标审查的工作量,及时的显示出招投标中的风险。附图说明通过对结合附图所示出的实施方式进行详细说明,本公开的上述以及其他特征将更加明显,本公开附图中相同的参考标号表示相同或相似的元素,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,在附图中:图1所示本文档来自技高网...

【技术保护点】
1.一种基于文本挖掘识别串标风险的方法,其特征在于,所述方法包括以下步骤:/nS100:读取招投标文本数据;/nS200:将招投标文本数据进行预处理得到第一招投标文本数据;/nS300:将第一招投标文本数据进行分词得到第二招投标文本数据;/nS400:将第二招投标文本数据按照标签转化为结构化的第三招投标文本数据;/nS500:抽取第三招投标文本数据中的每个标签中的条款文本的主题词并选出最高词频的主题词作为第一主题词;/nS600:将第一主题词与知识库中的所有招投标文本数据中的每个标签中的条款文本的主题词进行相似比对得到对比度;/nS700:当对比度大于预设相似阈值时则标记招投标文本数据为异常。/n

【技术特征摘要】
1.一种基于文本挖掘识别串标风险的方法,其特征在于,所述方法包括以下步骤:
S100:读取招投标文本数据;
S200:将招投标文本数据进行预处理得到第一招投标文本数据;
S300:将第一招投标文本数据进行分词得到第二招投标文本数据;
S400:将第二招投标文本数据按照标签转化为结构化的第三招投标文本数据;
S500:抽取第三招投标文本数据中的每个标签中的条款文本的主题词并选出最高词频的主题词作为第一主题词;
S600:将第一主题词与知识库中的所有招投标文本数据中的每个标签中的条款文本的主题词进行相似比对得到对比度;
S700:当对比度大于预设相似阈值时则标记招投标文本数据为异常。


2.根据权利要求1所述的一种基于文本挖掘识别串标风险的方法,其特征在于,在S200中,将招投标文本数据进行预处理得到第一招投标文本数据的方法为:
S210:将招投标文本数据去停顿词、虚词等处理;
S220:通过包括有分词字典对语篇内容进行词的划分,去除数字、连字符、标点符号、特殊字符,将所有大写字母转换成小写;
S230:去除停顿词,过滤对不属于标签的词;
S240:去除虚词、停顿词得到第二招投标文本数据;
其中,所述分词字典至少包括了招投标文本名称、招投标时间、招标方名称、投标方名称、代理人名称。


3.根据权利要求1所述的一种基于文本挖掘识别串标风险的方法,其特征在于,在S300中,分词的方法包括最大正向匹配法、逆向最大匹配法、最少切分法、双向匹配法中任意一种。


4.根据权利要求1所述的一种基于文本挖掘识别串标风险的方法,其特征在于,在S400中,所述结构化的第三招投标文本数据是数据以标签为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。


5.根据权利要求1所述的一种基于文本挖掘识别串标风险的方法,其特征在于,在S500中,抽取第三招投标文本数据中的每个标签中的条款文本的主题词并选出最高词频的主题词作为第一主题词的方法为:
抽取第三招投标文本数据中主题词的方法为LDA、TextRank、GibbsLDA任意一种主题词抽取方法;
计算各个主题词...

【专利技术属性】
技术研发人员:王淼金昌铉程俊春马博朱宇龙赵永国刘森黎晚晴张君梁惠欣
申请(专利权)人:中国南方电网有限责任公司南方电网数字电网研究院有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1