一种基于数据库的风险控制方法技术

技术编号:34955243 阅读:15 留言:0更新日期:2022-09-17 12:33
本申请公开了一种基于数据库的风险控制方法,涉及自然语言处理及大数据,包括:对招标文本按照自然段落或者章节进行内容分块;确定多个内容分块中的无关内容分块;在去除各招标文本的无关内容分块后,分析各所述招标文本的相似度;识别异常的内容分块;当一个招标文本中的异常分块数量超过阈值或者无关内容占比超过阈值时,判定招标文件为异常投标文件;根据各招标文件的异常情况和相似度确定疑似围串标行为;根据所述疑似围串标行为执行风险控制措施。本方案可以特定的规避标书相似度检测的行为,增加风险控制系统的可靠性。增加风险控制系统的可靠性。增加风险控制系统的可靠性。

【技术实现步骤摘要】
一种基于数据库的风险控制方法


[0001]本申请涉及自然语言处理及大数据技术,特别是一种基于数据库的风险控制方法。

技术介绍

[0002]投标是商业上一种公平的竞争方式,但是在投标的显示操作中,围标、串标的行为层出不同,可能是投标人之间进行横向合谋,也可能是投标人和评标专家之间的纵向合谋。这些合谋行为较难发现。
[0003]通常,投标人之间进行合谋围标时,往往都有同一个机构或者投标人对各方的标书进行处理,最终由不同投标人签章后进行投标。为了节省人力或者成本,投标人在处理几个机构的标书的时候,往往会采用重复内容。
[0004]但是上述手段在目前先进的文字搜索技术条件下,容易被发现。为了混淆目前的相关技术,这些机构会考虑往标书中写入大量无用的内容,这些内容可能与投标毫无关系,这样可以有效降低部分关键词的浓度,使得标书和标书之间的相似度下降。更为先进的方法是投标人会基于正常的标书,利用机器人进行洗稿,机器人会采用近义词替换,句式变换和更换词语顺序等方式生成新的句子,通过这一方式,无论是文字内容匹配,语义分析都难以发现。

技术实现思路

[0005]本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术提出一种基于数据库的风险控制方法,可以基于大数据的方式分析投标中采用特定方式规避标书对比检测的串标行为,从而控制投标活动中的风险。
[0006]本申请实施例提供了一种基于数据库的风险控制方法,包括:
[0007]获取多个招标文本;
[0008]对招标文本按照自然段落或者章节进行内容分块;
[0009]确定多个内容分块中的无关内容分块;
[0010]在去除各招标文本的无关内容分块后,分析各所述招标文本的相似度;
[0011]在每个招标文件之中,抽取多个内容分块,并将各内容分块拆分成多个句子;
[0012]对拆分得到的句子送入到异常语句分析模型中,判断句子是否为异常语句;
[0013]当一个内容分块中超过预设个句子被判定为异常语句时,判定该内容分块为异常分块;
[0014]当一个招标文本中的异常分块数量超过阈值或者无关内容占比超过阈值时,判定招标文件为异常投标文件;
[0015]根据各招标文件的异常情况和相似度确定疑似围串标行为;
[0016]根据所述疑似围串标行为执行风险控制措施。
[0017]另一方面,本申请实施例提供了一种基于数据库的风险控制方法,本方案基于假
设评标专家之间可能存在合谋关系,通过聚类分析将评标专家数据库分为多个数据库,通过设置相应的抽取概率实现了在招投标活动中基于可能存在的合谋关系来抽取评标专家,从而减少合谋关系带来的风险。
[0018]该方法包括以下步骤:
[0019]S5100、对评标专家数据库进行聚类分析;
[0020]S5200、获取当前评标活动所需抽取的评标专家数量K;
[0021]S5301、根据评标专家数量K计算对应的聚类层次数;
[0022]S5302、根据聚类层次数对应的聚类分析结果将评标专家数据库分为数量K的多个数据库;
[0023]S5303、获取标书分析模块标记的可疑投标人,所述标书分析模块执行上述实施例的步骤S1~S9;
[0024]S5304、根据可疑投标人在投标人数据库中对应的数据,计算可疑投标人与评标专家数据库中每个数据点的关联程度值;
[0025]S5305、在多个数据库中删除最高关联程度值所对应的数据点;
[0026]S5400、从多个数据库中等概率地抽取K个评标专家用于参加当前评标活动;
[0027]步骤S1~S9包括:
[0028]S1、获取多个招标文本;
[0029]S2、对招标文本按照自然段落或者章节进行分割,得到内容分块;
[0030]S3、确定多个内容分块中的无关内容分块;
[0031]S4、在去除各招标文本的无关内容分块后,分析各所述招标文本的相似度;
[0032]S5、在每个招标文件之中,抽取多个内容分块,并将各内容分块拆分成多个句子;
[0033]S6、对拆分得到的句子送入到异常语句分析模型中,判断句子是否为异常语句;
[0034]S7、当一个内容分块中超过预设个句子被判定为异常语句时,判定该内容分块为异常分块;
[0035]S8、当一个招标文本中的异常分块数量超过阈值或者无关内容占比超过阈值时,判定招标文件为异常投标文件;
[0036]S9、根据各招标文件的异常情况和相似度确定疑似围串标行为,确定可疑投标人。
[0037]本申请实施例通过获取多个招标文本,然后对招标文本按照自然段落或者章节进行内容分块,接着确定多个内容分块中的无关内容分块,并基于无关内容分块的比例来确定是否通过放入大量无关内容规避相似度检查的异常投标文件;随后在去除各招标文本的无关内容分块后,分析各所述招标文本的相似度,通过这一方式可以在塞入无关内容的标书中找到相似的标书;接着在每个招标文件之中,抽取多个内容分块,并将各内容分块拆分成多个句子;对拆分得到的句子送入到异常语句分析模型中,判断句子是否为异常语句;当一个内容分块中超过预设个句子被判定为异常语句时,判定该内容分块为异常分块;通过分析异常语句的方式,可以排查出通过机器人洗稿生成的标书,这些标书虽然与内容相关,并且可以降低标书之间的相似度,但是通过机器人洗稿的方案会留下异常的痕迹,可以通过检测异常句子找到异常内容,从而找出异常的标书;接着当一个招标文本中的异常分块数量超过阈值或者无关内容占比超过阈值时,判定招标文件为异常投标文件;然后根据各招标文件的异常情况和相似度确定疑似围串标行为;这样无论是普通的内容雷同,还是通
过某些技术进行洗稿或者加入无关内容也难以规避审查,可见,通过本方案可以很好地根据所述疑似围串标行为执行风险控制措施。
附图说明
[0038]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0039]图1是本方案实施例提供的基于数据库的风险控制方法的流程图;
[0040]图2是本方案实施例提供的异常语句分析模型的结构示意图;
[0041]图3是本方案实施例提供的语序异常分支的示意图;
[0042]图4是本方案实施例提供的搭配异常分支的示意图
[0043]图5是本方案实施例提供的基于数据库的风险控制方法的步骤流程图;
[0044]图6为图5步骤S5100的一具体实施例;
[0045]图7为图5步骤S5300的一具体实施例;
[0046]图8为树状图显示层次聚类实例。
具体实施方式
[0047]为使本申请的目的、技术方案和优点更加清楚,以下将参照本申请实施例中的附图,通过本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数据库的风险控制方法,其特征在于,包括:获取多个招标文本;对招标文本按照自然段落或者章节进行分割,得到内容分块;确定多个内容分块中的无关内容分块;在去除各招标文本的无关内容分块后,分析各所述招标文本的相似度;在每个招标文件之中,抽取多个内容分块,并将各内容分块拆分成多个句子;对拆分得到的句子送入到异常语句分析模型中,判断句子是否为异常语句;当一个内容分块中超过预设个句子被判定为异常语句时,判定该内容分块为异常分块;当一个招标文本中的异常分块数量超过阈值或者无关内容占比超过阈值时,判定招标文件为异常投标文件;根据各招标文件的异常情况和相似度确定疑似围串标行为;根据所述疑似围串标行为执行风险控制措施。2.根据权利要求1所述的一种基于数据库的风险控制方法,其特征在于,包括:所述确定多个内容分块中的无关内容分块,具体是:针对每个内容分块进行关键词统计,得到每个内容分块中最高频的N个关键词;分析内容分块对应的N个关键词是否与投标主题关联,并且判断内容分块对应的N个关键词是否出现在多个投标文件中,若N个关键词中超过第一设定比例的关键词与投标主题无关且N个关键词中超过第一设定比例的关键词未出现在其他投标文件中时,将N个关键词所对应的内容分块判定为无关内容分块。3.根据权利要求1所述的一种基于数据库的风险控制方法,其特征在于,所述异常语句分析模型,包括语序异常分支和搭配异常分支,其中,所述语序异常分支用于检测词语顺序异常的情况,所述搭配异常分支用于检测词语搭配异常的情况,其中,所述异常语句分析模型在语序异常分支和搭配异常分支的至少之一检测到异常时,判定语句为异常语句。4.根据权利要求3所述的一种基于数据库的风险控制方法,其特征在于,所述异常语句分析模型通过以下方式得到:构建同义词数据库和标准语句数据库;基于标准语句数据库中的语句,通过交换句子中词语位置的方式构造第一类异常样本;基于标准语句数据库中的语句,查找语句中待替换词语的同义词,检查同义词与语句中其他词语的搭配是否存在于标准语句数据库的语句中,若否,则将待替换词语更换成同义词,从而构成第二类异常样本;利用第一类异常样本对语序异常分支进行训练,直到语序异常分支满足预设条件;利用第二类异常样本对搭配异常分支进行训练,直到搭配异常分支满足预设条件;将第一类异常样本和第二类异常样本进行混合后,对异常语句分析模型进行整体训练,直到满足预设条件。5.根据权利要求4所述的一种基于数据库的风险控制方法,其特征在于,所述语序异常分支工作步骤包括:对语句进...

【专利技术属性】
技术研发人员:张磊杨丽莎梁素文
申请(专利权)人:广东国义信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1