一种基于HMM和BI-LSTM模型的投标人精准提取方法及系统技术方案

技术编号:41957285 阅读:17 留言:0更新日期:2024-07-10 16:42
本发明专利技术公开了一种基于HMM和BI‑LSTM模型的投标人精准提取方法及系统。属于数据采集领域,一种基于HMM和BI‑LSTM模型的投标人精准提取方法,包括以下步骤:对原始文档的语料数据进行语料初步提取,构建语料数据集;根据投标人的类型对语料数据集进行数据角色标注,得到角色标注数据集;采用HMM和BI‑LSTM模型对角色标注数据集进行自动标注后判定投标人并输出投标人。本发明专利技术将投标人切分成不同的组成进行划分类别,有效的提高分类效果,提出了采用BI‑LSTM和HMM多模型融合算法模型,充分的利用数学模型在具体在投标人识别任务中实际运用。结合传统数学模型和深度学习技术,训练融合模型,提高泛化性。

【技术实现步骤摘要】

本专利技术属于数据采集领域,具体涉及一种基于hmm和bi-lstm模型的投标人精准提取方法及系统。


技术介绍

1、随着招标系统的上线大量原始的招标文件保存到招标系统服务器上,经过分析和观测这些招标文件当中都存在投标人名称,但是这些数据都是非结构化的数据,没有办法直接进行直接的解析,其特点在于投标人可能存在于文件当中的任意页面,每一个投标公司的页码和内容都不同。所以根据上述的困境,这些数据难以提取,无法保存到公司的数据当中直接管理,加大了投标项目人的管理难度,不便于公司的大数据模型的建立和数据仓库的运行。鉴于此,亟需一种可以把招标文件这种非结构化数据转化成结构化数据的方法。

2、目前,招标文件中通常采用人工手动逐个核对招标文件当中的投标人,这类方法缺少统一性和一致性。同时这类方法非常耗时,需要人工逐个的分析查阅文档。


技术实现思路

1、本专利技术的目的在于克服无法有效提取投标文件价格文档中的表格信息,提出了一种基于hmm和bi-lstm模型的投标人精准提取方法及系统,投标文件的文档内包含大量的投标人本文档来自技高网...

【技术保护点】

1.一种基于HMM和BI-LSTM模型的投标人精准提取方法,其特征在于,包括以下步骤:对原始文档的语料数据进行语料初步提取,构建语料数据集;根据投标人的类型对语料数据集进行数据角色标注,得到角色标注数据集;采用HMM和BI-LSTM模型对角色标注数据集进行自动标注后判定投标人并输出投标人。

2.根据权利要求1所述的一种基于HMM和BI-LSTM模型的投标人精准提取方法,其特征在于,所述语料初步提取具体为:基于文档解析工具提取原始文档的文本数据,通过人工分析找出文本数据中的语料数据;所述语料数据包括公司数据和时间数据。

3.根据权利要求1所述的一种基于HMM和BI-...

【技术特征摘要】

1.一种基于hmm和bi-lstm模型的投标人精准提取方法,其特征在于,包括以下步骤:对原始文档的语料数据进行语料初步提取,构建语料数据集;根据投标人的类型对语料数据集进行数据角色标注,得到角色标注数据集;采用hmm和bi-lstm模型对角色标注数据集进行自动标注后判定投标人并输出投标人。

2.根据权利要求1所述的一种基于hmm和bi-lstm模型的投标人精准提取方法,其特征在于,所述语料初步提取具体为:基于文档解析工具提取原始文档的文本数据,通过人工分析找出文本数据中的语料数据;所述语料数据包括公司数据和时间数据。

3.根据权利要求1所述的一种基于hmm和bi-lstm模型的投标人精准提取方法,其特征在于,所述数据角色标注具体为:按照语料库的命名实体标准对语料数据集进行角色划分标注,得到标注语料数据集,将标注语料数据集加入语料数据集中,得到角色标注数据集。

4.根据权利要求3所述的一种基于hmm和bi-lstm模型的投标人精准提取方法,其特征在于,所述投标人的类型为公司时,角色划分标注的角色包括行政区域名称、字号、行业、经营特点、组织形式和无关词。

5.根据权利要求1所述的一种基于hmm和bi-lstm模型的投标人精准提取方法,其特征在于,所述hmm模型通过对角色标注数据集进行角色自动标注得到标注序列后,从所有标注序列中选择概率最大的标注序列作为角色序列,对角色序列...

【专利技术属性】
技术研发人员:郑子辰袁建贾家琛邸智
申请(专利权)人:华能招标有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1