神经网络模型训练方法和商业文件相似度确定方法及系统技术方案

技术编号:19859045 阅读:30 留言:0更新日期:2018-12-22 12:02
本发明专利技术涉及神经网络模型训练方法和商业文件相似度确定方法及系统。在一方面,提供一种用于确定商业文件之间的相似度的神经网络模型的训练方法。该方法包括:采集m个商业文件数据样本;建立商业文件的关联矩阵Matrix,以确定商业文件i与商业文件j的关联度Matrix[i][j],其中i=1,2,…,m而j=1,2,…,m;对关联矩阵Matrix进行降维处理,以获得降维后的数据作为标签Label;分别地提取m个商业文件的一项或多项内容;对所提取的一项或多项内容进行向量化,以获得相应的内容向量;对所获得的内容向量进行合并,以获得与m个商业文件中的每一个商业文件相对应的向量Information;通过将向量Information作为输入而标签Label作为输出来训练神经网络模型。根据本发明专利技术,能够有效地和可靠地确定例如招标文件之间的相似度。

【技术实现步骤摘要】
神经网络模型训练方法和商业文件相似度确定方法及系统
本专利技术涉及确定文本间相似度的领域,特别地,涉及利用神经网络模型来有效地和可靠地确定商业文件例如招标文件之间的相似度的确定方法及系统。
技术介绍
现阶段,为了提高工作效率以及实现利益最大化,招投标是工程建设中普遍采用的一种竞争性的采购方式。在传统的招投标中,招标单位制作招标文件,招标文件披露招标的信息,然后投标方获得信息后,根据招标的要求制作投标文件,投标文件披露投标信息,投标信息包括投标主体、投标价格等。在此过程中,投标单位需要自己去发现招标单位的标书,进而投标。在招标单位众多并且相应地招标文件众多的情况下,通过传统方式(例如人工查找及识别方式),投标方难以快速地和适当地去识别出各个标书之间的相似度,进而难以快速地和适当地查找到适合于投标方的标书。这里,应当指出的是,本部分中所提供的
技术实现思路
旨在有助于本领域技术人员对本专利技术的理解,而不一定构成现有技术。
技术实现思路
为了解决或缓解相关技术中所存在的上述问题中的至少一个问题,本专利技术提供一种神经网络模型训练方法以及相关联的商业文件相似度确定方法及系统,使得能够有效地和可靠地确定商业文件之间的相似度。根据本专利技术的一个方面,提供一种神经网络模型的训练方法。所述神经网络模型用于确定商业文件之间的相似度。所述训练方法包括下述步骤:样本采集步骤:采集m个商业文件数据样本;关联矩阵建立步骤:建立商业文件的关联矩阵Matrix,以确定商业文件i与商业文件j的关联度Matrix[i][j],其中i=1,2,…,m而j=1,2,…,m;降维处理步骤:对关联矩阵Matrix进行降维处理,以获得降维后的数据作为标签Label;内容提取步骤:分别地提取m个商业文件的一项或多项内容;内容向量化步骤:对所提取的一项或多项内容进行向量化,以获得相应的内容向量;训练步骤:通过将所获得的内容向量作为输入而标签Label作为输出来训练神经网络模型,或者,首先对所获得的内容向量进行合并以获得与m个商业文件中的每一个商业文件相对应的向量Information,然后通过将向量Information作为输入而标签Label作为输出来训练神经网络模型。优选地,在上述训练方法中,所述商业文件为招标文件,所述一项或多项内容包括:品目、资质要求、和/或项目描述。优选地,在上述训练方法中:在所述一项或多项内容包括品目的情况下,所述内容向量化步骤包括下述品目向量化步骤:将品目信息以树的方式展现,以获得图录树CatalogTree;提取第ki个招标文件的品目信息,根据第ki个招标文件的品目信息所在的位置而获得向量Position[ki],存储第ki个招标文件的品目信息在图录树CatalogTree中的位置,在所述一项或多项内容包括资质要求的情况下,所述内容向量化步骤包括下述资质要求向量化步骤:对资质要求进行划项,以确立划项数量Number;提取第ki个招标文件的资质要求信息,根据第ki个招标文件的资质要求信息获得Number维向量Qualifications[ki],在所述一项或多项内容包括项目描述的情况下,所述内容向量化步骤包括下述项目描述向量化步骤:根据m个招标文件的项目描述文本获得停词列表;选择分词工具并且导入停词列表;提取第ki个招标文件的项目描述文本,利用处理好的分词工具提取第ki个招标文件的项目描述文本的预定数目的关键词Keyword并且进行向量化,以获得向量Keyword[ki]。优选地,在上述训练方法中,在所述品目向量化步骤中,根据第ki个招标文件的品目信息所在的宽度和深度获得二维向量Position[ki]。优选地,在上述训练方法中,在所述资质要求向量化步骤中,对资质要求进行划项涉及是否有违纪、纳税、接受类型、和/或营业执照。优选地,在上述训练方法中,在所述资质要求向量化步骤中,所获得的Number维向量Qualifications[ki]被表示为:Qualifications[ki]={Qf1,Qf2,...Qfj,...,QfNumber}其中,Qfj∈{0,1},下标j=1,2,…,Number,Qfj表示第ki个招标文件的资质要求信息是否存在与所涉及的划项相对应的第j个划项,存在则Qfj=1,否则Qfj=0。优选地,在上述训练方法中:在所述品目向量化步骤中,逐个地提取m个招标文件中的每一个招标文件的品目信息,根据该招标文件的品目信息所在的位置而获得相应的向量Position,相应地存储该招标文件的品目信息在图录树CatalogTree中的位置;在所述资质要求向量化步骤中,逐个地提取m个招标文件中的每一个招标文件的资质要求信息,根据该招标文件的资质要求信息获得相应的Number维向量Qualifications;在所述项目描述向量化步骤中,逐个地提取m个招标文件中的每一个招标文件的项目描述文本,相应地利用处理好的分词工具提取该招标文件的项目描述文本的预定数目的关键词Keyword并且进行向量化,以获得相应的向量Keyword。根据本专利技术的另一方面,提供一种利用神经网络模型确定商业文件之间的相似度的确定方法。所述神经网络模型为基于如上文所描述的训练方法进行训练的神经网络模型。优选地,在上述确定方法中,所述商业文件为招标文件,所述确定方法包括下述步骤:采集待对比的两个招标文件的品目、资质要求、和/或项目描述;对所采集的品目、资质要求、和/或项目描述进行向量化,以获得相应的向量;将经过合并或未经过合并的所获得的相应的向量输入经过训练的神经网络模型而获得对应的输出参数;根据输出参数计算两个招标文件的数据组的距离而获得两个招标文件的相似度。根据本专利技术的另一方面,提供一种利用神经网络模型确定商业文件之间的相似度的确定系统。所述确定系统包括计算机程序模块,所述计算机程序模块适于执行如上文所描述的训练方法中的步骤和/或如上文所描述的确定方法中的步骤。根据本专利技术的神经网络模型训练方法以及相关联的商业文件相似度确定方法及系统,例如,使投标方能够有效地和可靠地去识别出各个标书之间的相似度,进而使投标方能够快速地和适当地查找到适合于投标方的标书。附图说明通过以下参照附图对本专利技术实施方式的详细描述,本专利技术的上述以及其它的目的、特征和优点将更为清楚,在附图中:图1为示出根据本专利技术示例性实施方式的神经网络模型的训练方法的流程图。具体实施方式下面参照附图、借助示例性实施方式对本专利技术进行详细描述。对本专利技术的以下详细描述仅仅是出于说明目的,而绝不是对本专利技术及其应用或用途的限制。参照图1(图1为示出根据本专利技术示例性实施方式的神经网络模型的训练方法的流程图),根据本专利技术示例性实施方式的神经网络模型(该神经网络模型可以用于确定招标文件之间的相似度)的训练方法可以包括:样本采集步骤、关联矩阵建立步骤、降维处理步骤、内容提取步骤、内容向量化步骤、内容向量合并步骤、以及训练步骤。这里,需要指出的是,尽管在此以招标文件作为示例对根据本专利技术的神经网络模型的训练方法进行描述,然而可以理解,根据本专利技术的神经网络模型的训练方法也可以适用于其它合适类型的商业文件(例如投标文件、合同文件等)。在样本采集步骤中,可以采集m个招标文件数据样本。在优选的示例中,采集大量(足够大)的招标文件数据本文档来自技高网...

【技术保护点】
1.一种神经网络模型的训练方法,所述神经网络模型用于确定商业文件之间的相似度,所述训练方法包括下述步骤:样本采集步骤:采集m个商业文件数据样本;关联矩阵建立步骤:建立商业文件的关联矩阵Matrix,以确定商业文件i与商业文件j的关联度Matrix[i][j],其中i=1,2,…,m而j=1,2,…,m;降维处理步骤:对关联矩阵Matrix进行降维处理,以获得降维后的数据作为标签Label;内容提取步骤:分别地提取m个商业文件的一项或多项内容;内容向量化步骤:对所提取的一项或多项内容进行向量化,以获得相应的内容向量;训练步骤:通过将所获得的内容向量作为输入而标签Label作为输出来训练神经网络模型,或者,首先对所获得的内容向量进行合并以获得与m个商业文件中的每一个商业文件相对应的向量Information,然后通过将向量Information作为输入而标签Label作为输出来训练神经网络模型。

【技术特征摘要】
1.一种神经网络模型的训练方法,所述神经网络模型用于确定商业文件之间的相似度,所述训练方法包括下述步骤:样本采集步骤:采集m个商业文件数据样本;关联矩阵建立步骤:建立商业文件的关联矩阵Matrix,以确定商业文件i与商业文件j的关联度Matrix[i][j],其中i=1,2,…,m而j=1,2,…,m;降维处理步骤:对关联矩阵Matrix进行降维处理,以获得降维后的数据作为标签Label;内容提取步骤:分别地提取m个商业文件的一项或多项内容;内容向量化步骤:对所提取的一项或多项内容进行向量化,以获得相应的内容向量;训练步骤:通过将所获得的内容向量作为输入而标签Label作为输出来训练神经网络模型,或者,首先对所获得的内容向量进行合并以获得与m个商业文件中的每一个商业文件相对应的向量Information,然后通过将向量Information作为输入而标签Label作为输出来训练神经网络模型。2.根据权利要求1所述的训练方法,其中,所述商业文件为招标文件,所述一项或多项内容包括:品目、资质要求、和/或项目描述。3.根据权利要求2所述的训练方法,其中:在所述一项或多项内容包括品目的情况下,所述内容向量化步骤包括下述品目向量化步骤:将品目信息以树的方式展现,以获得图录树CatalogTree;提取第ki个招标文件的品目信息,根据第ki个招标文件的品目信息所在的位置而获得向量Position[ki],存储第ki个招标文件的品目信息在图录树CatalogTree中的位置,在所述一项或多项内容包括资质要求的情况下,所述内容向量化步骤包括下述资质要求向量化步骤:对资质要求进行划项,以确立划项数量Number;提取第ki个招标文件的资质要求信息,根据第ki个招标文件的资质要求信息获得Number维向量Qualifications[ki],在所述一项或多项内容包括项目描述的情况下,所述内容向量化步骤包括下述项目描述向量化步骤:根据m个招标文件的项目描述文本获得停词列表;选择分词工具并且导入停词列表;提取第ki个招标文件的项目描述文本,利用处理好的分词工具提取第ki个招标文件的项目描述文本的预定数目的关键词Keyword并且进行向量化,以获得向量Keyword[ki]。4.根据权利要求3所述的训练方法,其中,在所述品目向量化步骤中,根据第ki个招标文件的品目信息所在的宽度...

【专利技术属性】
技术研发人员:郑权张峰聂颖
申请(专利权)人:龙马智芯珠海横琴科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1