神经网络模型训练方法和商业文件相似度确定方法及系统技术方案

技术编号：19859045 阅读：30 留言：0更新日期：2018-12-22 12:02

本发明专利技术涉及神经网络模型训练方法和商业文件相似度确定方法及系统。在一方面，提供一种用于确定商业文件之间的相似度的神经网络模型的训练方法。该方法包括：采集m个商业文件数据样本；建立商业文件的关联矩阵Matrix，以确定商业文件i与商业文件j的关联度Matrix[i][j]，其中i＝1,2,…,m而j＝1,2,…,m；对关联矩阵Matrix进行降维处理，以获得降维后的数据作为标签Label；分别地提取m个商业文件的一项或多项内容；对所提取的一项或多项内容进行向量化，以获得相应的内容向量；对所获得的内容向量进行合并，以获得与m个商业文件中的每一个商业文件相对应的向量Information；通过将向量Information作为输入而标签Label作为输出来训练神经网络模型。根据本发明专利技术，能够有效地和可靠地确定例如招标文件之间的相似度。

全部详细技术资料下载

【技术实现步骤摘要】
神经网络模型训练方法和商业文件相似度确定方法及系统
本专利技术涉及确定文本间相似度的领域，特别地，涉及利用神经网络模型来有效地和可靠地确定商业文件例如招标文件之间的相似度的确定方法及系统。
技术介绍
现阶段，为了提高工作效率以及实现利益最大化，招投标是工程建设中普遍采用的一种竞争性的采购方式。在传统的招投标中，招标单位制作招标文件，招标文件披露招标的信息，然后投标方获得信息后，根据招标的要求制作投标文件，投标文件披露投标信息，投标信息包括投标主体、投标价格等。在此过程中，投标单位需要自己去发现招标单位的标书，进而投标。在招标单位众多并且相应地招标文件众多的情况下，通过传统方式(例如人工查找及识别方式)，投标方难以快速地和适当地去识别出各个标书之间的相似度，进而难以快速地和适当地查找到适合于投标方的标书。这里，应当指出的是，本部分中所提供的
技术实现思路
旨在有助于本领域技术人员对本专利技术的理解，而不一定构成现有技术。
技术实现思路
为了解决或缓解相关技术中所存在的上述问题中的至少一个问题，本专利技术提供一种神经网络模型训练方法以及相关联的商业文件相似度确定方法及系统，使得能够有效地和可靠地确定商业文件之间的相似度。根据本专利技术的一个方面，提供一种神经网络模型的训练方法。所述神经网络模型用于确定商业文件之间的相似度。所述训练方法包括下述步骤：样本采集步骤：采集m个商业文件数据样本；关联矩阵建立步骤：建立商业文件的关联矩阵Matrix，以确定商业文件i与商业文件j的关联度Matrix[i][j]，其中i＝1,2,…,m而j＝1,2,…,m；降维处理步骤：对关联矩阵Ma...

【技术保护点】
1.一种神经网络模型的训练方法，所述神经网络模型用于确定商业文件之间的相似度，所述训练方法包括下述步骤：样本采集步骤：采集m个商业文件数据样本；关联矩阵建立步骤：建立商业文件的关联矩阵Matrix，以确定商业文件i与商业文件j的关联度Matrix[i][j]，其中i＝1,2,…,m而j＝1,2,…,m；降维处理步骤：对关联矩阵Matrix进行降维处理，以获得降维后的数据作为标签Label；内容提取步骤：分别地提取m个商业文件的一项或多项内容；内容向量化步骤：对所提取的一项或多项内容进行向量化，以获得相应的内容向量；训练步骤：通过将所获得的内容向量作为输入而标签Label作为输出来训练神经网络模型，或者，首先对所获得的内容向量进行合并以获得与m个商业文件中的每一个商业文件相对应的向量Information，然后通过将向量Information作为输入而标签Label作为输出来训练神经网络模型。

【技术特征摘要】
1.一种神经网络模型的训练方法，所述神经网络模型用于确定商业文件之间的相似度，所述训练方法包括下述步骤：样本采集步骤：采集m个商业文件数据样本；关联矩阵建立步骤：建立商业文件的关联矩阵Matrix，以确定商业文件i与商业文件j的关联度Matrix[i][j]，其中i＝1,2,…,m而j＝1,2,…,m；降维处理步骤：对关联矩阵Matrix进行降维处理，以获得降维后的数据作为标签Label；内容提取步骤：分别地提取m个商业文件的一项或多项内容；内容向量化步骤：对所提取的一项或多项内容进行向量化，以获得相应的内容向量；训练步骤：通过将所获得的内容向量作为输入而标签Label作为输出来训练神经网络模型，或者，首先对所获得的内容向量进行合并以获得与m个商业文件中的每一个商业文件相对应的向量Information，然后通过将向量Information作为输入而标签Label作为输出来训练神经网络模型。2.根据权利要求1所述的训练方法，其中，所述商业文件为招标文件，所述一项或多项内容包括：品目、资质要求、和/或项目描述。3.根据权利要求2所述的训练方法，其中：在所述一项或多项内容包括品目的情况下，所述内容向量化步骤包括下述品目向量化步骤：将品目信息以树的方式展现，以获得图录树CatalogTree；提取第ki个招标文件的品目信息，根据第ki个招标文件的品目信息所在的位置而获得向量Position[ki]，存储第ki个招标文件的品目信息在图录树CatalogTree中的位置，在所述一项或多项内容包括资质要求的情况下，所述内容向量化步骤包括下述资质要求向量化步骤：对资质要求进行划项，以确立划项数量Number；提取第ki个招标文件的资质要求信息，根据第ki个招标文件的资质要求信息获得Number维向量Qualifications[ki]，在所述一项或多项内容包括项目描述的情况下，所述内容向量化步骤包括下述项目描述向量化步骤：根据m个招标文件的项目描述文本获得停词列表；选择分词工具并且导入停词列表；提取第ki个招标文件的项目描述文本，利用处理好的分词工具提取第ki个招标文件的项目描述文本的预定数目的关键词Keyword并且进行向量化，以获得向量Keyword[ki]。4.根据权利要求3所述的训练方法，其中，在所述品目向量化步骤中，根据第ki个招标文件的品目信息所在的宽度...

【专利技术属性】
技术研发人员：郑权，张峰，聂颖，
申请(专利权)人：龙马智芯珠海横琴科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人