当前位置: 首页 > 专利查询>上海大学专利>正文

一种基于神经网络的需求文档和服务文档匹配方法组成比例

技术编号:19822406 阅读:33 留言:0更新日期:2018-12-19 14:55
本发明专利技术涉及一种基于神经网络的需求文档和服务文档匹配方法。本发明专利技术利用需求文档和服务文档结构,通过对文档进行提取,利用段落嵌入将文档转化为向量,通过长短期记忆神经网络对文章进行分割,在分割文本上利用卷积神经网络计算相似度,求得所有分割文档的相似度后计算加权平均值;最终得到需求文档和服务文档的相似度。

【技术实现步骤摘要】
一种基于神经网络的需求文档和服务文档匹配方法
本专利技术涉及计算机自然语言处理领域,主要针对于需求文档和服务文档的匹配,具体涉及一种基于神经网络的需求文档和服务文档匹配方法。
技术介绍
随着互联网迅速发展和普及,现代企业生产方式变成以技术为基础的互相协作。为了寻找相互协作的企业,需求方编写符合企业需求的需求文档,而技术方编写企业技术能力对应的服务文档,通过连接互联网,加快发现协作企业,减少企业时间和人力成本。企业需求文档包含企业需要解决的问题以及解决该问题时需要达到的指标,企业服务文档则包含概述解决该难题技术的方法、解决过类似项目的经验、承接本项目具备的技术储备、所获得的相关专利、拟采取的研究方法、主要实现的技术指标和项目进度计划。如何通过需求文档和服务文档快速为企业寻找合作伙伴成为当下一个热点和难点。目前常用的文档匹配方法通过将文本转化为文档向量空间模型(VectorSpaceModel,VSM),在逆文档频率(TermFrequency–InverseDocumentFrequencyModel,TF-IDF)模型的基础上通过距离函数计算两个文档的相似度,距离越小就越相似。由于需求文档可能会包含需要合作企业同时满足的几项需求,而服务文档可能会列举企业目前能够最大程度提供的技术服务,服务文档需要满足需求文档中绝大多数或者全部的情况下才是正确的匹配,目前的匹配方法在这方面还存在不足。
技术实现思路
为了克服目前的匹配方法在需求文档和服务文档匹配上的不足,提高需求文档和服务文档匹配的准确率,本专利技术提出了一种基于神经网络的需求文档和服务文档匹配方法,利用需求文档和服务文档的内容的特殊性,提取文档内容,在更细粒度进行匹配,最后综合得出匹配结果。为达到上述目的,本专利技术采用下述技术方案:步骤1:输入一篇需求文档和一篇服务文档作为待匹配文档,需求文档包含企业需要解决的问题以及解决该问题时需要达到的指标,服务文档则包含概述解决该难题技术的方法、解决过类似项目的经验、承接本项目具备的技术储备、所获得的相关专利、拟采取的研究方法、主要实现的技术指标和项目进度计划;步骤2:根据文档内容判断输入文档是需求文档或服务文档;步骤2.1:包括企业需要解决的问题以及解决该问题时需要达到的指标部分则是需求文档,提取企业需要解决的问题以及解决该问题时需要达到的指标部分;步骤2.2:包括概述解决该难题技术的方法、解决过类似项目的经验、承接本项目具备的技术储备、所获得的相关专利、拟采取的研究方法、主要实现的技术指标和项目进度计划部分则是服务文档,提取概述解决该难题技术的方法、解决过类似项目的经验、承接本项目具备的技术储备、所获得的相关专利、拟采取的研究方法、主要实现的技术指标和项目进度计划部分;步骤2.3:最终的需求文档和服务文档的相似度要对所有需求文档提取部分与所有服务文档提取部分计算相似度,以下取需求文档的需要解决的问题和服务文档的概述解决该难题技术的方法为例;步骤3:对需求文档的需要解决的问题部分和服务文档的概述解决该难题技术的方法部分中的句子进行段落嵌入(ParagraphEmbedding,PE)处理,获得句子向量;步骤4:通过长短期记忆网络(LongShort-TermMemory,LSTM)判断文档分割点;步骤4.1:将获得的句子向量输入训练好的长短期记忆网络(LongShort-TermMemory,LSTM)中,由长短期记忆网络输出结果判断前一句子是否是一个分割点;步骤4.2:根据分割点将一个部分分割成意思不同的几段文本,对需求文档的问题部分就是一个个需求,服务文档的解决部分就是一个个方法。步骤5:根据处理结果类型构造相似度模型输入;步骤5.1:如果是需求文档,则将一个需求的所有句子通过PE模型处理后得到句子向量构成一个矩阵,同时取一个方法的所有句子向量构成另一个矩阵;步骤5.2:如果是服务文档,则将一个方法的所有句子通过PE模型处理后得到句子向量构成一个矩阵,同时取一个需求的所有句子向量构成另一个矩阵;步骤6:将两个矩阵作为输入通过训练好的卷积神经网络(ConvolutionalNeuralNetworks,CNNs)计算相似度,每个需求交叉的和每个方法计算相似度,对每个需求取相似度最大的值作为这一需求的最终值;步骤7:对相似度值加权平均获得最终相似度;步骤7.1:获取每个需求最终值后求加权平均值作为需求文档的需要解决的问题最终相似度值;步骤7.2:上述步骤以需求文档的需要解决的问题和服务文档的概述解决该难题技术的方法为例,需求文档包含需要解决的问题以及解决该问题时需要达到的指标部分,根据上述方法再求得需求文档解决该问题时需要达到的指标部分相似度,求两部分加权平均值作为需求文档和服务文档最终相似度;步骤8:最终相似度和预设阈值相比较,大于阈值则两篇文档匹配,小于阈值则两篇文档不匹配。其中,步骤4所述的分割点是指文档的前一句和后一句所述意思不相同,则前一句是一个分割点。长短期记忆网络历史信息更新公式为:Ct=0(whenht-1→1)其中Ct时长短期记忆网络t时刻的历史信息,ht-1是上一个状态的输出。更新历史信息时,如果前一时间得到的输出是分割点,则将Ct更新为0,不是分割点则不处理。本专利技术与现有技术相比较,具有如下显而易见的突出实质性特点和显著技术进步:通过文本分割方法对需求文档和服务文档进行分割,获得具体的需求和服务,最后基于具体的需求和服务计算匹配度,解决了需求文档和服务文档匹配时需要大部分或者全部满足的问题。将出现的指标信息单独构造一维加入原始输入矩阵,解决了需求文档和服务文档中指标信息对匹配结果的影响。在求得各分割文档相似度后又进行了交叉匹配,取最佳匹配结果,解决了因用户习惯不同对匹配结果的影响。附图说明图1为本专利技术流程图。图2为本专利技术相似度计算模型卷积网络图。图3为本专利技术相似度计算模型中卷积操作图。图4为本专利技术相似度计算模型中相似度层图。图5为本专利技术交叉匹配图。具体实施方式实施例1下面结合本专利技术中的附图,对本专利技术的技术方案进行清晰、完整地描述。本专利技术提出了一种需求文档和服务文档匹配专利技术,具体流程图如图1所示具体实施步骤如下:步骤1:输入一篇需求文档和一篇服务文档作为待匹配文档,需求文档包含企业需要解决的问题以及解决该问题时需要达到的指标,服务文档则包含概述解决该难题技术的方法、解决过类似项目的经验、承接本项目具备的技术储备、所获得的相关专利、拟采取的研究方法、主要实现的技术指标和项目进度计划;步骤2:根据文档内容判断输入文档是需求文档或服务文档;步骤2.1:包括企业需要解决的问题以及解决该问题时需要达到的指标部分则是需求文档,提取企业需要解决的问题以及解决该问题时需要达到的指标部分;步骤2.2:包括概述解决该难题技术的方法、解决过类似项目的经验、承接本项目具备的技术储备、所获得的相关专利、拟采取的研究方法、主要实现的技术指标和项目进度计划部分则是服务文档,提取概述解决该难题技术的方法、解决过类似项目的经验、承接本项目具备的技术储备、所获得的相关专利、拟采取的研究方法、主要实现的技术指标和项目进度计划部分;步骤2.3:最终的需求文档和服务文档的相似度要对所有需求文档提取部分与所有服务文档提取部分计算相似本文档来自技高网...

【技术保护点】
1.一种基于神经网络的需求文档和服务文档匹配方法,其特征在于操作步骤如下:步骤1:输入一篇需求文档和一篇服务文档作为待匹配文档,需求文档包含企业需要解决的问题以及解决该问题时需要达到的指标,服务文档则包含概述解决该难题技术的方法、解决过类似项目的经验、承接本项目具备的技术储备、所获得的相关专利、拟采取的研究方法、主要实现的技术指标和项目进度计划;步骤2:根据文档内容判断输入文档是需求文档或服务文档;步骤2.1:包括企业需要解决的问题以及解决该问题时需要达到的指标部分则是需求文档,提取企业需要解决的问题以及解决该问题时需要达到的指标部分;步骤2.2:包括概述解决该难题技术的方法、解决过类似项目的经验、承接本项目具备的技术储备、所获得的相关专利、拟采取的研究方法、主要实现的技术指标和项目进度计划部分则是服务文档,提取概述解决该难题技术的方法、解决过类似项目的经验、承接本项目具备的技术储备、所获得的相关专利、拟采取的研究方法、主要实现的技术指标和项目进度计划部分;步骤2.3:最终的需求文档和服务文档的相似度要对所有需求文档提取部分与所有服务文档提取部分计算相似度,以下取需求文档的需要解决的问题和服务文档的概述解决该难题技术的方法为例;步骤3:对需求文档的需要解决的问题部分和服务文档的概述解决该难题技术的方法部分中的句子进行段落嵌入处理,获得句子向量;步骤4:通过长短期记忆网络判断文档分割点;步骤4.1:将获得的句子向量输入训练好的长短期记忆网络中,由长短期记忆网络输出结果判断前一句子是否是一个分割点;步骤4.2:根据分割点将一个部分分割成意思不同的几段文本,对需求文档的问题部分就是一个个需求,服务文档的解决部分就是一个个方法。步骤5:根据处理结果类型构造相似度模型输入;步骤5.1:如果是需求文档,则将一个需求的所有句子通过PE模型处理后得到句子向量构成一个矩阵,同时取一个方法的所有句子向量构成另一个矩阵;步骤5.2:如果是服务文档,则将一个方法的所有句子通过PE模型处理后得到句子向量构成一个矩阵,同时取一个需求的所有句子向量构成另一个矩阵;步骤6:将两个矩阵作为输入通过训练好的卷积神经网络计算相似度,每个需求交叉的和每个方法计算相似度,对每个需求取相似度最大的值作为这一需求的最终值;步骤7:对相似度值加权平均获得最终相似度;步骤7.1:获取每个需求最终值后求加权平均值作为需求文档的需要解决的问题最终相似度值;步骤7.2:上述步骤以需求文档的需要解决的问题和服务文档的概述解决该难题技术的方法为例,需求文档包含需要解决的问题以及解决该问题时需要达到的指标部分,根据上述方法再求得需求文档解决该问题时需要达到的指标部分相似度,求两部分加权平均值作为需求文档和服务文档最终相似度;步骤8:最终相似度和预设阈值相比较,大于阈值则两篇文档匹配,小于阈值则两篇文档不匹配。...

【技术特征摘要】
2018.03.12 CN 20181020062461.一种基于神经网络的需求文档和服务文档匹配方法,其特征在于操作步骤如下:步骤1:输入一篇需求文档和一篇服务文档作为待匹配文档,需求文档包含企业需要解决的问题以及解决该问题时需要达到的指标,服务文档则包含概述解决该难题技术的方法、解决过类似项目的经验、承接本项目具备的技术储备、所获得的相关专利、拟采取的研究方法、主要实现的技术指标和项目进度计划;步骤2:根据文档内容判断输入文档是需求文档或服务文档;步骤2.1:包括企业需要解决的问题以及解决该问题时需要达到的指标部分则是需求文档,提取企业需要解决的问题以及解决该问题时需要达到的指标部分;步骤2.2:包括概述解决该难题技术的方法、解决过类似项目的经验、承接本项目具备的技术储备、所获得的相关专利、拟采取的研究方法、主要实现的技术指标和项目进度计划部分则是服务文档,提取概述解决该难题技术的方法、解决过类似项目的经验、承接本项目具备的技术储备、所获得的相关专利、拟采取的研究方法、主要实现的技术指标和项目进度计划部分;步骤2.3:最终的需求文档和服务文档的相似度要对所有需求文档提取部分与所有服务文档提取部分计算相似度,以下取需求文档的需要解决的问题和服务文档的概述解决该难题技术的方法为例;步骤3:对需求文档的需要解决的问题部分和服务文档的概述解决该难题技术的方法部分中的句子进行段落嵌入处理,获得句子向量;步骤4:通过长短期记忆网络判断文档分割点;步骤4.1:将获得的句子向量输入训练好的长短期记忆网络中,由长短期记忆网络输出结果判断前一句子是否是一个分割点;步骤4.2:根据分割点将一个...

【专利技术属性】
技术研发人员:邹祥文吴悦
申请(专利权)人:上海大学上海市科技企业联合会
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1