【技术实现步骤摘要】
一种基于多维词向量下文本匹配的服务发现方法、系统及设备
本专利技术属于计算机科学与
,具体涉及一种基于多维词向量下文本匹配的服务发现方法、系统及设备。
技术介绍
服务发现过程中的核心任务是解决用户查询请求与候选服务间的功能匹配问题。由于服务的功能描述信息一般以自然语言形式表示,因此,通常将文本匹配方法应用于服务发现研究中,根据文本间的相似度匹配得分来发现目标服务。文本匹配过程主要包含向量化处理及相似度计算两个阶段。传统的词向量处理方法一般只考虑词频或语义单维度下的特征信息,随着服务资源数量及种类的增加,单维度词向量在挖掘文本信息方面存在一定缺陷,不能充分反映关键词在文本中的权重。此外,基于单维度词向量在向量空间内计算文本相似度简单易行,但缺乏深度匹配,难以获取全面的匹配信息,从而影响匹配准确率。由此,为了提高文本匹配精度以实现精准服务发现,需要针对存在的不同的问题设计出对应的解决方案。
技术实现思路
为了克服现有服务发现技术中所存在的不足,本专利技术提供一种基于多维词向量下文本匹配的服务发现 ...
【技术保护点】
1.一种基于多维词向量下文本匹配的服务发现方法,其特征在于,包括以下步骤:/n步骤1,从Quora数据集中分别提取用于语义相似性检测的问题句子对和相应的匹配等级,以此来训练匹配网络;从OWLS-TC4数据集中获取服务及查询请求的功能描述信息作为测试集;/n步骤2,对步骤1提取出的句子对进行处理,生成TF-IDF,Word2Vec及ELMo三种关键词向量表示;所述三种关键词向量表示旨在获取关键词在词频-逆向文件频率、静态语义以及动态语义维度下的特征信息;/n步骤3,基于步骤2所得的三种关键词向量,通过计算每一对句子中不同关键词向量之间的余弦相似度构建三层相似度矩阵,并作为匹配 ...
【技术特征摘要】
1.一种基于多维词向量下文本匹配的服务发现方法,其特征在于,包括以下步骤:
步骤1,从Quora数据集中分别提取用于语义相似性检测的问题句子对和相应的匹配等级,以此来训练匹配网络;从OWLS-TC4数据集中获取服务及查询请求的功能描述信息作为测试集;
步骤2,对步骤1提取出的句子对进行处理,生成TF-IDF,Word2Vec及ELMo三种关键词向量表示;所述三种关键词向量表示旨在获取关键词在词频-逆向文件频率、静态语义以及动态语义维度下的特征信息;
步骤3,基于步骤2所得的三种关键词向量,通过计算每一对句子中不同关键词向量之间的余弦相似度构建三层相似度矩阵,并作为匹配网络的输入;
步骤4,初始化卷积神经网络模型参数,对步骤3所得的相似度矩阵进行卷积、池化、全局平局池化及softmax分类操作,并根据损失函数计算预测结果与实际匹配等级之间的误差损失,进一步反向迭代优化,从而得到卷积神经网络模型,即匹配网络;
步骤5,对于每一条查询请求,逐一与测试集中的服务进行步骤2和步骤3操作,并基于步骤4训练好的匹配网络,对所属匹配等级概率得分进行预测;之后根据预测所得概率得分对预测匹配的候选服务进行排序,概率得分最高的前N个服务即为所要检索的目标结果。
2.根据权利要求1所述的基于多维词向量下文本匹配的服务发现方法,其特征在于,步骤1中,所提取的匹配等级在网络训练过程中作为输出标签,用于计算预测结果的误差损失。
3.根据权利要求1所述的基于多维词向量下文本匹配的服务发现方法,其特征在于,步骤2通过以下具体步骤实现:
步骤21,分别计算每对句子对中句子A和句子B的长度,记为La和Lb;长度阈值设置为i,j,并只保留满足i≤La≤j且i≤Lb≤j的句子对,实现句子对数据过滤;
步骤22,对数据过滤后的句子对进行预处理,包括去除停用词、词干提取及分词,获取相应的关键词,完成对文本的特征提取;
步骤23,统计所有句子对中每条句子关键词的个数,并选取最小的关键词数记为m;根据每条句子中关键词的权重值将前m个关键词作为代表关键词,实现定长处理;
步骤24,基于获取的代表关键词,生成每条句子的TF-IDF词向量表示以获取词频-逆向文件频率信息;
步骤25,基于获取的代表关键词,生成每条句子的Word2Vec词向量表示以获取静态语义信息;
步骤26,基于获取的代表关键词,生成每条句子的ELMo词向量表示以获取动态语义信息。
4.根据权利要求1所述的基于多维词向量下文本匹配的服务发现方法,其特征在于,步骤3中所述三层相似度矩阵中,每一层特征矩阵由句子A和句子B在词粒度上基于每一种词向量的余弦相似度构成。
5.根据权利要求1所述的基于多维词向量下文本匹配的服务发现方法,其特征在于,步骤4中,在卷积层采用两个大小为3*2*2的滤波器单步...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。