文本相似度识别方法、装置及电子设备制造方法及图纸

技术编号:26690277 阅读:18 留言:0更新日期:2020-12-12 02:40
本发明专利技术实施例提供一种文本相似度识别方法、装置及电子设备,其中,方法包括:获取给定的句子集合中各句子对应的句子向量;对每个所述句子向量采用预先学习得到的特征编码器进行编码,生成相应的句特征向量;其中,所述句特征向量包含多个向量段,所述特征编码器用于使语义相似的句子向量所生成的句特征向量在各向量段上对应相似,反之则不相似;基于所述句特征向量中各维度值的正负特征,生成相应句子的语义签名,并构建语义签名到相应句子的倒排索引;根据各语义签名的倒排索引,确定所述句子集合中各句子对应的相似句。本发明专利技术实施例的方案,能够有效提高所识别出的相似句之间的相似效果。

【技术实现步骤摘要】
文本相似度识别方法、装置及电子设备
本申请涉及计算机领域,尤其涉及一种文本相似度识别方法、装置及电子设备。
技术介绍
一个效果较好的机器学习算法,大都依赖于大量的高质量的带有标签的训练数据。获得这些高质量的标签数据,一直是机器学习领域极耗人工成本的问题。对于海量的文本数据,如果让业务人员直接去打标签,将是极度费时费力的。现有技术中,普遍通过分析文本之间的相似度,对相似的文本数据进行批量打标签,从而提高获取标签数据的效率,而针对海量文本进行相似度分析主要采用如下方法:首先,针对给定的句子集合中每个句子的句子向量,按其维度的数值正负性,把句子向量转换成维度固定的0/1数字的语义签名;然后,基于语义签名的索引,初步确定同一语义签名(或者语义签名片段)索引的句子构成候选相似句群,然后在每个候选相似句群中分别确定每个句子对应的相似句。上述处理过程中,语义签名的作用是将从上述句子集合中寻找相似句的过程,拆解为在每个候选相似句群内寻找每个句子的相似句,以降低相似度计算的复杂度。但是,这种方式在形成语义签名时却不能保证实际相似的本文档来自技高网...

【技术保护点】
1.一种文本相似度识别方法,包括:/n获取给定的句子集合中各句子对应的句子向量;/n对每个所述句子向量采用预先学习得到的特征编码器进行编码,生成相应的句特征向量;其中,所述句特征向量包含多个向量段,所述特征编码器用于使语义相似的句子向量所生成的句特征向量在各向量段上对应相似,反之则不相似;/n基于所述句特征向量中各维度值的正负特征,生成相应句子的语义签名,并构建语义签名到相应句子的倒排索引;/n根据各语义签名的倒排索引,确定所述句子集合中各句子对应的相似句。/n

【技术特征摘要】
1.一种文本相似度识别方法,包括:
获取给定的句子集合中各句子对应的句子向量;
对每个所述句子向量采用预先学习得到的特征编码器进行编码,生成相应的句特征向量;其中,所述句特征向量包含多个向量段,所述特征编码器用于使语义相似的句子向量所生成的句特征向量在各向量段上对应相似,反之则不相似;
基于所述句特征向量中各维度值的正负特征,生成相应句子的语义签名,并构建语义签名到相应句子的倒排索引;
根据各语义签名的倒排索引,确定所述句子集合中各句子对应的相似句。


2.根据权利要求1所述的方法,其中,所述基于所述句特征向量中各维度值的正负特征,生成相应句子的语义签名,并构建语义签名到相应句子的倒排索引包括:
对所述语义签名按所述句特征向量的分段标准进行分段,并构建各语义签名片段到相应句子的倒排索引。


3.根据权利要求2所述的方法,其中,所述根据各语义签名的倒排索引,确定所述句子集合中各句子对应的相似句包括:
根据给定的语义签名片段及其索引的句子集合,针对该句子集合中每一个句子,从该句子集合中的剩余句子中选取对应的相似句。


4.根据权利要求3所述的方法,其中,所述针对该句子集合中每一个句子,从该句子集合中的剩余句子中选取对应的相似句包括:
针对所述该句子集合中每一个句子,计算该句子与每个剩余句子之间所对应的句子向量的余弦值,并根据所述余弦值,从所述剩余句子中选取对应的相似句。


5.根据权利要求1所述的方法,其中,所述获取给定的句子集合中各句子对应的句子向量包括:
对所给定的句子集合中各句子通过LSTM处理,得到该句子对应的词向量矩阵;
对所述词向量矩阵通过注意力模型中的模型算法处理,得到该句子对应的句子向量;
其中,所述注意力模型包含全局上下文向量和至少一个领域的领域上下文向量,所述模型算法为基于所述全局上下文向量或者一个所述领域上下文向量形成。


6.根据权利要求5所述的方法,其中,形成所述模型算法的处理包括:
判断所述注意力模型中是否包含当前待处理的句子所属的领域对应的领域上下文向量;
如果是,则选取相应的领域上下文向量形成所述模型算法;
如果否,则选取所述全局上下文向量形成所述模型算法。


7.根据权利要求1所述的方法,其中,...

【专利技术属性】
技术研发人员:陈克寒
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1