基于组合距离的语义相似度计算方法技术

技术编号:24252012 阅读:24 留言:0更新日期:2020-05-22 23:49
本发明专利技术涉及基于组合距离的语义相似度计算方法,其特征在于,包括以下步骤:步骤S10:input layer输出层:是上下文单词的one‑hot形式的词向量;步骤S20:隐藏层的神经元数量设为

Semantic similarity calculation method based on combination distance

【技术实现步骤摘要】
基于组合距离的语义相似度计算方法
本专利技术涉及于组合距离的语义相似度计算
,具体为一种基于组合距离的语义相似度计算方法。
技术介绍
自然语言处理(NLP),是指用计算机技术对人类自然语言形式的形、音、义等信息进行自动化处理加工的过程。自然语言处理技术就是对字、词、句、篇章等形式输入信息,进行识别、分析、理解、转换、生成等的操作和加工的计算机领域的科学技术。自然语言处理与图像识别、语音识别并列为当前人工智能领域三大最热门技术,是人工智能研究的重要组成部分。自然语言处理所涉及的研究领域包括:机器翻译、文本摘要、文本分类、文本校对、语义分析、信息抽取、信息检索、文本翻译、语音合成和语音识别等。语义分析(SemanticAnalysis)是指运用各种机器学习方法,学习与理解一段文本所表示的语义内容。一段文本通常由词、句子、篇章构成,根据理解对象的语言单位不同,语义分析又可以进一步分成:词汇级语义分析,句子级语义分析和篇章级语义分析。一般来说:词汇级语义分析以单词或词组为单位,它关注的是如何获取和区别单词或词组之间的语义,句子级语义分析则以句子为单位,试图分析和理解整个句子所表达的含义,而篇章语义分析则面向段落甚至整篇文本,旨在通过分析自然语言内在结构,来实现对文本单元间内在结构的理解。词汇级的语义分析主要包含两个方面的内容:1)语义消歧:研究的是如何根据上下文环境来准确判断单词或词组的含义。这是由于在自然语言中,一词多义的现象非常普遍,例如:(1)她的脸红得像苹果。(2)最近几个月苹果营收出现下滑。在第1个句子中“苹果”是指水果,而第2个句子里“苹果”这是指美国一家科技公司。2)相似度计算:研究的是如何表示并学习一个词的语义,以及采取什么算法来有效判断识别两个词语之间的语义相似度的问题。本专利技术聚焦于语义分析中的词汇级别的语义相似度计算这方面,研究如何表示一个词或词组的语义,以及如何计算两个词语(或词组)之间的语义相似度这个核心问题。语义相似度是用来刻画两个词语之间语义相似程度的一个指标,取值范围一般设定为[0,1],0表示语义完全没有关系,1表示语义完全相同。词语的语义表示方法大体上来说主要有两大类:基于世界知识(Ontology)或分类体系(Taxonomy)的表示方法:这种表示方法是将某个词的词义表示为该词在语义词典(语义词典是将所有的词组织在一棵或几颗树状的层次结构中)中出现的位置到该网络根节点之间的路径信息。著名的:同义词林、WorldNet,HowNet基本上都是采用这种词语义表示方式。基于大规模语料的机器学习表示方法:就是将文档中的每个词看作一个N维的特征向量,通过特征向量之间的相似度计算(通常采用余弦距离),来度量词语之间的语义相似性。根据词特征向量的表示方法不同,可分为:One-Hot语义表示和词嵌入语义表示。One-Hot就是把所有词表示为长度为字典长度的N维(例如:1万维)向量,在这个N维向量中,除了某一维度为1外,其余所有维度均为0;词嵌入表示,就是用一个维数远小于N的M维(比如:128维)来向量来表示某个单词。采用词嵌入(WordEmmbedding)的词语语义表示方法是目前语义表示的主流方法,本专利技术中也采用这种特征表示方式。对于基于词嵌入方法的语义相似度计算来说,其基本原理是:通过机器学习训练将某种语言中的每一个词映射成一个固定维数的向量,将所有这些向量放在一起则形成了一个词向量空间,而每一词向量则可视为该空间中的一个点,在这个空间上引入“距离”,则可以根据词之间的距离来判断它们之间的(词法、语义上的)相似性。语义相似度计算的业务应用场景主要可分为以下几类:(1)信息检索方面:通过语义相似度计算对用户输入信息进行概念对齐和标准化处理,以支持提高信息检索命中率。例如:在用户使用搜索引擎的过程中,由于地区文化、认识水平等差异,当用户所输入的查询关键字很多时候和与候选资料中的描述不一致时,为了提高信息检索的命中率,搜索引擎需要采用语义相似度计算对用户的输入做同义词识别、纠错、归一化等操作。(2)关键信息抽取方面:当采用信息抽取技术从文本中抽取关键信息时(例如:时间、地点、人员、组织名称、专有名词等类别信息),采用语义相似度计算可以有效合并重复冗余信息,实现概念对齐和归一化处理。例如:在从证券新闻文本中抽取概念主题时,某一新闻中谈及的“光伏发电”通过同义词计算被映射为“太阳能”这一标准主题名称,从而提高了概念识别的查全率。知识对齐方面:在依靠大规模互联网数据构建知识图谱系统过程中,语义相似度计算的功能也不可或缺,采用语义相似度计算方法,能方便地实现将异构多源的源数据统一到相同的概念、实体名称下。但是市场上的组合距离的语义相似度计算方法存在以下不足:1、构建层次知识体系的工作量非常大:层次知识体系的构建难度主要体现在结构复杂、专业性要求强,所有工作本上采用手工方式来完成,难以实现自动化。我们从知网语义结构表示可以看到,对知网来说需要设计10个属性大类,1500多个基本义原,8种复杂的位置关系还有若干知识描述语言符号才能完成一个复杂的知识体系层次系统的构建,因此没有非常专业的知识和能力很难构建或扩展这样的知识体系,而且中文中涉及的概念名称非常多,耗费大量的人力、时间所能覆盖的范围也是非常有限,这个问题对于同样属于知识分类体系的其他表示方法例如:同义词词林、WordNet也同样存在。2、适用性和灵活性不高,难以快速应用于不同的专业领域:技术一中基于知网的语义相似度计算仅适用于知网层次知识体系所能覆盖范围内的部分常识性概念间的语义比较,无法快速扩展到要求更加专业的知识领域(例如:金融证券领域),即使掌握了扩展知网知识层次结构的技术能力,做到穷尽覆盖专业领域内的概念名称也人们不得不面临的巨大的难题和挑战。3、同义词相似度计算公式中存在太多的人为设定因素,通用性不强。例如公式中的各类调节参数均是人为主观设定,后续能否适用于不同实际场景难以保证。4、技术实现方案中有关“语义相似的词汇在二名词短语中有相似的搭配词”这个前提假设条件太强,往往与实际情况不符,例如:长江和金沙江是同义词,但金沙江这种特殊称谓很少出现在与长江搭配的二词中,例如:长江三角洲,长江经济带,长江黄河,长江三峡等。因此采用这个假设条件来计算相似度值与实际情况之间可能会存在较大偏差风险。5、计算量非常大,计算复杂度高,算法执行效率低:技术二中需要针对每个词来计算本词与其它词构成的左右搭配词对的TF-IDF值,假设在10万篇语料中,经过分词处理后共计有:1万个不同的词(对于汉语来说,这种词汇量已经是非常少的情况),那么这1万个词之间的采取任意组合方式的方式,形成的二词词对共计有:10000*9999=9999万种,而要在10万篇语料中计算9999万条二词组合的TF-IDF值,其算法复杂度为O(100000*99990000),在普通的计算设备条件下,这几乎是一项不可能完成的任务。因此由本文档来自技高网...

【技术保护点】
1.一种基于组合距离的语义相似度计算方法,其特征在于,包括以下步骤:/n步骤S10:input layer输出层:是上下文单词的one-hot形式的词向量;/n步骤S20:隐藏层的神经元数量设为

【技术特征摘要】
1.一种基于组合距离的语义相似度计算方法,其特征在于,包括以下步骤:
步骤S10:inputlayer输出层:是上下文单词的one-hot形式的词向量;
步骤S20:隐藏层的神经元数量设为,权值共享矩阵为,的大小为,并且初始化;
步骤S30:在中间层进行数据计算;
步骤S40:hiddenlayer的输出数据的结果;
步骤S50:hiddenlayer与作乘积计算后得到的输出结果;
步骤S60:损失函数和反向传播优化计算。


2.根据权利要求1所述基于组合距离的语义相似度计算方法,其特征在于:S10步骤中,假设单词向量空间的维度为V,即整个训练语料词典大小为V,上下文单词窗口的大小为C。


3.根据权利要求1所述基于组合距离的语义相似度计算方法,其特征在于:S30步骤中,个大小的向量分别跟同一个大小的权值共享矩阵相乘,得到的是个大小的隐层hiddenlayer。

<...

【专利技术属性】
技术研发人员:罗明林建何罗志鹏
申请(专利权)人:珠海横琴极盛科技有限公司
类型:发明
国别省市:广东;44

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1