【技术实现步骤摘要】
本专利技术涉及文本挖掘领域,具体地,是一种计算中文词语语义相似度的方法。
技术介绍
词语语义相似度是信息处理领域中的一个重要课题,它在词义排歧、机器翻译、自动应答、情报检索、文本类聚等应用中都有广泛用途。然而词语相似度是一个主观性相当强的概念,如何得到一个接近于人类判断标准的相似度是一项很困难的工作。现有的词语相似度计算大致分为两类一类是根据某种世界知识来计算,另一类是利用大规模的语料库进行统计计算。前者根据概念间结构层次关系组织成的语义词典, 利用这类语言学资源中概念间的上下为关系和同为关系来计算词语语义相似度,这类方法比较直观而且简单有效,但它受人主观影响比较大有事不能反映客观现实。后者通过上下文背景知识的统计分布来进行相似度计算,这种方法比较依赖于训练所用的语料库,计算量比较大,另外受数据稀疏和数据噪声的干扰比较大,有时会出现明显的错误。在英语方面,英语的词语语义相似度研究已经比较成熟,众多的研究人员不仅提出了大量的计算方法,而且在评价标准、语料库、语义字典等方面均已比较完备。但中文由于其本身的特殊性,在分词,语法,语义等方面相对于英语来说都更复杂,所以研 ...
【技术保护点】
一种计算中文词语语义相似度的控制方法,其特征在于,包括如下步骤:a.获取词语对,并根据所述词语对获取相应的特征向量,其中所述词语对包括第一词语以及第二词语,与之相对应的特征向量为第一特征向量以及第二特征向量;b.对所述特征向量进行语义拓展获得拓展特征向量;c.对所述特征向量进行语义映射获得映射特征向量;以及d.根据所述拓展特征向量以及所述映射特征向量计算词语相似度。
【技术特征摘要】
【专利技术属性】
技术研发人员:杨燕,吴雯,吴奔斌,霍晓骏,王伟杰,洪磊,张波,崔永利,贺樑,宋树彬,
申请(专利权)人:华东师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。