一种基于词缀的用于对未知词进行语义分类的系统技术方案

技术编号:8271390 阅读:187 留言:0更新日期:2013-01-31 03:36
本发明专利技术公开了一种基于词缀的用于对未知词进行语义分类的系统,包括输入模块、未知词词缀分析模块、相似词选择模块、内容部分相似度计算模块、存储字典、相似度排列模块、输出模块。本发明专利技术所述系统对其他系统输出的结果进行分析,提高原有系统的分析精度。本发明专利技术尤其适用于对汉语未知词的分析,根据本发明专利技术实现的未知词语义分类系统获得了良好的分析效果。

【技术实现步骤摘要】
本专利技术属于自然语言处理
,涉及一种基于词缀的用于对未知词进行语义分类的系统
技术介绍
通常,用户能够先获得描述单词的某些字典。这些字典可以描述单词的出处(例如,通常在哪一段话中出现的等等)、语义类(例如人、事件、情感等等)、含义和例句等。对于那些没有出现在字典中的词我们称为“未知词”。一般而言,未知词可以来源于某些新词。在文本信息处理中,未知词的出现常常会给用户带来麻烦,由于它的信息(例如例句、语义类等)的不足。·为解决上述麻烦,一种做法是用户在未知词出现时更新字典。但是这一做法在一般情况下很困难,原因如下(I)由于存在着很多的信息源(报纸、网络等等),因此无法保证用户在一未知词首次出现时就捕捉到该词;(2)由于字典是标准化的,对于任一未知词都需要经过许多专家的审核、同意后才能写入字典,因此这需要一段时间。鉴于此,对未知词进行语义类别的猜测就成了一项很有必要的工作。本专利技术将关注语义类别信息。也就是,我们将试图猜测未知词的语义类别。
技术实现思路
本专利技术的目的在于克服上述技术缺陷,提供一种基于词缀的用于对未知词进行语义分类的系统。其技术方案为一种基于词缀的用于对未知词进行语义分类的系统,包括输入模块该模块主要用于接收来自系统外部由用户输入的未知词;未知词词缀分析模块对于系统接收到的任何一个未知词,将其按构词规则分别拆分成两个部分,每个部分都可作为词缀;相似词选择模块对于所输入的未知词,在同义词词林中查找与未知词具有相同词缀部分的词;内容部分相似度计算模块根据相似词词林字典中的语义分类,计算各个相似词与该未知词内容部分的语义的相似度;相似词分析模块分析各个相似词的构词方式,针对其内容部分与其整体部分语义类的关系;存储字典用于存储所输入的未知词和查找到的各个相似词集合;相似度排列模块根据各相似词的构词方式基于同义词词林字典筛选出未知词的语义类;输出模块用于输出该未知词的语义类。该系统完全基于未知词的内容部分与相似词内容部分的相似度,其词缀部分对其语义类别没有影响的情况。所述未知词语义类的分类是完全基于同义词词林字典。该系统完全基于相似词与未知词是由其内容部分扩展而来的情况。本专利技术所述系统针对某一未知词和其相似词内容部分相似度的计算完全基于同义词词林相似度的计算。与现有技术相比,本专利技术的有益效果为本专利技术的方法基于词缀研究未知词的构词规律,进而分析它的语义类别。也可以作为一个独立的语法或语义成分识别系统对中文或其他基于字符的未知词的语义分类,同时也可以与其他语言成分识别系统相结合,对其他系统输出的结果进行分析,提高原有系 统的分析精度。本专利技术尤其适用于对汉语未知词的分析,根据本专利技术实现的未知词语义分类系统获得了良好的分析效果。附图说明图I是本专利技术基于词缀的用于对未知词进行语义分类的系统结构框图;图2是示出本专利技术实施例I基于词缀的未知词语义分类的操作流程图;图3是示出本专利技术实施例2基于词缀的未知词语义分类的操作流程图;图4是示出本专利技术实施例3基于词缀的未知词语义分类的操作流出图。具体实施例方式下面结合附图与具体实施方式对本专利技术的技术方案作进一步详细地说明。参照图1,一种基于词缀的用于对未知词进行语义分类的系统,包括输入模块该模块主要用于接收来自系统外部由用户输入的未知词;未知词词缀分析模块对于系统接收到的任何一个未知词,将其按构词规则分别拆分成两个部分,每个部分都可作为词缀;相似词选择模块对于所输入的未知同,在同义词词林中查找与未知词具有相同部分的词;内容部分相似度计算模块根据相似词词林字典中的语义分类,计算各个相似词与该未知词内容部分的语义的相似度;存储字典用于存储所输入的未知词和查找到的各个相似词集合;相似度排列模块根据各相似词的构词方式基于同义词词林字典筛选出未知词的语义类;输出模块用于输出该未知词的语义类。实施例I图2的过程开始于步骤201,针对字典中的每个词根A,收集其所有包含A的相似词,这里根据本专利技术实施例,将各相似词的内容部分取出,并查找它们的语义类以满足本专利技术的需要。在步骤204中,输入一未知词w = XY,步骤205中,从所收集的相似词集合中选择词根A满足A = X或A = Y的相似词集合,然后经206装置计算其内容部分的相似度,最后得到未知词的语义类。举例来说,对于一未知词“摄像机”,在201装置中选择出其相似词集合,如“照相机”、“飞机”等。在不同部分识别单元中将他们相同的词缀部分“机”移除,并在不同部分存储模块中,以[wr, parti, part2] (wr表示未知词w的相似词,parti表示未知词w的内容部分,part2表示相似词wr的内容部分)。如[照相机,摄像,照相],[飞机,摄像,飞],等等。假定在同义词林中,C(摄像)=Hg03, C(照相)=Hg03, C(飞)=IalO,C(照相机)=Bpl5,C(飞机)=Bo22,其中Hg03, I10,Bpl5为词林中所定义的语义类。在相似度计算模块206中计算未知词和各相似词内容部分的相似度,对于wr = “照相机”,S (摄像,照相)=I (其中S O表示计算两个语义类的相似度),相似度存储单元中以[Bpl5,1]的形式存储其计算结果;对于wr = “飞机”,其内容部分相似度S(摄像,飞)=O. 1,将[Bo22,0. I]存储相似度存储模块中。假设未知词“摄像机”只有“照相机”和“飞机”这两个相似词,由于词缀对其语义有很大影响的,因此语义类指定模块将Bpl5作为未知词“摄像机”的语义类。实施例2图3的过程开始于步骤301,针对字典中的每个词根A,收集其所有包含A的相似词,这里根据本专利技术实施例,判断它们是否是由内容部分扩展而来,若不是则按第一方法确 定未知词的语义类,若是,则根据同义词词林查找它们内容部分的语义类,进而确定该未知词的语义类。举例来说,对于一未知词“椅子”,从相似词集合301中查找具有相同词缀的词(例如,带子,镜子等)存储在相似词存储模块中,由不同部分识别模块移除他们的相同部分“子”,并在内容存储模块中以[带子,椅,带],[镜子,椅,镜]的形式存储。假定在同义词林字典中,C(椅)=8 26,((带子)=C(带)=8 25,((镜子)=C(镜)=BpOl,其中,Bp26,Bp25, BpOl为词林中所定义的语义类。对于相似词wr = “带子”,由于C(带子)=C(带),词缀“子”被认为是词缀而存储在词缀存储单元中。同时,将未知词“椅子”的相同词缀“子”移除,并将“椅”存储在内容模块中,由于C(椅)=Bp26,在加分模块中为Bp26的分值加I。对于相似词wr = “镜子”,也将其词缀“子”去掉,由加分模块为Bp26的分值加I。假设未知词“椅子”只有相似词“带子”和“镜子”,由上述分析可将Bp26作为“椅子”的语义类。实施例3图4的过程开始于步骤401,针对字典中的每个词根A,收集其所有包含A的相似词,这里根据本专利技术实施例,判断其是否由内容部分扩展而来,若是则按第二方法计算它们内容部分的相似度;若否,则由相似度计算模块405计算它们内容部分的相似度,并由语义类判别模块406、407判断该未知词的语义类。举例来说,对于一未知词“厨子”,从存储字典中查找具有相同词缀的词(例如,带子,厨师等)存储在相似词存储模块中,由本文档来自技高网...

【技术保护点】
一种基于词缀的用于对未知词进行语义分类的系统,其特征在于,包括:输入模块:用于接收来自系统外部由用户输入的未知词;未知词词缀分析模块:对于系统接收到的任何一个未知词,将其按构词规则分别拆分成两个部分,每个部分都可作为词缀;相似词选择模块:对于所输入的未知词,在同义词词林中查找与未知词具有相同部分的词;内容部分相似度计算模块:根据相似词词林字典中的语义分类,计算各个相似词与该未知词内容部分的语义的相似度;存储字典:用于存储所输入的未知词和查找到的各个相似词集合;相似度排列模块:根据各相似词的构词方式基于同义词词林字典筛选出未知词的语义类;输出模块:用于输出该位置词的语义类。

【技术特征摘要】
1.一种基于词缀的用于对未知词进行语义分类的系统,其特征在于,包括 输入模块用于接收来自系统外部由用户输入的未知词; 未知词词缀分析模块对于系统接收到的任何一个未知词,将其按构词规则分别拆分成两个部分,每个部分都可作为词缀; 相似词选择模块对于所输入的未知词,在同义词词林中查找与未知词具有相同部分的词; 内容部分相似度计算模块根据相似词词林字典中的语义分类,计算各个相似词与该未知词内容部分的语义的相似度; 存储字典用于存储所输入的未知词和查找到的各个相似词集合; 相似度排列模块根据各相似词的构...

【专利技术属性】
技术研发人员:赵涓涓强彦裴博杨建峰
申请(专利权)人:太原理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1