【技术实现步骤摘要】
本专利技术属于自然语言处理
,涉及一种基于词缀的用于对未知词进行语义分类的系统。
技术介绍
通常,用户能够先获得描述单词的某些字典。这些字典可以描述单词的出处(例如,通常在哪一段话中出现的等等)、语义类(例如人、事件、情感等等)、含义和例句等。对于那些没有出现在字典中的词我们称为“未知词”。一般而言,未知词可以来源于某些新词。在文本信息处理中,未知词的出现常常会给用户带来麻烦,由于它的信息(例如例句、语义类等)的不足。·为解决上述麻烦,一种做法是用户在未知词出现时更新字典。但是这一做法在一般情况下很困难,原因如下(I)由于存在着很多的信息源(报纸、网络等等),因此无法保证用户在一未知词首次出现时就捕捉到该词;(2)由于字典是标准化的,对于任一未知词都需要经过许多专家的审核、同意后才能写入字典,因此这需要一段时间。鉴于此,对未知词进行语义类别的猜测就成了一项很有必要的工作。本专利技术将关注语义类别信息。也就是,我们将试图猜测未知词的语义类别。
技术实现思路
本专利技术的目的在于克服上述技术缺陷,提供一种基于词缀的用于对未知词进行语义分类的系统。其技术方案为一种基于词缀的 ...
【技术保护点】
一种基于词缀的用于对未知词进行语义分类的系统,其特征在于,包括:输入模块:用于接收来自系统外部由用户输入的未知词;未知词词缀分析模块:对于系统接收到的任何一个未知词,将其按构词规则分别拆分成两个部分,每个部分都可作为词缀;相似词选择模块:对于所输入的未知词,在同义词词林中查找与未知词具有相同部分的词;内容部分相似度计算模块:根据相似词词林字典中的语义分类,计算各个相似词与该未知词内容部分的语义的相似度;存储字典:用于存储所输入的未知词和查找到的各个相似词集合;相似度排列模块:根据各相似词的构词方式基于同义词词林字典筛选出未知词的语义类;输出模块:用于输出该位置词的语义类。
【技术特征摘要】
1.一种基于词缀的用于对未知词进行语义分类的系统,其特征在于,包括 输入模块用于接收来自系统外部由用户输入的未知词; 未知词词缀分析模块对于系统接收到的任何一个未知词,将其按构词规则分别拆分成两个部分,每个部分都可作为词缀; 相似词选择模块对于所输入的未知词,在同义词词林中查找与未知词具有相同部分的词; 内容部分相似度计算模块根据相似词词林字典中的语义分类,计算各个相似词与该未知词内容部分的语义的相似度; 存储字典用于存储所输入的未知词和查找到的各个相似词集合; 相似度排列模块根据各相似词的构...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。