用于对未知词进行语义分类的系统和方法技术方案

技术编号:3768820 阅读:273 留言:0更新日期:2012-04-11 18:40
本发明专利技术提出了用于对未知词进行语义分类的系统和方法。根据第一方法,字典中针对每个词根的相似词集合根据不同的语义类被分成多个群组,并将包含相似词最多的群组的语义类记录下来,用于未知词的分类。根据第二方法,字典中的每个语义类所包含的各个单字符对被考查。如果由某一字符对扩展得到的单词是相似词(即语义类相同),则可以更加确信地将该未知词分类到同样的语义类。根据第三方法,所输入的未知词的相似词被考查。如果其相似词的不同部分与完整相似词具有相同的语义类,则可以更加确信地将该未知词也分类到同样的语义类。根据本发明专利技术的语义分类方法和系统能够适用于包含任何字符数目的单词,因此可以实现更大的覆盖率和更高的分类精确度。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,更具体而言,涉及用于对未知词进行语义分类的系统和方法
技术介绍
随着计算机和因特网的快速发展,使得生成大量文本信息。由于这些文本信息的泛滥,用户越发希望能够对这些文本信息进行自动处理而减少人工参与。 通常,用户能够预先获得描述单词的某些字典。这些字典可以用来描述单词的词性(例如名词、动词、形容词等等)、语义类(例如人、事件、感情等等)、含义和例句。这些字典对于文本处理提供了大量帮助。 未出现在字典中的单词被称为"未知词"。一般而言,未知词可以来源于某些新词。 在文本分析工作中,未知词会由于其信息(例如词性和语义类)不足而给用户带来麻烦。 为了解决上述麻烦,一种做法是由用户在未知词出现时(例如来自于诸如报纸之 类的某些信息源)更新字典。但是这一做法依然很困难,原因如下(l)由于存在很多信 息源(例如报纸、网络等等),因此无法确保用户在一未知词首次出现时就捕捉到该词;(2) 由于字典是标准化的,因此任意未知词都需要在很多专家达成一致意见之后才能被写入字 典,这需要一定时间。 鉴于此,针对文本分析任务,对未知词的信息进行某些猜测是有必要的。本专利技术将 集中关注未知词的语义类信息。 在现有技术中,例如在Proceedings of NAACL HLT 2007第188-195页所发表的文 章"Hybrid models for semantic classification of Chinese unknownwords,,中所述, 未知词的语义类通常可以通过两种模型获得,即规则模型和统计模型。图l示出在现有技 术中使用规则模型和统计模型两者分析未知词w的语义类的操作示例。 首先,在步骤101中,用户输入待分析的未知词w。在步骤102中,基于规则的分类 模型被应用到未知词w。这里,用于分类的规则可以由用户创建并被预先存储在系统的存储 器中。由于可能有多于一种规则被应用到未知词w,因此可能产生多个结果(即,语义类)。 这里将结果数目记作N。于是在步骤103中判断分类结果是否唯一。如果唯一,则在步骤 104直接输出该结果。否则,可以再将统计学分类模型应用到未知词w(步骤105)。如果规 则模型没有产生任何结果,即N = 0,则可以直接输出统计模型的结果,作为未知词w的语义 类(步骤107)。有时,统计模型可能也未产生任何结果,这时则没有输出。有时,统计模型 可能生成多个结果。在此情况下,则可能根据预定标准对结果进行排序,例如Cl > c2 > c3, 这意味着未知词w最可能属于语义类c"而最不可能的语义类是c3。在步骤106处如果确 定N〉1,即如果规则模型产生多于一个分类结果,则在步骤108处,可以利用统计模型的结 果对规则模型的结果进行排序并输出排序后的第一结果。例如,假设规则模型对于未知词w 生成两个结果q和c2。随后统计模型生成五个结果并按如下方式排列c3 > c2 > c4 > c5 > Cl。这里,由于在统计模型结果中c2处于比Cl更高的位置,因此最终输出的分类结果为9 统计模型主要采取三个步骤。首先,从字典中选出输入的未知词w的相关词。如 果满足以下条件,则认为一单词D被认为与w相关(l)D与w词性相同;(2)D和w的第一 或最后一个字符相同。例如,w二"冰晶"。其相关词可以包括{冰刀,冰柜,水晶}。其次, w和所有相关词的语义类之间的关联被计算。例如,冰刀、冰柜和水晶属于三个不同的语义 类tp^和^。因此,w与^、^和^的关联被计算出。然后,具有最大关联性的语义类被 选出,作为w的语义类。由于统计模型与本专利技术的相关性不大,因此在此不对其进行赘述。 在规则模型中,通常有两种类型的规则第一型(Type 1)规则和第二型(Type 2) 规则。如图2所示,在传统系统中,未知词输入装置201输入未知词w。然后,在规则应用装 置202中,第一型规则应用装置2021和第二型规则应用装置2022分别将第一型规则和第 二型规则应用到未知词w。然后,生成的语义分类结果通过语义分类结果输出装置2023被 输出到分类结果存储器204。这里,两种类型的规则都被应用到输入的未知词,即无论第一 型规则是否产生分类结果,第二型规则都将被应用。所有可应用的规则的结果都将被输出 和存储。 图3A和3B分别示出第一型规则和第二型规则的应用示例。 以下,为了便于说明,首先简要介绍本专利技术说明书中所采用的主要术语。"字符"在这里指代文本的最小单位。在中文中可将其视为文字,例如"我"是一个字符,而"你"是另一个字符。"单词"可以表示有意义的字符串。例如,在中文中,"我们"是一个双字符词,而"计算机"是一个三字符词。"未知词"指的是尚未记载于当前字典中的单词。 单词的"语义类"由字典定义,例如可分为"人"、"事件"、"感情"等等。例如,"老 人"和"孩子"两者处于同一语义类,即"人"。同一个词可能属于不同的语义类,而不同字典 可能具有不同的语义类。"相似词"在本专利技术中被定义如下如果单词Wl和w2具有相同字符,并且在删除相 同字符之后,它们的其余字符具有相同的语义类,则认为单词巧和w2是相似词。例如单词 "裁判员"和"审判员"是相似词,因为在删除它们的相同字符(即"员")之后,它们的其余 部分"裁判"和"审判"具有相同的语义类。 第一型规则如图3A所示,输入的未知词w首先被分成两部分wp^Pwp2。如果wp!和即2的语义类是相同的,则输出该语义类;否则,不输出任何结果。第一型规则的思路在于,未知词w的语义类可以由构成w的字符的语义类来确定。 下面给出第一型规则的两个示例,其中C(w)表示未知词w的语义类。 规则11 :对于一个双字符词AB,如果C (A) = C (B),则C (AB) = C (A) = C (B)。例如,对于单词"欢悦",由于c(欢)二c(悦),因此c(欢悦)=(:(欢)=。(悦)。 规则12 :对于一个三字符词ABC,如果C(A) = C(BC),则C(ABC) = C(A);否则如果 C(AB) :C(C),则C(ABC) =C(AB)。例如,对于单词"音乐声",由于C (音)二C(乐声),因 此C(音乐声)二C(音)。再例如,对于单词"洽谈会",由于C(洽谈)二C(会),因此C(洽谈会)二c(洽谈)。 第二型规则如图3B所示,对于一未知词w,首先从字典中检索出其相似词。然后,10输出相似词的语义类,作为w的语义类。如果不存在相似词,则没有结果输出。该规则的思 路在于,未知词w的语义类可以由其相似词确定。 下面给出第二型规则的两个示例。 规则21 :对于一个三字符词ABC,如果在字典中存在一单词XYC使得C(AB)= C (XY),则认为C (ABC) = C (XYC);如果存在一单词XBC使得C (A) = C (X),则认为C (ABC)= C(XBC)。例如,对于单词"裁判员",由于在字典中存在一单词"审判员"并且C(裁判)= C(审判),因此C(裁判员)二C(审判员)。 规则22 :对于一个四字符词ABCD,如果在字典中存在一单词XBCD使得C(A)= C (X),则认为C (ABCD) = C (XBCD);如果存在一单本文档来自技高网...

【技术保护点】
一种用于对未知词进行语义分类的方法,包括:针对字典中的每个词根A,收集包含该词根A的相似词集合{AD↓[1],AD↓[2],...AD↓[n]}或{D↓[1]A,D↓[2]A,...D↓[n]A},其中所述词根A包含一个或多个字符,D↓[i](i=1,2,...,n)包含一个或多个字符并且满足C(D↓[1])=C(D↓[2])=...=C(D↓[n])=c,其中C()表示语义类,c指示一特定语义类,n表示集合中相似词的数目,n≥2;按照不同的语义类,对所收集的每个相似词集合{AD↓[1],AD↓[2],...AD↓[n]}或{D↓[1]A,D↓[2]A,...D↓[n]A}中的相似词进行分组,以使得每个群组中的相似词具有相同的语义类;记录所含相似词数目最多的群组的语义类c↓[max];输入一未知词w=XY,其中X和Y各自包含一个或多个字符;从所收集的各个相似词集合中选择其词根A满足A=X或A=Y的相似词集合;以及对于所选的相似词集合,若满足A=X且C(Y)=c或者A=Y且C(X)=c,则将该未知词w分类到针对该词根A所记录的语义类c↓[max]。

【技术特征摘要】

【专利技术属性】
技术研发人员:赵凯胡长建邱立坤
申请(专利权)人:日电中国有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1