用于对未知词进行语义分类的系统和方法技术方案

技术编号：3768820 阅读：273 留言：0更新日期：2012-04-11 18:40

本发明专利技术提出了用于对未知词进行语义分类的系统和方法。根据第一方法，字典中针对每个词根的相似词集合根据不同的语义类被分成多个群组，并将包含相似词最多的群组的语义类记录下来，用于未知词的分类。根据第二方法，字典中的每个语义类所包含的各个单字符对被考查。如果由某一字符对扩展得到的单词是相似词（即语义类相同），则可以更加确信地将该未知词分类到同样的语义类。根据第三方法，所输入的未知词的相似词被考查。如果其相似词的不同部分与完整相似词具有相同的语义类，则可以更加确信地将该未知词也分类到同样的语义类。根据本发明专利技术的语义分类方法和系统能够适用于包含任何字符数目的单词，因此可以实现更大的覆盖率和更高的分类精确度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理，更具体而言，涉及用于对未知词进行语义分类的系统和方法。
技术介绍
随着计算机和因特网的快速发展，使得生成大量文本信息。由于这些文本信息的泛滥，用户越发希望能够对这些文本信息进行自动处理而减少人工参与。通常，用户能够预先获得描述单词的某些字典。这些字典可以用来描述单词的词性(例如名词、动词、形容词等等)、语义类(例如人、事件、感情等等)、含义和例句。这些字典对于文本处理提供了大量帮助。未出现在字典中的单词被称为"未知词"。一般而言，未知词可以来源于某些新词。在文本分析工作中，未知词会由于其信息(例如词性和语义类)不足而给用户带来麻烦。为了解决上述麻烦，一种做法是由用户在未知词出现时(例如来自于诸如报纸之类的某些信息源)更新字典。但是这一做法依然很困难，原因如下(l)由于存在很多信息源(例如报纸、网络等等)，因此无法确保用户在一未知词首次出现时就捕捉到该词；(2) 由于字典是标准化的，因此任意未知词都需要在很多专家达成一致意见之后才能被写入字典，这需要一定时间。鉴于此，针对文本分析任务，对未知词的信息进行某些猜测是有必要的。本专利技术将集中关注未知词的语义类信息。在现有技术中，例如在Proceedings of NAACL HLT 2007第188-195页所发表的文章"Hybrid models for semantic classification of Chinese unknownwords，，中所述，未知词的语义类通常可以通过两种模型获得，即规则模型和统计模型。图l示出在现有技术中使用规则模...

【技术保护点】
一种用于对未知词进行语义分类的方法，包括：针对字典中的每个词根Ａ，收集包含该词根Ａ的相似词集合｛ＡＤ↓［１］，ＡＤ↓［２］，．．．ＡＤ↓［ｎ］｝或｛Ｄ↓［１］Ａ，Ｄ↓［２］Ａ，．．．Ｄ↓［ｎ］Ａ｝，其中所述词根Ａ包含一个或多个字符，Ｄ↓［ｉ］（ｉ＝１，２，．．．，ｎ）包含一个或多个字符并且满足Ｃ（Ｄ↓［１］）＝Ｃ（Ｄ↓［２］）＝．．．＝Ｃ（Ｄ↓［ｎ］）＝ｃ，其中Ｃ（）表示语义类，ｃ指示一特定语义类，ｎ表示集合中相似词的数目，ｎ≥２；按照不同的语义类，对所收集的每个相似词集合｛ＡＤ↓［１］，ＡＤ↓［２］，．．．ＡＤ↓［ｎ］｝或｛Ｄ↓［１］Ａ，Ｄ↓［２］Ａ，．．．Ｄ↓［ｎ］Ａ｝中的相似词进行分组，以使得每个群组中的相似词具有相同的语义类；记录所含相似词数目最多的群组的语义类ｃ↓［ｍａｘ］；输入一未知词ｗ＝ＸＹ，其中Ｘ和Ｙ各自包含一个或多个字符；从所收集的各个相似词集合中选择其词根Ａ满足Ａ＝Ｘ或Ａ＝Ｙ的相似词集合；以及对于所选的相似词集合，若满足Ａ＝Ｘ且Ｃ（Ｙ）＝ｃ或者Ａ＝Ｙ且Ｃ（Ｘ）＝ｃ，则将该未知词ｗ分类到针对该词根Ａ所记录的语义类ｃ↓［ｍａｘ］。

【技术特征摘要】

【专利技术属性】
技术研发人员：赵凯，胡长建，邱立坤，
申请(专利权)人：日电中国有限公司，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人