当前位置: 首页 > 专利查询>微软公司专利>正文

中文文本中的词分割制造技术

技术编号:2883920 阅读:235 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种功能程序,用于从自然语言字符串选择可能是词的各种字符组合。该功能程序使用多个词中的每个词作为相邻字符串的函数的概率指示。(*该技术在2019年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术一般地涉及自然语言处理领域,并且,更具体地,涉及词分割领域。词分割指的是辨别构成语言表达如文本中的各个词的过程。对于拼写和语法检查、文本到语音的合成以及对自然语言的语法分析及理解词分割是有用的,它们都从辨别各个词中获益。对英文文本进行词分割是相当直接的,因为空格和标点符号通常对文本中的各个词分界。研究下面表1中的英文句子。The motion was then tabled…that is,removed indefinitely fromconsideration.表1通过把该序列中的每个相邻的空格和/或标点符号标识为该序列中前一个词的结束,可把表1中的英文句子直接按下面表2中所示那样分割。The motion was then tabled...that is,removed indefinitelv fromconsideration.表2在中文文本中,词的边界是隐含的而不是明显的。研究下面表3中的句子,其含义是“昨天下午委员会在布宜诺斯艾利斯讨论了这个问题。”昨天下午委员会在布宜诺斯艾利斯讨论了这个问题。表3尽管句子中没有标点符号和空格,中文读者会理解表3中的句子由下面表4中的用下划线划分的词构成。昨天下午委员会在布宜诺斯艾利斯讨论了这个问题。表4从上面的例子中可以看出不能以类似于英文词分割的方式进行中文的词分割。尽管如此,一种自动进行中文分割的准确有效的方法应是很有用处的。本专利技术提供一种功能程序,用于从自然语言字符序列中选择字符组合,其中字符组合可以是词。该功能程序对多个词中的每个词使用作为相邻字符串的函数的概率指示。本专利技术的一个方面是计算机系统中的一种方法,用于辨别文本句子中出现的各个词。该方法包括步骤对多个词中的每个词,按相邻字符串的函数存储该词是否在自然语言文本中出现的概率指示;并且对句子中出现的多组相邻字符串中的每一组,确定可能重叠的词、根据所存储的指示以及相邻的字符串确定概率并且把确定为可能是词的字符组和概率指示一起提交给一个分析程序。还提供一种用于存储实现相同功能的指令组的计算机可读介质。本专利技术的第二方面包括计算机存储器,其包含供在辨别自然语言文本中出现的各个词的词分割数据结构。该数据结构为多个词中的每个词包括一个该词是否在自然语言文本中出现的概率指示,该指示是相邻字符串的函数。附图说明图1是在其上优选地执行本功能程序的通用计算机系统的高层方块图。图2是一个总流程图,示出本功能程序优选操作的二个阶段。图3是一个流程图,示出该功能程序为在初始化阶段扩大词法知识库以包含进行词分割所使用的信息而优选执行的各步骤。图4是一个流程图,示出为确定某特定词是否包含其它更小的词而优选执行的各步骤。图5是为把句子分割成其组成的各词而由本功能程序优选执行的各步骤的流程图。图6是一个流程图,示出为对词汇表添加多字符词最好由该功能程序执行的各步骤。图7是一个流程图,示出为对词候选检查“下个字符”和“字符位置”状态而最好由本功能程序执行的步骤。图8是一个流程图,示出为确定当前词候选的最后一个字符是否和可能是词的另一个词候选重叠由本功能程序优选执行的各步骤。图9是一个流程图,示出为把单字符词添加到词汇表最好由本功能程序执行的步骤。图10是一个流程图,示出依据第一方法为对从词汇表中多个词生成的多个词法记录分配概率最好由本功能程序执行的各步骤。图11是一个流程图,示出依据第二方法为对从词汇表中的多个词生成的多个词法记录分配概率最好由本功能程序执行的各步骤。图12是一个分析树图,示出由分析程序生成的表示该样本句子的语法结构的分析树。本专利技术提供中文文本中的词分割。在一优选实施例中,一个词分割软件功能程序(“功能程序”)通过(1)估计输入的句子中的可能的字符组合并且舍弃不大可能的字符组合以提出该输入的句子中的各个词,(2)在词典中查找剩下的字符组合以确定它们是否构成词,以及(3)把确定为词的字符组合作为代表该输入句子的备择词法记录提交到一个自然语言分析程序,对诸如中文的不分割语言中的文本提供词分割。该分析程序生成一个表示该输入句子的语法结构的语法分析树,其只含有那些代表着确认为是该输入句子中的词的字符组合的词法记录。在把词法记录提交给该分析程序时,该功能程序对各词法记录加权,从而该分析程序在研究较短的字符组合之前先研究较长的字符组合,通常较长的字符组合比较短的字符组合更正确地表达对句子的分割。为了便于舍弃不大可能代表该输入句子中的词的字符组合,该功能程序对词典中出现的每个字符在该词典中添加(1)对所有不同词长组合的指示以及词中字符位置的指示,以及(2)当该字符作为一个词的开始时,对所有可跟随该字符的字符指示。该功能程序还添加(3)对多字符词的该多字符词内的子词是否是有活力的以及是否应予以研究的指示。在对句子进行处理中,该功能程序舍弃(1)其中具有用于未在该词典中出现的词长/位置组合中的任何字符的字符组合,以及(2)其中具有未列举成可能是第一字符的某第二字符的该第二字符的字符组合。该功能程序还舍弃(3)出现在对其不考虑子词的词中的字符组合。以这种方式,该功能程序既使在该词典中查找的字符组合的数量最少又利用该句子的语法语境区分各构成有效词的备择的分割结果。图1是最好在其上执行本功能程序的通用计算机系统的高层方块图。该计算机系统100包括中央处理器(CPU)110、各输入/输出部件120和计算机存储器(存储器)130。输入/输出部件中是存储部件121,例如硬盘机;计算机可读介质驱动机122,其可用于安装在计算机可读介质如CD-ROM上提供的包括着该功能程序的软件产品;以及网络连接件123,通过它该计算机系统100可和其它连接着计算机系统(未示出)通信。存储器130最好包括一个词分割功能程序131,用于辨别中文文本中出现的各个词,一个语法分析程序133,用于从代表自然语言文本中出现的词的词法记录生成代表自然语言文本中的语法结构的分析树,以及一个词法知识库132,用于由该分析程序构建用于分析树的词法记录时使用和用于由该功能程序辨别自然语言文本中出现的词时使用。尽管该功能程序最好实现在按如上说明的配置的计算机系统上,业内人士可理解它也可实现在具有不同配置的计算机系统上。图2是一个总流程图,示出该功能程序优选操作的两个阶段。在步骤201,作为初始化阶段的一部分,该功能程序扩大词法知识库以包含其进行词分割使用的信息。下面连同图3更详细地讨论步骤201。简言之,在步骤201,该功能程序向词法知识库为该词法知识库中任何词中出现的字符添加条目。为每个字符添加的条目包括“字符位置”属性,其指示该字符在各词中出现的不同位置。用于每个字符的条目还包含“下个字符”属性,它指示从该当前字符开始的词的第二位置中出现的字符集。最后,该功能程序还对词法知识库中出现的每个词添加“不计部分”属性,它指示该词的字符序列是否还应考虑成一起构成该当前词的更小的一些词。在步骤201后,该功能程序在步骤202中继续,即结束初始化阶段并开始词分割阶段。在词分割阶段中,该功能程序利用添加到词法知识库的信息进行中文文本的词分割。在步骤202,该功能程序接收用于词分割的中文文本句子。在步骤203,该功能程序把接收到的句子分割成其组成的词。后面连同本文档来自技高网...

【技术保护点】
一种用于在计算机系统中辨别文本句子中出现的各个词的方法,该方法包括步骤: 对于多个词中的每个词: 按相邻字符串的函数存储该词是否在自然语言文本中出现的概率指示; 对于该句子中出现的多组相邻字符串中的每一组: 确定可能重叠的词; 根据所存储的指示以及相邻的字符串确定概率;以及 把确定为可能是词的字符组和概率指示一起提交给一个分析程序。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:安迪吴斯蒂芬D理查森蒋自信音译
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1