中文文本中的词分割制造技术

技术编号：2883920 阅读：235 留言：0更新日期：2012-04-11 18:40

本发明专利技术提供一种功能程序，用于从自然语言字符串选择可能是词的各种字符组合。该功能程序使用多个词中的每个词作为相邻字符串的函数的概率指示。（*该技术在2019年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术一般地涉及自然语言处理领域，并且，更具体地，涉及词分割领域。词分割指的是辨别构成语言表达如文本中的各个词的过程。对于拼写和语法检查、文本到语音的合成以及对自然语言的语法分析及理解词分割是有用的，它们都从辨别各个词中获益。对英文文本进行词分割是相当直接的，因为空格和标点符号通常对文本中的各个词分界。研究下面表1中的英文句子。The motion was then tabled…that is,removed indefinitely fromconsideration.表1通过把该序列中的每个相邻的空格和/或标点符号标识为该序列中前一个词的结束，可把表1中的英文句子直接按下面表2中所示那样分割。The motion was then tabled...that is,removed indefinitelv fromconsideration.表2在中文文本中，词的边界是隐含的而不是明显的。研究下面表3中的句子，其含义是“昨天下午委员会在布宜诺斯艾利斯讨论了这个问题。”昨天下午委员会在布宜诺斯艾利斯讨论了这个问题。表3尽管句子中没有标点符号和空格，中文读者会理解表3中的句子由下面表4中的用下划线划分的词构成。昨天下午委员会在布宜诺斯艾利斯讨论了这个问题。表4从上面的例子中可以看出不能以类似于英文词分割的方式进行中文的词分割。尽管如此，一种自动进行中文分割的准确有效的方法应是很有用处的。本专利技术提供一种功能程序，用于从自然语言字符序列中选择字符组合，其中字符组合可以是词。该功能程序对多个词中的每个词使用作为相邻字符串的函数的概率指示。本专利技...

【技术保护点】
一种用于在计算机系统中辨别文本句子中出现的各个词的方法，该方法包括步骤：对于多个词中的每个词：按相邻字符串的函数存储该词是否在自然语言文本中出现的概率指示；对于该句子中出现的多组相邻字符串中的每一组：确定可能重叠的词；根据所存储的指示以及相邻的字符串确定概率；以及把确定为可能是词的字符组和概率指示一起提交给一个分析程序。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员：安迪吴，斯蒂芬D理查森，蒋自信音译，
申请(专利权)人：微软公司，
类型：发明
国别省市：US[美国]

全部详细技术资料下载我是这个专利的主人