含有汉语的字符串的分词方法及在字符串中检索词的方法技术

技术编号：2912169 阅读：271 留言：0更新日期：2012-04-11 18:40

本发明专利技术提供了一种含有汉语字符串的分词方法，包括：接收包含有汉语字符的字符串；对于每个字符，确定所述字符串中该字符的语义作用范围；对于每个字符，在其语义作用范围内，确定与该字符可匹配成词的其他字符并构成词。经过对每个字符的语义作用范围的界定，体现汉语作为非线性语言和其它线性语言之间区别。从而切分出的结果词汇可以更准确反应汉语字符中的语义划分关系。本发明专利技术还提供了一种在字符串中检索词的方法，包括：确定该字符串中包含待检索词的字符；确定该字符的语义作用范围内所记录的构成的词；确定与该待检词匹配的所记录的词。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种自然语言数据处理的
，特别是指包含有汉语字符串的分词方法及在字符串中检索词的方法。
技术介绍
汉语没有单词的概念，而是按照字来直接构成语句。在英语中，词和词之间是以空格为自然分隔符的。但在汉语中，词和词之间没有明显的分隔，所以在作汉语的信息处理的时候，就需要对汉语句子进行分词，即将汉字字符串中的各个汉字转化成为汉语词。目前对汉语句子的分词方法，都照搬了英文或者其他印欧语言的特点，力图把汉语句子切分为一个连续的、无交叠的词汇的序列。这种分词方法是建立在中文字符的语义作用范围是紧邻左右这一狭窄范围的基础上的，因此切分出来的词汇在原句子中是连续的中文字符构成。而这并不完全符合汉语构成句子时的构词习惯，因为汉语在构成句子时，并不确保每个词汇中的每个字在句子中都是连续出现的。从而影响了后续的应用，例如对检索、搜索、翻译、摘要等应用。为了用符合汉语构成句子时的构词习惯对含有汉语的字符串进行分词。就需要更准确的翻译汉语字符中的语义划分关系。
技术实现思路
有鉴于此，本专利技术的主要目的在于提供一种含有汉语的字符串的分词方法及...

【技术保护点】
一种含有汉语的字符串的分词方法，其特征在于，包括：　Ａ、接收包含有汉语字符的字符串；　Ｂ、对于每个字符，确定所述字符串中该字符的语义作用范围；　Ｃ、对于每个字符，在其语义作用范围内，确定与该字符可匹配成词的其他字符并构成词。

【技术特征摘要】

【专利技术属性】
技术研发人员：吴长林，陈飔，
申请(专利权)人：吴长林，
类型：发明
国别省市：81[中国|广州]

全部详细技术资料下载我是这个专利的主人