【技术实现步骤摘要】
本专利技术涉及一种自然语言数据处理的
,特别是指包含有 汉语字符串的分词方法及在字符串中检索词的方法。
技术介绍
汉语没有单词的概念,而是按照字来直接构成语句。在英语中, 词和词之间是以空格为自然分隔符的。但在汉语中,词和词之间没 有明显的分隔,所以在作汉语的信息处理的时候,就需要对汉语句 子进行分词,即将汉字字符串中的各个汉字转化成为汉语词。目前 对汉语句子的分词方法,都照搬了英文或者其他印欧语言的特点, 力图把汉语句子切分为 一个连续的、无交叠的词汇的序列。这种分词方法是建立在中文字符的语义作用范围是紧邻左右这 一狭窄范围的基础上的,因此切分出来的词汇在原句子中是连续的 中文字符构成。而这并不完全符合汉语构成句子时的构词习惯,因 为汉语在构成句子时,并不确保每个词汇中的每个字在句子中都是 连续出现的。从而影响了后续的应用,例如对检索、搜索、翻译、 摘要等应用。为了用符合汉语构成句子时的构词习惯对含有汉语的 字符串进行分词。就需要更准确的翻译汉语字符中的语义划分关系。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供 一 种含有汉语的字符串的 分词方法及 ...
【技术保护点】
一种含有汉语的字符串的分词方法,其特征在于,包括: A、接收包含有汉语字符的字符串; B、对于每个字符,确定所述字符串中该字符的语义作用范围; C、对于每个字符,在其语义作用范围内,确定与该字符可匹配成词的其他字符并构成词。
【技术特征摘要】
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。