当前位置: 首页 > 专利查询>吴长林专利>正文

含有汉语的字符串的分词方法及在字符串中检索词的方法技术

技术编号:2912169 阅读:271 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种含有汉语字符串的分词方法,包括:接收包含有汉语字符的字符串;对于每个字符,确定所述字符串中该字符的语义作用范围;对于每个字符,在其语义作用范围内,确定与该字符可匹配成词的其他字符并构成词。经过对每个字符的语义作用范围的界定,体现汉语作为非线性语言和其它线性语言之间区别。从而切分出的结果词汇可以更准确反应汉语字符中的语义划分关系。本发明专利技术还提供了一种在字符串中检索词的方法,包括:确定该字符串中包含待检索词的字符;确定该字符的语义作用范围内所记录的构成的词;确定与该待检词匹配的所记录的词。

【技术实现步骤摘要】

本专利技术涉及一种自然语言数据处理的
,特别是指包含有 汉语字符串的分词方法及在字符串中检索词的方法。
技术介绍
汉语没有单词的概念,而是按照字来直接构成语句。在英语中, 词和词之间是以空格为自然分隔符的。但在汉语中,词和词之间没 有明显的分隔,所以在作汉语的信息处理的时候,就需要对汉语句 子进行分词,即将汉字字符串中的各个汉字转化成为汉语词。目前 对汉语句子的分词方法,都照搬了英文或者其他印欧语言的特点, 力图把汉语句子切分为 一个连续的、无交叠的词汇的序列。这种分词方法是建立在中文字符的语义作用范围是紧邻左右这 一狭窄范围的基础上的,因此切分出来的词汇在原句子中是连续的 中文字符构成。而这并不完全符合汉语构成句子时的构词习惯,因 为汉语在构成句子时,并不确保每个词汇中的每个字在句子中都是 连续出现的。从而影响了后续的应用,例如对检索、搜索、翻译、 摘要等应用。为了用符合汉语构成句子时的构词习惯对含有汉语的 字符串进行分词。就需要更准确的翻译汉语字符中的语义划分关系。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供 一 种含有汉语的字符串的 分词方法及在字符串中检索词的方本文档来自技高网...

【技术保护点】
一种含有汉语的字符串的分词方法,其特征在于,包括: A、接收包含有汉语字符的字符串; B、对于每个字符,确定所述字符串中该字符的语义作用范围; C、对于每个字符,在其语义作用范围内,确定与该字符可匹配成词的其他字符并构成词。

【技术特征摘要】

【专利技术属性】
技术研发人员:吴长林陈飔
申请(专利权)人:吴长林
类型:发明
国别省市:81[中国|广州]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1