一种中文文本处理方法及装置制造方法及图纸

技术编号:3850131 阅读:176 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种中文文本处理方法及装置,该方法包括:获取待分割中文文本,使用中文分词方法对待分割中文文本进行分割,得到N↓[0]个初始文本片段;对所述N↓[0]个初始文本片段进行M级聚合处理,得到N↓[M]个第M级文本片段;其中,N↓[0]、N↓[M]、M分别为不小于1的整数。该方法及装置能够降低检索结果的误报概率。

【技术实现步骤摘要】

本专利技术涉及信息处理领域,尤其涉及一种中文文本处理方法及装置
技术介绍
在信息处理领域,经常需要用到中文文本分割技术。例如,互联网搜索 引擎在进行文本关键词搜索时,需要首先对互联网中的文本内容进行合理的 分割,才能实现更准确的搜索。另外,在机器翻译、语音合成、自动分类、 自动摘要、自动校对等等信息处理领域中也需要用到中文文本分割技术。已有的中文文本分割方法主要包括定长分割方法、中文分词方法等。 其中,定长分割方法是根据预先设定的字段长度对文本进行定长(如4个字 符)分割;中文分词方法则是基于预先设定的一个词库,并结合基于标点符 号、助词等的语法分析来对文本进行分割。在网络内容取证领域中,也需要使用中文文本分割方法。在本专利技术人提 出的中国专利申请号200910083457.2,专利技术名称"网络取证方法及系统"的 专利申请中给出了一种网络取证方法,包括从被监控网络中捕获流经网络的网络连接记录进行取证分析。其中,在存储纯文本片段时,可以使用文本 分割方法进行纯文本选^:的分割,将获得的纯文本片段分别与相对应的IP对 一起进行映射处理后存储;相应的,在取证分析阶段,对于待取证分本文档来自技高网...

【技术保护点】
一种中文文本处理方法,其特征在于,包括: 获取待分割中文文本,使用中文分词方法对待分割中文文本进行分割,得到N↓[0]个初始文本片段; 对所述N↓[0]个初始文本片段进行M级聚合处理,得到N↓[M]个第M级文本片段; 其中 ,N↓[0]、N↓[M]、M分别为不小于1的整数。

【技术特征摘要】

【专利技术属性】
技术研发人员:邹涛许博义黄敏桓刘丽赵刚
申请(专利权)人:北京系统工程研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1