一种中文文本处理方法及装置制造方法及图纸

技术编号：3850131 阅读：176 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种中文文本处理方法及装置，该方法包括：获取待分割中文文本，使用中文分词方法对待分割中文文本进行分割，得到Ｎ↓［０］个初始文本片段；对所述Ｎ↓［０］个初始文本片段进行Ｍ级聚合处理，得到Ｎ↓［Ｍ］个第Ｍ级文本片段；其中，Ｎ↓［０］、Ｎ↓［Ｍ］、Ｍ分别为不小于１的整数。该方法及装置能够降低检索结果的误报概率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息处理领域，尤其涉及一种中文文本处理方法及装置。
技术介绍
在信息处理领域，经常需要用到中文文本分割技术。例如，互联网搜索引擎在进行文本关键词搜索时，需要首先对互联网中的文本内容进行合理的分割，才能实现更准确的搜索。另外，在机器翻译、语音合成、自动分类、自动摘要、自动校对等等信息处理领域中也需要用到中文文本分割技术。已有的中文文本分割方法主要包括定长分割方法、中文分词方法等。其中，定长分割方法是根据预先设定的字段长度对文本进行定长(如4个字符)分割；中文分词方法则是基于预先设定的一个词库，并结合基于标点符号、助词等的语法分析来对文本进行分割。在网络内容取证领域中，也需要使用中文文本分割方法。在本专利技术人提出的中国专利申请号200910083457.2,专利技术名称"网络取证方法及系统"的专利申请中给出了一种网络取证方法，包括从被监控网络中捕获流经网络的网络连接记录进行取证分析。其中，在存储纯文本片段时，可以使用文本分割方法进行纯文本选^:的分割，将获得的纯文本片段分别与相对应的IP对一起进行映射处理后存储；相应的，在取证分...

【技术保护点】
一种中文文本处理方法，其特征在于，包括：　获取待分割中文文本，使用中文分词方法对待分割中文文本进行分割，得到Ｎ↓［０］个初始文本片段；　对所述Ｎ↓［０］个初始文本片段进行Ｍ级聚合处理，得到Ｎ↓［Ｍ］个第Ｍ级文本片段；　其中，Ｎ↓［０］、Ｎ↓［Ｍ］、Ｍ分别为不小于１的整数。

【技术特征摘要】

【专利技术属性】
技术研发人员：邹涛，许博义，黄敏桓，刘丽，赵刚，
申请(专利权)人：北京系统工程研究所，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人