一种基于大数据和中文特征的中文文本分词方法技术

技术编号：22219298 阅读：20 留言：0更新日期：2019-09-30 01:25

本发明专利技术公开了一种基于大数据和中文特征的中文文本分词方法，第一步：首先建立文本库；第二步：然后对文本库中的文章进行分词；第三步：再对切分词组进行拼接；第四步：拼接得到的词组进行词频统计；第五步：之后对不同候选词库中的词组进行相似度计算；第六步：最后对候选词库进行整合优化形成行业词典。算法运行稳定、效果良好，技术成熟；全切分分词方法获得输入句子的所有可能的切分形式，从根本上避免可能切分形式的遗漏，实现完备的歧义检测；结合上下文识别新词，自动消除和切分歧义，分词准确度更高；将网络电子文本作为自动分词资源，利用相关手段在电子资源库中直接获取需要的知识，应用范围广泛，不受待处理文本的领域限制。

A Chinese Text Word Segmentation Method Based on Large Data and Chinese Features

全部详细技术资料下载

【技术实现步骤摘要】
一种基于大数据和中文特征的中文文本分词方法
本专利技术涉及一种分词方法，尤其是涉及一种基于大数据和中文特征的中文文本分词方法。
技术介绍
与英语等西方语系语言不同，英文是以单词为基本的书写单位，英文单词之间通过空格进行分隔，而中文由古代汉语发展而来，以汉字为最基本的书写单位，中文语句由一组连续汉字序列构成，词语之间并不存在明显的划分标志，词语与词组的表达也比较模糊，需要阅读者通过语感和上下文识别每个词语和词组。现代汉语中的词汇通常为双字词汇或多字词汇，单个汉字不再等同于一个词语。虽然汉字是中文最基本书写单位，但词语是汉语中能够具有意义的最小独立语言成分。由于汉语具有较强的复杂性，如何快速准确地识别中文语句中的词语边界始终都是中文自然语言处理所要解决的难题之一。随着互联网、无线产品的发展，专业领域语料的需求越来越大。例如，财报分析需要金融领域语料，病例分析需要医学领域语料，环境变迁分析需要生物领域语料等。自然语言处理应用的划分越细致，对语料的要求越专业。分词是决定专业领域自然语料处理应用效果的关键因素，且其技术现已经被广泛应用于汉语信息抽取，信息索引与检索、文本分类与挖掘、文本纠错、手写输入、智能应答、机器翻译等相关领域，因此提高中文自动分词效果显得尤为重要。
技术实现思路
本专利技术要解决的技术问题是克服上述技术缺陷，因此提供一种基于大数据和中文特征的中文文本分词方法，从而解决上述问题。为实现上述目的，本专利技术提供如下技术方案：一种基于大数据和中文特征的中文文本分词方法，第一步：首先建立文本库；第二步：然后对文本库中的文章进行分词；第三步：再对切分词组进行拼...

【技术保护点】
1.一种基于大数据和中文特征的中文文本分词方法，其特征在于，第一步：首先建立文本库；第二步：然后对文本库中的文章进行分词；第三步：再对切分词组进行拼接；第四步：拼接得到的词组进行词频统计；第五步：之后对不同候选词库中的词组进行相似度计算；第六步：最后对候选词库进行整合优化形成行业词典。

【技术特征摘要】
1.一种基于大数据和中文特征的中文文本分词方法，其特征在于，第一步：首先建立文本库；第二步：然后对文本库中的文章进行分词；第三步：再对切分词组进行拼接；第四步：拼接得到的词组进行词频统计；第五步：之后对不同候选词库中的词组进行相似度计算；第六步：最后对候选词库进行整合优化形成行业词典。2.根据权利要求1所述的一种基于大数据和中文特征的中文文本分词方法，其特征在于，第一步中，建立文本库：充分利用大数据技术，通过爬虫手段爬取全网中文文本，构建千万规模的文本库，对源数据进行清洗，使得过滤后的数据格式只包含中文，英文及数字。3.根据权利要求1所述的一种基于大数据和中文特征的中文文本分词方法，其特征在于，第二步中，对文本库中的文章进行分词即取一个训练语料，按照从左到右逐字切分，取出全部候选字，标记索引位置并存入数据库，如数据库A。4.根据权利要求1所述的一种基于大数据和中文特征的中文文本分词方法，其特征在于，第三步中，对切分词组进行拼接，即在单个字的基础上索引位置往后延伸1,形成二...

【专利技术属性】
技术研发人员：陈刚，
申请(专利权)人：上海晏鼠计算机技术股份有限公司，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人