一种改进的中文自动分词算法制造技术

技术编号：15280363 阅读：85 留言：0更新日期：2017-05-05 08:10

一种改进的中文自动分词算法，将待分词句子和已经初始化成功的语料库中的词进行对比匹配，根据概率统计学，将待分词句子拆分为网状结构，将网状结构的每条边都赋予一定的权值，其中权值最大的路径便是最终的分词结果，最后将验证分词结果的准确率和召回率。本发明专利技术中中文预处理的速度较基于分词词典的方法快；较基于分词词典的方法精度更高；较基于统计学方法有更好的准确度；实用性更大，更符合经验值；为后续自然语言处理技术提供了极大的应用价值。

An improved Chinese word segmentation algorithm

An improved Chinese automatic segmentation algorithm, compared to word segmentation and sentence matching has successfully initialized the corpus of words, according to statistics, the word sentence is split into mesh structure, each edge of the mesh structure are given a certain value, the maximum value of the right path is the final segmentation result. The accuracy of segmentation results finally verify and recall. The invention of the Chinese pretreatment method based on dictionary speed is fast; a precision method based on dictionary is higher; based on statistical method has better accuracy; more practical, more in line with the experience value; provide great value for subsequent Natural Language Processing technology.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及中文语义网络
，具体涉及一种改进的中文自动分词算法。
技术介绍
自上世纪八十年代初，中文信息处理领域提出中文自动分词课题以来，就一直吸引着来自计算机界、数学界、信息检索界、语言界的，无数的专家和学者。他们经过几十年的不懈努力和艰苦探索，已经取得了一些重要的进展和实用性的成果。可以把这些方法概括的分为三大类。第一，基于词典的中文分词方法，其过程简单、易于理解，但也对多义词、歧义词和嵌套词的切分效果不太理想。第二，基于统计的中文分词方法，该类方法，通过选取合适的数学统计模型，依靠大量的语料来对其进行训练，待模型稳定以后，再利用训练好的模型实现汉字串的自动分词。最后，基于理解的中文分词方法，基于理解的分词方法就是借助于人工智能中的相关技术，将事先已经提取好的关于汉语构词的一些规则和知识加入到推理过程中，利用这些规则和知识结合不同的推理机制，实现最终的中文分词，目前为止基于理解的分词系统还处在试验阶段。中文自动文词指的是将一个汉字序列按照其出现的上下文中的实际意义，有机的切分成一个个独立的词过程。它是计算机能够自动理解中文语义的基础，是中文信息处理中最重要的预处理技术。在中文里面，计算机不容易明白“她喜欢吃水果”中的“水果”是一个词。只有当自然语言中无意义的汉字串，被正确转化为有意义的词之后，计算机才能正确理解自然语言，进而进行下一步工作。为提高中文自动分词的准确性，本专利技术提供了一种改进的中文自动分词算法。
技术实现思路
针对中文自动分词的准确性不高问题，本专利技术提供了一种改进的中文自动分词算法。为了解决上述问题，本专利技术是通过以下技术方...

【技术保护点】
一种改进的中文自动分词算法，本专利技术涉及中文语义网络技术领域，具体涉及一种改进的中文自动分词算法，其特征是，包括如下步骤：步骤1：初始化训练模型，可以是《分词词典》或相关领域的语料库，或是两者结合模型步骤2：根据《分词词典》找到待分词句子中与词典中匹配的词步骤3：依据概率统计学，将待分词句子拆分为网状结构，即得n个可能组合的句子结构，把此结构每条顺序节点依次规定为步骤4：利用统计学概念理论知识，给上述网状结构每条边赋予一定的权值步骤5：找到权值最大的一条路径，即为待分词句子的分词结果步骤6：验证此分词结果的准确率和召回率。

【技术特征摘要】
1.一种改进的中文自动分词算法，本发明涉及中文语义网络技术领域，具体涉及一种改进的中文自动分词算法，其特征是，包括如下步骤：步骤1：初始化训练模型，可以是《分词词典》或相关领域的语料库，或是两者结合模型步骤2：根据《分词词典》找到待分词句子中与词典中匹配的词步骤3：依据概率统计学，将待分词句子拆分为网状结构，即得n个可能组合的句子结构，把此结构每条顺序节点依次规定为步骤4：利用统计学概念理论知识，给上述网状结构每条边赋予一定的权值步骤5：找到权值最大的一条路径，即为待分词句子的分词结果步骤6：验证此分词结果的准确率和召回率。2.根据权利要求1中所述的一种改进的中文自动分词算法，其特征是，以上所述步骤4中的具体计算过程如下：步骤4：利用统计学概念理论知识，给上述网状结构每条边赋予一定的权值，其具体计算过程如下：步骤4.1）取路径中词的数量最少min()根据《分词词典》匹配出的字典词与未匹配的单个词，第i条路径包含词的个数为，即n条路径词的个数集合为得步骤4.2）计算相邻两个词相关度将两个词映射到概念模型中，得到相应的概念即概念的相关度即为相邻两个词相关度这里考虑了本体间的基本属性关系、路径距离与路径数量、密度与深度等影响因子计算两本体概念间的相关度步骤4.2.1）构造基于基本属性关系对两本体概念相似度的影响函数两本体概念相似度与属性相似度成正比，与属性权重也成正比路径为假设的属性个数各为每个属性对相应概念的影响权重是不同的，按照权重系数分别对概念属性进行排序，对每个概念属性取前i个属性权重值这里即得下列属性权重矩阵从专业领域本体树中，可以很清楚的知道概念中的共有属性，记为这里j为共有属性的个数，且为概念中属性相同，则取出其对应权重值所以构建的影响函数为：步骤4.2.2）构造基于路径距离、与路径数量对两本体概念相似度的影响函数两本体概念相似度与其路径长度成反比，找到两本体概念间最长路径，其中经过的概念节点有n个，即即经过路径的长度为两本体概念相似度与路径数量成反比，即当路径数量越多，两本体概念相似度越大，这里根据专业领域本体树可知路径数量为N，如下式：即上式为路径长度与路径个数的权重比值，这个可以根据实验迭代出来步骤4.2.3）构造密度与深度对...

【专利技术属性】
技术研发人员：金平艳，胡成华，
申请(专利权)人：四川用联信息技术有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人