一种基于贝叶斯统计学习的医学古汉语句子切分方法技术

技术编号:16837381 阅读:74 留言:0更新日期:2017-12-19 19:54
本发明专利技术属于语言处理领域,公开了一种基于贝叶斯统计学习的医学古汉语句子切分方法,在所述的基于贝叶斯统计学习的医学古汉语句子切分方法对句子识别的朴素贝叶斯方法的基础之上,对于特征属性再添加二元组与三元组或者进行一元组、二元组、三元组多样特征属性组合得到多组实验数据结果,最后得出最佳模型;进而实现医学古汉语句子切分任务。本发明专利技术与实际处理文本内容相结合,通过本实验方法将现有技术各项特征的F值可提高至少25个百分点,本发明专利技术中系统地分析与归纳了医学古汉语文本句子识别规则,实现了可以应用于实际中医医学领域的处理方法,建立了医学古汉语文本的句子识别语料库,进一步让科研成果发挥出更大的作用。

A medical ancient Chinese sentence segmentation method based on Bayesian statistical learning

The invention belongs to the field of language processing, discloses a Bayesian statistical learning method based on sentence segmentation of ancient Chinese medicine, on the basis of the sentence segmentation method in ancient Chinese medicine Bayesian statistical learning based on sentence recognition method for Naive Bayesian, attributes to add two tuples and three tuple or a tuple, two, the three tuple tuple diversity feature selection by experimental data for multiple results, finally obtained the best model; and then realize the sentence segmentation task in ancient Chinese medicine. The invention and practical combination of text processing, through the experimental method of the existing technologies of the characteristics of the F-measure can increase at least 25 percentage points, the invention is analyzed and summed up the ancient Chinese medical text sentence recognition rules can achieve processing method is applied in traditional Chinese medicine field, established sentence recognition the corpus of ancient Chinese medical text, make further research to play a greater role.

【技术实现步骤摘要】
一种基于贝叶斯统计学习的医学古汉语句子切分方法
本专利技术属于语言处理领域,尤其涉及一种基于贝叶斯统计学习的医学古汉语句子切分方法。
技术介绍
自然语言处理技术具有很强的语言相关性,在国外已将较成熟的语言处理技应用于医疗信息与病人病例史的文本的处理中,以便帮助医生从巨大的医学相关信息数据中提取关键信息,并将其转化为有效的知识体系,再进一步加以应用到相关工作中,而在国内对于全国各省市的各大医疗机构关于其医学领域大数据现代智能化处理工作,也在紧罗密布的进行中。在国内各地图书馆以及各大科研机构中收藏了大量的医学中文古籍,学者们为了便于研究者更好更方便地研究,已经对大部分的典籍进行数字化处理。于是对于这些医学中文古籍的现代化智能处理也顺理成章地被提上了日程,但典籍数字话后,没有确定的科学处理方法,导致典籍的实际处理成本提高。古代的汉语以文本形式存在的历史,可以是从五·四运动追溯到有文字记载时期,超过了三千年的时间跨度了。可见古汉语文本的历史悠久,而对于其中医学领域的文本文献更是数不胜数。但现如今,将较成熟的现代汉语处理技应用于国内尚不成熟的中文医学文本处理技术中,这些方法在面向医学古汉语文本的处理性能时,是否像在现代文本中一样的良好,都有待进一步验证。而现已应用的技术,由于处理规定的不统一性和所需处理任务的语料库缺乏,而导致典籍处理的效果低下,这与原有将中医典籍现代提高效率、降低成本的科学化处理初衷相违背。综上所述,现有技术存在的问题是:现有将较成熟的现代汉语处理技应用于国内尚不成熟的中文医学文本处理技术中,这些方法在面向医学古汉语文本的处理性能时,是否像在现代文本中一样的良好,都有待进一步验证。现在应用的技术,由于处理方法中的规定不统一和处理任务所需的语料库的大量缺乏而导致处理成本偏高,处理的效果低下的结果。
技术实现思路
针对现有技术存在的问题,本专利技术提供了一种基于贝叶斯统计学习的医学古汉语句子切分方法。本专利技术是这样实现的,一种基于贝叶斯统计学习的医学古汉语句子切分方法,所述基于贝叶斯统计学习的医学古汉语句子切分方法在句子识别的朴素贝叶斯方法中再添加二元组与三元组的为特征属性或进行一元组、二元组、三元组多样特征属性组合,得出最佳模型;实现医学古汉语句子切分。进一步,所述基于贝叶斯统计学习的医学古汉语句子切分方法,具体包括:对一定量的数据文本进行手工标注:将手工标注的数据文本用来训练朴素贝叶斯模型的分类器;将训练数据集通过朴素贝叶斯方法计算得到断句分类器;根据分类器的数据值,通过再朴素贝叶斯模型将新的数据集进行断句处理,最终得到分句结果;在实验最后,提出对于朴素贝叶斯的医学古汉语文本断句性能指标,以及分析数据结果;使用朴素贝叶斯分类器将剩余文本进行断句标注处理,对实验数据结果进行分析;提取标注内容建立医学古汉语文本的句子识别语料。进一步,对一定量的数据文本进行手工标注,具体包括:针对处理医学古文本中,句子识别的转化句子的标注;直接关注句子的开头和结尾处,之后在使用预先规定好的记号,进行标签标记;标签内为有效句子,标签外则无效;制定文本处理的断句规则:提出的表示句子“开始”和“结尾”的特征是如何得到的,再接着,使用文本句子特征提取方法,制定文本处理的断句规则;表征句子结束的归纳:根据标点的特性明确的说明对于句子的结束位置所对应的有符号标记,然而在根据这些特点对实际内容进行分析;表征句子开始的归纳:分析开始特征时优先分析开始特征是否带有一些符号特征,从而在根据这些特征对句子开始像句子结束一样快速标记;原文部分内容缺失:文本内容有所缺失根据原文本上下文关系,以及查阅资料后得出的一些断句规则。进一步,数据集包括:将中国古代医学名著作为数据分析的基础数据库,采用随机抽取章节的方式提取了40%的章节作为实验数据集,然后人工的方式根据之前所定下的规则对其进行开始和结尾标注处理;标注完成以后将数据集按照不同比例分配进行实验;最后,测试实验模型是否有过拟合现象的出现;所述性能指标的评估,包括:利用标注的查准率LP、查全率LR和F1值LF用于评估断句三种标签的性能,对实验方法的性能进行有效的判断;对标注间隙的查准率(LP)、查全率(LR)定义如下:在实际应用中,只要一个值较高,另一个值就必然有所牺牲;所以在对一个分类器进行评估的时候,采用LF:其中两个值的调和平均会更加接近两个数中较小的那个;因此,如果LF很高的话,那么LP和LR都会很高;所述过拟合现象:在调试一个统计模型时,使用参数过多,当可选择的参数的自由度超过数据集中所包含内容时,会减少或破坏模型一般化的能力更甚于适应训练数据集;过拟合不只取决于参数个数和数据集,也跟模型架构与数据集的一致性有关。进一步,所述朴素贝叶斯的方法,包括:首先,朴素贝叶斯模型是基于贝叶斯准则与特征条件独立假设的分类的;而分类任务被看作为给定一个测试样例d后估计它的后验概率,计算式表达为Pr=(C=cj|d);接着,实验分析哪个类别cj对应概率最大,再将这个类别便赋予样例d;然后,认为在数据集D中,令其中各元素为用离散值表示的属性集合,令C为具有不通知的类别属性;再接着,给定一个测试样例d,得到其对应属性值,其表达式如下:d=<A1=a1,…,A|A|=a|A|>;由于预测类别是cj,那么Pr(C=cj|A1=a1,…,A|A|=a|A|)最大;cj被称为最大后验概率MAP假设;根据贝叶斯准则,其中在此被表示为:其中Pr(C=cj)是类别;cj的先验概率,用于训练样本估计;对于Pr(A1=a1,…,A|A|=a|A||C=cj),展开得到:Pr(A1=a1|A2=a2,…,A|A|=a|A|,C=cj)Pr(A2=a2,…,A|A|=a|A|C=cj);再接着第二项Pr(A2=a2,…,A|A|=a|A||C=cj)递归展开;假设所有属性都是条件独立于类别C=cj,即准确的表示:Pr(A1=a1|A2=a2,…,A|A|=a|A|,C=cj)=Pr(A1=a1|C=cj),同理可推,得到:之后,再从训练数据中统计的得到先验概率Pr(C=cj)和条件概率Pr(Ai=ai|C=cj),而这些的计算如下:所以根据上面公式推导出,在给定测试样例的情况下,通过计算下面的式子来得出最有可能的类别:本专利技术的优点及积极效果为:对于中文自然语言处理主要基础任务包括句子识别、分词、词性标注和句法识别,其中每一项都是基于前一项的任务结果而进行的;本文以已成熟的现代汉语处理技术方法为基础,在与实际处理文本内容相结合,系统的分析和归纳医学古汉语文本句子识别规则,之后,再采用最为广泛的自然语言处理技术之一的朴素贝叶斯模型为基础分析了现代自然语言处理技术对医学古汉语文本处理的性能。本次实验进展顺利,通过本实验方法将现有技术各项特征的F值可提高至少25个百分点,其中主要召回率提高近20个百分点。在实验中遇见的部分问题以及从得到数据结果进行分析,最后得到的结论对于现有对未来实验提出以下要求:对于句子识别的朴素贝叶斯方法,可以再添加二元组与三元组的为特征属性的实验,还可以开展一元组、二元组、三元组多样特征属性组合实验,验证不同组合的实验效果,进而可以得出最佳模型;实现可以应用于实际中医医学领域的处理方法,进一步让本文档来自技高网
...
一种基于贝叶斯统计学习的医学古汉语句子切分方法

【技术保护点】
一种基于贝叶斯统计学习的医学古汉语句子切分方法,其特征在于,在所述的基于贝叶斯统计学习的医学古汉语句子切分方法对句子识别的朴素贝叶斯方法的基础上,对于该方法所需的特征属性项再添加二元组与三元组的为特征属性或者进行一元组、二元组、三元组多样特征属性组合得到多组实验数据结果,最后得出最佳模型;进而完成医学古汉语句子切分任务。

【技术特征摘要】
1.一种基于贝叶斯统计学习的医学古汉语句子切分方法,其特征在于,在所述的基于贝叶斯统计学习的医学古汉语句子切分方法对句子识别的朴素贝叶斯方法的基础上,对于该方法所需的特征属性项再添加二元组与三元组的为特征属性或者进行一元组、二元组、三元组多样特征属性组合得到多组实验数据结果,最后得出最佳模型;进而完成医学古汉语句子切分任务。2.如权利要求1所述的基于贝叶斯统计学习的医学古汉语句子切分方法,其特征在于,所述基于贝叶斯统计学习的医学古汉语句子切分方法,具体包括:对一定量的数据文本进行手工标注:将手工标注的数据文本用来训练朴素贝叶斯模型的分类器;将训练数据集通过朴素贝叶斯方法计算得到断句分类器;根据分类器的数据值,通过再朴素贝叶斯模型将新的数据集进行断句处理,最终得到分句结果;在实验最后,提出对于朴素贝叶斯的医学古汉语文本断句性能指标,以及分析数据结果;使用朴素贝叶斯分类器将剩余文本进行断句标注处理,对实验数据结果进行分析;使用提取标注的结果内容按照处理任务语料库所需的文本规则,建立医学古汉语文本的句子识别语料。3.如权利要求1所述的基于贝叶斯统计学习的医学古汉语句子切分方法,其特征在于,对一定量的数据文本进行手工标注,具体包括:针对处理医学古文本中,句子识别的转化句子的标注;直接关注句子的开头和结尾处,之后在使用预先规定好的记号,进行标签标记;标签内为有效句子,标签外则无效;制定文本处理的断句规则:提出的表示句子“开始”和“结尾”的特征是如何得到的,再接着,使用文本句子特征提取方法,制定文本处理的断句规则;表征句子结束的归纳:根据标点的特性明确的说明对于句子的结束位置所对应的有符号标记,然而在根据这些特点对实际内容进行分析;表征句子开始的归纳:分析开始特征时优先分析开始特征是否带有一些符号特征,从而在根据这些特征对句子开始像句子结束一样快速标记;原文部分内容缺失:文本内容有所缺失根据原文本上下文关系,以及查阅资料后得出的一些断句规则。4.如权利要求2所述的基于贝叶斯统计学习的医学古汉语句子切分方法,其特征在于,数据集包括:将中国古代医学名著作为数据分析的基础数据库,采用随机抽取章节的方式提取了40%的章节作为实验数据集,然后人工的方式根据之前所定下的规则对其进行开始和结尾标注处理;标注完成以后将数据集按照不同比例分配进行实验;最后,测试实验模型是否有过拟合现象的出现;所述性能指标的评估,包括:利用标注的查准率LP、查全率LR和F1值LF用于评估断句三种标签的性能,对实验方法的性能进行有效的判断;对标注间隙的查准率(LP)、查全率(LR)定义如下:1在实际应用中,只要一个值较高,另一个值就必然有所牺牲;所以在对一个分类器进行评估的时候,采用LF:其中两个值的调和平均会更加接近两个数中较小的那个;...

【专利技术属性】
技术研发人员:王亚强刘胤唐聃舒红平
申请(专利权)人:成都信息工程大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1