The invention belongs to the field of language processing, discloses a Bayesian statistical learning method based on sentence segmentation of ancient Chinese medicine, on the basis of the sentence segmentation method in ancient Chinese medicine Bayesian statistical learning based on sentence recognition method for Naive Bayesian, attributes to add two tuples and three tuple or a tuple, two, the three tuple tuple diversity feature selection by experimental data for multiple results, finally obtained the best model; and then realize the sentence segmentation task in ancient Chinese medicine. The invention and practical combination of text processing, through the experimental method of the existing technologies of the characteristics of the F-measure can increase at least 25 percentage points, the invention is analyzed and summed up the ancient Chinese medical text sentence recognition rules can achieve processing method is applied in traditional Chinese medicine field, established sentence recognition the corpus of ancient Chinese medical text, make further research to play a greater role.
【技术实现步骤摘要】
一种基于贝叶斯统计学习的医学古汉语句子切分方法
本专利技术属于语言处理领域,尤其涉及一种基于贝叶斯统计学习的医学古汉语句子切分方法。
技术介绍
自然语言处理技术具有很强的语言相关性,在国外已将较成熟的语言处理技应用于医疗信息与病人病例史的文本的处理中,以便帮助医生从巨大的医学相关信息数据中提取关键信息,并将其转化为有效的知识体系,再进一步加以应用到相关工作中,而在国内对于全国各省市的各大医疗机构关于其医学领域大数据现代智能化处理工作,也在紧罗密布的进行中。在国内各地图书馆以及各大科研机构中收藏了大量的医学中文古籍,学者们为了便于研究者更好更方便地研究,已经对大部分的典籍进行数字化处理。于是对于这些医学中文古籍的现代化智能处理也顺理成章地被提上了日程,但典籍数字话后,没有确定的科学处理方法,导致典籍的实际处理成本提高。古代的汉语以文本形式存在的历史,可以是从五·四运动追溯到有文字记载时期,超过了三千年的时间跨度了。可见古汉语文本的历史悠久,而对于其中医学领域的文本文献更是数不胜数。但现如今,将较成熟的现代汉语处理技应用于国内尚不成熟的中文医学文本处理技术中,这些方法在面向医学古汉语文本的处理性能时,是否像在现代文本中一样的良好,都有待进一步验证。而现已应用的技术,由于处理规定的不统一性和所需处理任务的语料库缺乏,而导致典籍处理的效果低下,这与原有将中医典籍现代提高效率、降低成本的科学化处理初衷相违背。综上所述,现有技术存在的问题是:现有将较成熟的现代汉语处理技应用于国内尚不成熟的中文医学文本处理技术中,这些方法在面向医学古汉语文本的处理性能时,是否像在现代文 ...
【技术保护点】
一种基于贝叶斯统计学习的医学古汉语句子切分方法,其特征在于,在所述的基于贝叶斯统计学习的医学古汉语句子切分方法对句子识别的朴素贝叶斯方法的基础上,对于该方法所需的特征属性项再添加二元组与三元组的为特征属性或者进行一元组、二元组、三元组多样特征属性组合得到多组实验数据结果,最后得出最佳模型;进而完成医学古汉语句子切分任务。
【技术特征摘要】
1.一种基于贝叶斯统计学习的医学古汉语句子切分方法,其特征在于,在所述的基于贝叶斯统计学习的医学古汉语句子切分方法对句子识别的朴素贝叶斯方法的基础上,对于该方法所需的特征属性项再添加二元组与三元组的为特征属性或者进行一元组、二元组、三元组多样特征属性组合得到多组实验数据结果,最后得出最佳模型;进而完成医学古汉语句子切分任务。2.如权利要求1所述的基于贝叶斯统计学习的医学古汉语句子切分方法,其特征在于,所述基于贝叶斯统计学习的医学古汉语句子切分方法,具体包括:对一定量的数据文本进行手工标注:将手工标注的数据文本用来训练朴素贝叶斯模型的分类器;将训练数据集通过朴素贝叶斯方法计算得到断句分类器;根据分类器的数据值,通过再朴素贝叶斯模型将新的数据集进行断句处理,最终得到分句结果;在实验最后,提出对于朴素贝叶斯的医学古汉语文本断句性能指标,以及分析数据结果;使用朴素贝叶斯分类器将剩余文本进行断句标注处理,对实验数据结果进行分析;使用提取标注的结果内容按照处理任务语料库所需的文本规则,建立医学古汉语文本的句子识别语料。3.如权利要求1所述的基于贝叶斯统计学习的医学古汉语句子切分方法,其特征在于,对一定量的数据文本进行手工标注,具体包括:针对处理医学古文本中,句子识别的转化句子的标注;直接关注句子的开头和结尾处,之后在使用预先规定好的记号,进行标签标记;标签内为有效句子,标签外则无效;制定文本处理的断句规则:提出的表示句子“开始”和“结尾”的特征是如何得到的,再接着,使用文本句子特征提取方法,制定文本处理的断句规则;表征句子结束的归纳:根据标点的特性明确的说明对于句子的结束位置所对应的有符号标记,然而在根据这些特点对实际内容进行分析;表征句子开始的归纳:分析开始特征时优先分析开始特征是否带有一些符号特征,从而在根据这些特征对句子开始像句子结束一样快速标记;原文部分内容缺失:文本内容有所缺失根据原文本上下文关系,以及查阅资料后得出的一些断句规则。4.如权利要求2所述的基于贝叶斯统计学习的医学古汉语句子切分方法,其特征在于,数据集包括:将中国古代医学名著作为数据分析的基础数据库,采用随机抽取章节的方式提取了40%的章节作为实验数据集,然后人工的方式根据之前所定下的规则对其进行开始和结尾标注处理;标注完成以后将数据集按照不同比例分配进行实验;最后,测试实验模型是否有过拟合现象的出现;所述性能指标的评估,包括:利用标注的查准率LP、查全率LR和F1值LF用于评估断句三种标签的性能,对实验方法的性能进行有效的判断;对标注间隙的查准率(LP)、查全率(LR)定义如下:1在实际应用中,只要一个值较高,另一个值就必然有所牺牲;所以在对一个分类器进行评估的时候,采用LF:其中两个值的调和平均会更加接近两个数中较小的那个;...
【专利技术属性】
技术研发人员:王亚强,刘胤,唐聃,舒红平,
申请(专利权)人:成都信息工程大学,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。