一种中医细粒度证候名分割的远程监督方法技术

技术编号:20485372 阅读:30 留言:0更新日期:2019-03-02 19:10
本发明专利技术是一种实现中医细粒度证候名分割的远程监督方法,其使用中医证候的命名和翻译惯例来训练基于中医细粒度证候名分割的条件随机场模型,首先利用汉英平行语料库中医证候的汉英字词关系,采用概率对准方法构建带噪声的标记训练数据,该概率对准方法可以启发式地结合正向对准和反向检查来推断出中医证候中的细粒度段,然后使用这些细粒度段训练条件随机场模型。本发明专利技术构思合理、简单,用于训练中医药领域中的基于中医细粒度证候名分割的条件随机场模型,几乎不依赖甚至不需要手工标记训练数据。

【技术实现步骤摘要】
一种中医细粒度证候名分割的远程监督方法
本专利技术属于医疗领域,具体涉及一种中医细粒度证候名分割的远程监督方法。
技术介绍
综合症是中医学(TCM)独有的概念。也是中医学(TCM)的重要支柱。症候名包括了病因学,疾病的位置、疾病的性质、疾病的倾向、病理学和健康的气和致病的气的关系。对中医证候的清晰认识有助于研究人员发现中医的规律。人们普遍认识到,对综合征的清晰认识将有助于研究人员发现中医的规律,且有助于将中医和西医结合起来。综合征通常以粗粒形式出现,然而,潜藏在粗粒中医综合征中的细粒度医学信息尚未被研究。在本文中,我们通过远程监督方法研究中医细粒度证候分割(FGSS),以建立用于训练中医FGSS的CRFs的带噪标记数据。该方法的可行性和有效性经过一系列精心设计的实验进行了论证,最好的F1值可以达到0.9177。中医文献和临床记录中的证候通常以粗粒度形式存在。例如,当给定一个复杂的描述,其中包含了发热、恶寒、口渴、头痛、舌红、苔薄白和脉浮数时,会被诊断为症候名中的“外感风热”。从学术上来说,它由三个部分组成,包括外感表证,风证和热证。根据中医诊断理论,这些细粒综合征是根据许多医学描述推断的。为了获取细粒度的信息,需要将粗粒度综合征分割成细粒度的形式。然而,大多数关于中医证候相关知识发现的研究并未解决上述细粒度分割问题。中医证候的名称可以看作是字串,细节的中医证明是特殊的中文字,而FGSS则是中文的分词任务。然后,可以通过利用监督序列标记模型来解决这个分割任务,例如,隐马尔科夫模型,最大熵马尔科夫模型和条件随机场(CRFs)。然而,这些监督模型在构建标注的训练数据的过程中面临着劳动密集型问题。半监督模型虽然会降低手工劳动的成本,但一些标记数据仍然是必需的,并且由于需要跨领域知识,手动构建特定领域的数据集仍然是一项具有挑战性的任务。
技术实现思路
本专利技术为了解决上述
技术介绍
中存在的分割粗粒度症候成细粒度形式需要专业人士手工标记数据的问题,提出了一种中医细粒度证候名分割的远程监督方法,其几乎不依赖甚至不需要手工来标记训练数据,经过实验验证了可行性和有效性,最高F1分数达到0.9177,与通过手动分割数据训练的CRF结果(0.939)相比,这是一个有竞争力的值。本专利技术的技术方案为:上述的中医细粒度证候名分割的远程监督方法,其使用中医证候的命名和翻译惯例来训练基于中医细粒度证候名分割的条件随机场模型,首先利用汉英平行语料库中医证候的汉英字词关系,采用概率对准方法构建带噪声的标记训练数据,该概率对准方法可以启发式地结合正向对准和反向检查来推断出中医证候中的细粒度段,然后使用这些细粒度段训练条件随机场模型。所述中医细粒度证候名分割的远程监督方法,其中,所述远程监督方法的具体包括以下步骤:(1)用中医证候的英文翻译中的词语之间的自然分隔符来建立中医细粒度证候名分割的条件随机场的训练数据;(2)通过概率对准方法将中医症候中的中文字符与相应翻译的英文单词对准;(3)训练中医学领域基于中医细粒度证候名分割的条件随机场模型。所述中医细粒度证候名分割的远程监督方法,其中:所述步骤(1)具体是通过对中医症候命名风格的观察和中英翻译惯例,中医证候的细粒度片段通过中医证候相应翻译中英文单词之间的自然分隔符来识别,中医证候的细粒度片段将构成用于在中医学领域中基于中医细粒度证候名分割的条件随机场训练的标记数据。所述中医细粒度证候名分割的远程监督方法,其中,所述步骤(2)的概率对准方法主要包括:正向对准方法、反向检查方法和启发式推断方法;所述正向对准方法用于将中医证候c中的中文字符ci与相应翻译e中的英文单词ej进行概率性对齐;在给定ci的条件下,ej的对准概率可以通过有拉普拉斯平滑的条件概率直接定义,即其中,上式(1)中c(ej,ci)是ej和ci的共现频次,c(ci)是ci出现的频次,|Vc|是语料库中字典的数量,α≥0是拉普拉斯平滑参数,P(ej|ci)值越高表明与e中的其他英语单词相比ej与ci具有更高的关联性;所述反向检查方法用于检查前向对准方法的结果,即ej与ci是否高可信对齐,与c中的其他中文字符相比,ci与ej也具有高可信度,反向检查定义为在式(2)中,c(ci,ej)与式(1)中的c(ej,ci)具有相同的含义,c(ej)是ej出现的频次,|Ve|是语料库中字典的数量;所述反向检查方法也使用了拉普拉斯平滑,其中β≥0是拉普拉斯平滑参数;所述启发式推理方法用于寻找c中最高可信度对应的最佳细粒度分割段由组成,而由与ej对准的中文字符组成,它们在e中与相同的ej对齐,且都是最高的对准概率,对准概率通过正向对准概率和反向检查概率组合测量,定义如下其中,上式(3)中λ是平衡P(ci|ej)和P(ej|ci)概率分布的参数,如果在推断过程中存在联系,则使用启发式策略,将被设置为与之前相邻的结果相同的值;如果当前位置是c的第一位,根据经验设定为1。所述中医细粒度证候名分割的远程监督方法,其中:所述步骤(3)包括分段表示、特征定义和参数设置;所述分段表示是将中医学中的中医细粒度证候名分割的任务定义为一个序列标注过程,用一个标签标记每个汉字,标签代表了一个细粒度段的特定部分,该细粒度段属于汉字,常用的有五种代表性的标签类型。所述特征定义包括n元语法特征定义和具有间隙的n元特征定义;所述条件随机场的实现是采用CRF++工具,使用拟牛顿法训练模型。有益效果:本专利技术使用远程监督方法可以不需要手工标记训练数据完成FGSS任务,经过实验验证了可行性和有效性,最高F1值达到0.9177,与通过手动分割数据训练的CRFs结果(0.939)相比,这是一个有竞争力的值。本专利技术专注于中文医学文本中的细粒度信息提取,这将有助于研究人员发现中医的规律,且有助于将中医和西医结合起来;为进一步挖掘证候-疾病关系和证候-基因网络分析提供更准确的基础。附图说明图1为本专利技术中医细粒度证候名分割的远程监督方法在不同分段表示和特征定义设置下,在带噪标记的训练数据上训练的CRFs模型的SP(精度)、SR(召回率)和SF(F1值)的柱形图;图2为本专利技术中医细粒度证候名分割的远程监督方法在不同的分段表示和特征定义设置下,对由手工标注训练数据进行训练的CRFs模型的SP、SR和SF的柱形图;图3为本专利技术中医细粒度证候名分割的远程监督方法在“BIS”的分割表示和不同特征定义条件下,通过带噪声标记的训练数据训练的CRF获得的“B”,“I”和“S”的LP、LR和LF柱形图。具体实施方式本专利技术中医细粒度证候名分割(FGSS)的远程监督方法,是使用中医证候的命名和翻译惯例来训练基于FGSS的条件随机场(CRFs)模型,首先利用汉英平行语料库中医证候的汉英字词关系,采用概率对准方法构建带噪声的标记训练数据,该概率对准方法可以启发式地结合正向对准和反向检查来推断出中医证候中的细粒度段,然后使用这些细粒度段训练条件随机场(CRFs)模型。本专利技术中医细粒度证候名分割的远程监督方法,具体包括以下步骤:(1)用中医证候的英文翻译中的词语之间的自然分隔符来建立中医细粒度证候名分割(FGSS)的条件随机场(CRFs)的训练数据;上述步骤(1)具体是通过对中医症候命名风格的观察和中英翻译惯例,将中医证候的细本文档来自技高网
...

【技术保护点】
1.一种中医细粒度证候名分割的远程监督方法,其特征在于:使用中医证候的命名和翻译惯例来训练基于中医细粒度证候名分割的条件随机场模型,首先利用汉英平行语料库中医证候的汉英字词关系,采用概率对准方法构建带噪声的标记训练数据,该概率对准方法可以启发式地结合正向对准和反向检查来推断出中医证候中的细粒度段,然后使用这些细粒度段训练条件随机场模型。

【技术特征摘要】
1.一种中医细粒度证候名分割的远程监督方法,其特征在于:使用中医证候的命名和翻译惯例来训练基于中医细粒度证候名分割的条件随机场模型,首先利用汉英平行语料库中医证候的汉英字词关系,采用概率对准方法构建带噪声的标记训练数据,该概率对准方法可以启发式地结合正向对准和反向检查来推断出中医证候中的细粒度段,然后使用这些细粒度段训练条件随机场模型。2.如权利要求1所述的中医细粒度证候名分割的远程监督方法,其特征在于,所述远程监督方法的具体包括以下步骤:(1)用中医证候的英文翻译中的词语之间的自然分隔符来建立中医细粒度证候名分割的条件随机场的训练数据;(2)通过概率对准方法将中医症候中的中文字符与相应翻译的英文单词对准;(3)训练中医学领域基于中医细粒度证候名分割的条件随机场模型。3.如权利要求2所述的中医细粒度证候名分割的远程监督方法,其特征在于:所述步骤(1)具体是通过对中医症候命名风格的观察和中英翻译惯例,中医证候的细粒度片段通过中医证候相应翻译中英文单词之间的自然分隔符来识别,中医证候的细粒度片段将构成用于在中医学领域中基于中医细粒度证候名分割的条件随机场训练的标记数据。4.如权利要求2所述的中医细粒度证候名分割的远程监督方法,其特征在于,所述步骤(2)的概率对准方法主要包括:正向对准方法、反向检查方法和启发式推断方法;所述正向对准方法用于将中医证候c中的中文字符ci与相应翻译e中的英文单词ej进行概率性对齐;在给定ci的条件下,ej的对准概率可以通过有拉普拉斯平滑的条件概率直接定义,即其中,上式(1)中c(ej,ci)是ej和c...

【专利技术属性】
技术研发人员:王亚强闫飞飞王晓峰舒红平唐聃
申请(专利权)人:成都信息工程大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1