一种自动标注医学文本中实体的方法技术

技术编号:22330349 阅读:117 留言:0更新日期:2019-10-19 12:19
本发明专利技术公开了一种自动标注医学文本中实体的方法,该方法的目的是正确标注文本中的实体,包括以下步骤:收集文本;文本预处理;收集实体词典数据;对词典数据进行预处理,生成缩写词词典、词组词典和其他实体词典;应用标注规则对文本数据进行标注,获得标注实体;标注后处理,采用模糊识别方式对标注结果进行处理,增加漏识别的实体以及去除嵌套实体,最后得到最终的标注结果。

【技术实现步骤摘要】
一种自动标注医学文本中实体的方法
本专利技术属于医学实体标注
,特别是涉及一种自动标注医学文本中实体的方法。
技术介绍
在医学命名实体识别领域,使用的技术一般是通过训练模型,然后通过模型去标注实体,其中训练模型使用的数据大部分是通过人工标注得到,这需要耗费大量的人力、物力,并且标注结果中的实体类型较少,整体标注的数量少,同时也会产生一些误差,因此需要一种自动标注的方法来解决该问题,使标注的过程更加智能化、简单化,使标注结果更加准确化。
技术实现思路
有鉴于此,本专利技术要解决的技术问题是对医学语料中的实体进行标注方法,该方法能够自动标注实体,对文本中出现的医学实体能够精确标注,从而替代研究人员的手工标注过程,加快研究步伐。本专利技术替代医学实体标注过程中的人工标注,包括对复数实体、嵌套实体、不规范实体的处理方法,其方法将由文本收集、文本预处理、词典数据收集、词典构建、文本标注、标注后处理组成。文本收集:将要标注的医学文本数据进行收集。文本预处理:将文本进行分句、分词处理,并且对分词结果进行词形还原操作。词典数据收集:将需要的词典数据进行收集。词典构建:将得到的词典数据进行处理,构建缩写词词典、词组词典、其他实体词典(该词典中不包含缩写词与词组)。文本标注:利用标注方法对医学文本数据进行标注。标注后处理:对标注好的数据进行处理,解决一些漏标注的实体以及嵌套实体。标注方法:方法一:如果单词为缩写,则直接进行标注。方法二:如果不是缩写词,则先与词典中的实体进行匹配,如果匹配成功直接标注为实体,否则将单词的首字母变为小写,再与词典中的实体进行匹配,如果匹配成功则标注为实体,否则标注为其他类型。方法三:如果出现嵌套的实体,则只标注最长的实体,对嵌套在内部的实体不进行标注。附图说明图1是本专利技术的结构图。具体实施方式下面结合具体实施例和附图对本专利技术作进一步的说明。如图1所示,一种自动标注医学文本中实体的方法,该方法包含了对医学实体的自动标注过程的处理方法,以及处理复数实体、嵌套实体等而采用的组合方法。所述的自动标注方法标注的语料是医学语料,其标注结果更加偏向于医学实体,例如疾病、药物、不良反应、基因等。所述组合方法可以有效解决复数实体、嵌套实体以及因标点符号不规范导致实体无法识别的问题,提高了标注的准确率。其方法将由文本收集、文本预处理、词典数据收集、词典构建、文本标注、标注后处理组成。文本收集:将要标注的医学文本数据进行收集。文本预处理:将文本进行分句、分词处理,并且对分词结果进行词形还原操作。词典数据收集:将需要的词典数据进行收集。词典构建:将得到的词典数据进行处理,构建缩写词词典、词组词典、其他实体词典(该词典中不包含缩写词与词组)。文本标注:利用标注方法对医学文本数据进行标注。标注后处理:对标注好的数据进行处理,解决一些漏标注的实体以及嵌套实体。标注方法:方法一:如果单词为缩写,则直接进行标注。方法二:如果不是缩写词,则先与词典中的实体进行匹配,如果匹配成功直接标注为实体,否则将单词的首字母变为小写,再与词典中的实体进行匹配,如果匹配成功则标注为实体,否则标注为其他类型。方法三:如果出现嵌套的实体,则只标注最长的实体,对嵌套在内部的实体不进行标注。其中文本的标注过程是,首先采用nltk中的分句、分词功能将标注的文本数据进行分句、分词处理。其中在分词的过程中加入词组词典,使实体词组分在一起,然后采用nltk中的词形还原功能,将所有的名词还原为一般形式(能表达完整语义)。其中主要是将名词的复数转换为其单数形式,接下来利用标注的规则进行实体标注。其中在进行实体标注的过程中,采用的标注标签格式为“BIOES”,其中BIE标注的是一个实体词组,B代表实体的开始,I代表实体的中间部分,E代表实体的结束部分,S代表标注的实体为一个单独的单词,O代表其他类型。在标注结束得到标注的结果后,还将对标注的文本进行模糊识别处理,该部分主要是处理数据中由不规范标点符号导致的分词不准确的而导致实体未标注的情况,具体示例参考实施例。在对标注文本的分句结果进行模糊识别的过程中,首先采用fuzzywuzzy中的token_set_ratio进行重复元素匹配,其中与分句进行匹配的是实体词典,并且选取得分最高的前8个结果,然后采用fuzzywuzzy中的partial_ratio进行位置匹配,匹配的是token_set_ratio的结果与分句,并将得分为100的结果进行保留,得到模糊匹配的结果。在得到模糊匹配的结果后将模糊匹配的结果与标注的结果进行结合,然后进行嵌套实体处理,具体处理过程为:对所有识别的实体在标注的文本数据中进行位置索引查找,如果一个实体的索引在另一个实体的索引范围内,说明该实体嵌套在另一个实体中,则去除该嵌套实体,最终得到标注的实体。例如:医学文本数据标注结果待标注数据:SequentialTherapywithCrizotinibandAlectinibinALK-RearrangedNon-SmallCellLungCancer-AMulticenterRetrospectiveStudy.LungcancerisoneofthemostcommoncancersandisassociatedwithapoorsurvivalrateintheChineseHanpopulation.其标注的结果为:其中的“Non-SmallCellLungCancer”、“Lungcancer”、“cancers”以红色字体标出,红色字体部分为标注的实体。其中“Non-SmallCellLungCancer-A”在分词的结果中会分为“Non-Small”、“Cell”、“Lung”、“Cancer-A”,在标注的过程中无法识别该实体,因此需要进行模糊识别,而通过模糊识别可以识别出“Non-SmallCellLungCancer”。同时通过嵌套实体处理过程,使“Non-SmallCellLungCancer”为一个标注结果,而不会出现“LungCancer”和“Cancer”。“Lungcancer”是通过添加分词词典后将其分为一个词组,最终同词典中的实体匹配成功,“cancers”则是通过词形还原工作,将其还原为cancer,然后与词典结果匹配成功,最后标注为实体。以上所述仅为本专利技术的较佳实施例而已,并不用以限制本专利技术,凡在本专利技术的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本专利技术的保护范围之内。本文档来自技高网...

【技术保护点】
1.一种自动标注医学文本中实体的方法,其特征在于,包括的方法有:文本收集:接收将要标注的医学文本数据;文本预处理:将文本进行分句、分词处理,并且对分词结果进行词形还原操作;词典数据收集:对词典数据进行收集;词典构建:将得到的词典数据进行处理,构建缩写词词典、词组词典、其他实体词典;文本标注:利用标注方法对医学文本数据进行标注;标注后处理:对标注好的数据进行处理,解决一些漏标注的实体以及嵌套实体。

【技术特征摘要】
1.一种自动标注医学文本中实体的方法,其特征在于,包括的方法有:文本收集:接收将要标注的医学文本数据;文本预处理:将文本进行分句、分词处理,并且对分词结果进行词形还原操作;词典数据收集:对词典数据进行收集;词典构建:将得到的词典数据进行处理,构建缩写词词典、词组词典、其他实体词典;文本标注:利用标注方法对医学文本数据进行标注;标注后处理:对标注好的数据进行处理,解决一些漏标注的实体以及嵌套实体。2.根据权利要求1所述的自动标注医学文本中实体的方法,其特征在于,...

【专利技术属性】
技术研发人员:管仁初刘洪涛张浩贺宝润周丰丰
申请(专利权)人:北京百奥知信息科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1