【技术实现步骤摘要】
医学文本实体标注方法和装置
[0001]本专利技术涉及医疗大数据领域,特别涉及一种医学文本实体标注方法和装置。
技术介绍
[0002]随着智能医疗技术的广泛应用,利用自然语言处理技术识别如电子病例等医学文本的需求逐渐提高。然而用于人工智能模型训练的医学标注文本语料库的缺失,仍然是制约智能医疗技术应用的瓶颈,当前仍然需要用户根据实际场景和需求去标注大量医学文本。医学文本实体标注是对医学文本中的各类实体进行特征标记的过程,是智能医疗的重要技术构成之一。该技术通过明确文本的多维度特征,对文本内容打上具体的元数据标签,以创建大体量的实体标注医学文本数据集。人工标注大量医学文本工作量大、难以实现。因此,需要采用机器自动标注医学文本从而取代人工标注的工作。
[0003]现有的医学文本自动标注方法通常直接采用基于语义、情感等因素的通用文本标注方法,然而通用文本的标注方法没有考虑到医学文本的特殊性,例如:医学文本中的停词或无意义词汇特别少,导致文本中所展示的内容大部分都是需要标注的实体内容,标签密集度高,但标签和标签出现顺序往往有规 ...
【技术保护点】
【技术特征摘要】
1.一种医学文本实体标注方法,其特征在于,所述方法包括:步骤S110,对目标医学文本集合中第一预设数量的医学文本进行实体标注,得到已标注医学文本集合;步骤S120,在所述已标注医学文本集合中,根据每一已标注实体确定所述每一已标注实体对应的中间部分表达式,并根据每一已标注实体的上下文信息确定每一已标注实体对应的前面部分表达式和后面部分表达式;步骤S130,根据每一已标注实体对应的前面部分表达式、中间部分表达式和后面部分表达式中的至少一个,确定每一已标注实体对应的基于正则表达式的实体标注模板;步骤S140,根据所有已标注实体对应的实体标注模板构成的实体标注模板集合,对目标医学文本集合中所述第一预设数量的医学文本以外的医学文本进行实体标注。2.根据权利要求1所述的医学文本实体标注方法,其特征在于,所述根据每一已标注实体确定每一已标注实体对应的中间部分表达式,具体包括:对与所述已标注实体属于同一标签的所有已标注实体进行分词处理,统计得到出现频率大于预设频率值且为非数字的高频字符;对属于所述标签的每一已标注实体,将每一所述高频字符以外的部分表达为相关内容正则表达式;根据每一已标注实体对应的高频字符和相关内容正则表达式,确定每一已标注实体对应的中间部分表达式。3.根据权利要求1所述的医学文本实体标注方法,其特征在于,所述根据每一已标注实体的上下文信息确定每一已标注实体对应的前面部分表达式和后面部分表达式,具体包括:对每一已标注实体,获取用于表征所述已标注实体的上下文信息的前字符串集合和后字符串集合,并对所述前字符串集合和所述后字符串集合中的每一字符串进行分词处理,得到前文分词处理结果和后文分词处理结果;其中,所述前字符串集合和后字符串集合中的字符串由所述已标注实体对应的目标搜索窗口的邻近字符组成;根据与所述已标注实体属于同一标签的所有已标注实体对应的前文分词处理结果和所述后文分词处理结果,分别统计得到出现频率大于预设频率值的前关键词列表和后关键词列表;根据每一已标注实体对应的所述前关键词列表和后关键词列表,确定每一已标注实体对应的前面部分表达式和后面部分表达式。4.根据权利要求3所述的医学文本实体标注方法,其特征在于,所述已标注实体对应的目标搜索窗口通过如下方式确定:根据与所述已标注实体属于同一标签的所有已标注实体对应的实体标注模板,统计所述所有已标注实体的前关键词和后关键词的搜索窗口的大小;在所述属于同一标签的所有已标注实体各自的前关键词和后关键词的搜索窗口大小中,获取所述前关键词和所述后关键词的搜索窗口的最大值,作为所述已标注实体邻近的目标搜索窗口。5.根据权利要求1所述的医学文本实体标注方法,其特征在于,所述根据每一已标注实体的上下文信息确定每一已标注实体对应的前面部分表达式和后面部分表达式,具体包
括:根据与所述已标注实体属于同一标签的所有已标注实体对应的实体标注模板,统计所述所有已标注...
【专利技术属性】
技术研发人员:秦晓宏,华宗楠,
申请(专利权)人:上海柯林布瑞信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。