一种基于动态跨度长度约束的中医嵌套命名实体识别方法技术

技术编号:46581200 阅读:1 留言:0更新日期:2025-10-10 21:20
本发明专利技术属于自然语言处理技术领域,具体地说是一种基于动态跨度长度约束的中医嵌套命名实体识别方法。本发明专利技术的方法通过融合字符嵌入、部首嵌入和中医词典匹配词嵌入获得字级嵌入,融合分词嵌入、词性嵌入和依存句法嵌入获得词级嵌入,然后通过掩码字‑词注意力融合字级嵌入和词级嵌入,获得多维特征信息的嵌入表示,提升模型对于中医领域文本和知识的理解能力;通过动态跨度长度约束模块预测最大跨度长度以约束候选跨度的生成,可以减少候选跨度的数量,提高模型识别实体边界的性能和预测效率。本发明专利技术能够有效提高中医命名实体识别的准确度。

【技术实现步骤摘要】

本专利技术属于自然语言处理,具体地说是一种基于动态跨度长度约束的中医嵌套命名实体识别方法


技术介绍

1、中医药知识体系庞大且复杂,涉及大量的医案数据、书籍资料、临床经验等多源异构数据,其复杂性、分散性和非结构化特性给信息的整合和利用带来了极大的挑战。命名实体识别(named entity recognition,ner)任务是从非结构化的文本中提取出具有特定意义的命名实体。中医命名实体识别从中医古籍和医案等数据中自动识别和提取中药、疾病、症状等实体,是构建中医知识库的关键步骤。

2、嵌套命名实体,又称实体重叠,是指在同一文本片段中,一个实体内部包含一个或多个其他实体的情况。例如“瘟疫舌上白苔者,邪在膜原也。”一句中,“邪在膜原”为病因类型实体,其中“膜原”为机体形态类型实体。嵌套命名实体识别中,实体边界存在重叠或交叉,与传统命名实体识别相比,需要识别出多层级的实体结构,增加了识别难度。

3、相较于一般领域的命名实体识别,中医命名实体识别中面临着实体类别复杂、嵌套现象普遍的问题,而且中医领域中存在较多的专业术语,其表达形式多样且边界本文档来自技高网...

【技术保护点】

1.一种基于动态跨度长度约束的中医嵌套命名实体识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于动态跨度长度约束的中医嵌套命名实体识别方法,其特征在于,S1中,字符嵌入的具体获取方法是,定义,其中表示第i个字符,,n表示输入文本中的字符数量,将作为单独的标记(token)输入到大型语言模型(LLM)编码层中获得初始嵌入:

3.根据权利要求2所述的一种基于动态跨度长度约束的中医嵌套命名实体识别方法,其特征在于,S1中,分词嵌入的获取过程中,定义获得的的分词列表为:

4.根据权利要求3所述的一种基于动态跨度长度约束的中医嵌套命名实体识别...

【技术特征摘要】

1.一种基于动态跨度长度约束的中医嵌套命名实体识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于动态跨度长度约束的中医嵌套命名实体识别方法,其特征在于,s1中,字符嵌入的具体获取方法是,定义,其中表示第i个字符,,n表示输入文本中的字符数量,将作为单独的标记(token)输入到大型语言模型(llm)编码层中获得初始嵌入:

3.根据权利要求2所述的一种基于动态跨度长度约束的中医嵌套命名实体识别方法,其特征在于,s1中,分词嵌入的获取过程中,定义获得的的分词列表为:

4.根据权利要求3所述的一种基于动态跨度长度约束的中医嵌套命名实体识别方法,其特征在于,s2的具体方法是:

5...

【专利技术属性】
技术研发人员:张传鹏刘勇国张云李巧勤陆鑫
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1