【技术实现步骤摘要】
本专利技术属于自然语言处理,具体地说是一种基于动态跨度长度约束的中医嵌套命名实体识别方法。
技术介绍
1、中医药知识体系庞大且复杂,涉及大量的医案数据、书籍资料、临床经验等多源异构数据,其复杂性、分散性和非结构化特性给信息的整合和利用带来了极大的挑战。命名实体识别(named entity recognition,ner)任务是从非结构化的文本中提取出具有特定意义的命名实体。中医命名实体识别从中医古籍和医案等数据中自动识别和提取中药、疾病、症状等实体,是构建中医知识库的关键步骤。
2、嵌套命名实体,又称实体重叠,是指在同一文本片段中,一个实体内部包含一个或多个其他实体的情况。例如“瘟疫舌上白苔者,邪在膜原也。”一句中,“邪在膜原”为病因类型实体,其中“膜原”为机体形态类型实体。嵌套命名实体识别中,实体边界存在重叠或交叉,与传统命名实体识别相比,需要识别出多层级的实体结构,增加了识别难度。
3、相较于一般领域的命名实体识别,中医命名实体识别中面临着实体类别复杂、嵌套现象普遍的问题,而且中医领域中存在较多的专业术语,
...【技术保护点】
1.一种基于动态跨度长度约束的中医嵌套命名实体识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于动态跨度长度约束的中医嵌套命名实体识别方法,其特征在于,S1中,字符嵌入的具体获取方法是,定义,其中表示第i个字符,,n表示输入文本中的字符数量,将作为单独的标记(token)输入到大型语言模型(LLM)编码层中获得初始嵌入:
3.根据权利要求2所述的一种基于动态跨度长度约束的中医嵌套命名实体识别方法,其特征在于,S1中,分词嵌入的获取过程中,定义获得的的分词列表为:
4.根据权利要求3所述的一种基于动态跨度长度约束的
...【技术特征摘要】
1.一种基于动态跨度长度约束的中医嵌套命名实体识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于动态跨度长度约束的中医嵌套命名实体识别方法,其特征在于,s1中,字符嵌入的具体获取方法是,定义,其中表示第i个字符,,n表示输入文本中的字符数量,将作为单独的标记(token)输入到大型语言模型(llm)编码层中获得初始嵌入:
3.根据权利要求2所述的一种基于动态跨度长度约束的中医嵌套命名实体识别方法,其特征在于,s1中,分词嵌入的获取过程中,定义获得的的分词列表为:
4.根据权利要求3所述的一种基于动态跨度长度约束的中医嵌套命名实体识别方法,其特征在于,s2的具体方法是:
5...
【专利技术属性】
技术研发人员:张传鹏,刘勇国,张云,李巧勤,陆鑫,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。