用于对关于骨科的文本分类的方法、电子设备和存储介质技术

技术编号:34411090 阅读:59 留言:0更新日期:2022-08-03 22:03
本公开的实施例涉及用于对关于骨科的文本分类的方法、电子设备和存储介质。在该方法中,提取关于骨科的文本中的多个语句中的每个语句的关键信息;从所提取的关键信息中识别骨科词元素,以便形成骨科词元素集合;基于预定的组合模式,将骨科词元素集合中的多个骨科词元素进行组合,以形成备选标签集合;将备选标签集合中的每一备选标签与预定骨科知识图谱中的骨科实体数据相匹配,以便基于匹配结果确定目标标签;将关于骨科的文本对应的类别确定为手术类别;以及将关于骨科的文本对应的类别确定为疾病类别。其可以显著提高标签标注的效率,并极大提高标签标注的准确性。并极大提高标签标注的准确性。并极大提高标签标注的准确性。

【技术实现步骤摘要】
用于对关于骨科的文本分类的方法、电子设备和存储介质


[0001]本公开的实施例总体涉及从文本中提取骨科标签领域,并且更具体地涉及一种用于对关于骨科的文本分类的方法、电子设备和存储介质。

技术介绍

[0002]对医疗相关文本进行分类具有重要意义。以骨科领域相关文本分类为例,通常需要人工标注标签,涉及的工作量大,效率很低。而且,人工标注标签时,因为标注人员的疏忽,或者不同标注人员之间彼此标准不统一的原因,会降低标注标签的准确性,进而影响对文本进行准确分类。
[0003]综上,目前,对骨科领域相关文本进行分类,往往需要人工标注标签,其效率较低,并且准确性较低。

技术实现思路

[0004]针对上述问题,本公开提供了一种用于对关于骨科的文本分类的方法、电子设备和存储介质,能够显著提高标签标注的效率,并极大提高标签标注的准确性。
[0005]根据本公开的第一方面,提供一种用于对关于骨科的文本分类的方法。该用于对关于骨科的文本分类的方法包括:提取关于骨科的文本中的多个语句中的每个语句的关键信息;从所提取的关键信息中识别骨科词元素,以便形成骨科词元素集合,骨科词元素与解剖部位、病理学改变、根手术、产品品类和限定词中的至少一项相关联;基于预定的组合模式,将骨科词元素集合中的多个骨科词元素进行组合,以形成备选标签集合,备选标签集合包括多个备选标签,预定组合模式包括与手术相关的第一组合模式和与疾病相关第二组合模式;将备选标签集合中的每一备选标签与预定骨科知识图谱中的骨科实体数据相匹配,以便基于匹配结果确定目标标签,骨科实体数据至少包括:手术相关实体数据和疾病相关实体数据;响应于确定目标标签对应的组合模式为第一组合模式,将关于骨科的文本对应的类别确定为手术类别;以及响应于确定目标标签对应的组合模式为第二组合模式,将关于骨科的文本对应的类别确定为疾病类别。
[0006]在一些实施例中,第一组合模式包括:将与解剖部位相关联的骨科词元素和一个与根手术相关联的骨科词元素组合以形成备选标签;或者将与解剖部位相关联的骨科词元素和一个与根手术相关联的骨科词元素、以及与限定词相关联的骨科词元素、与产品品类相关联的骨科词元素、与限定词相关联的骨科词元素和与病理学改变相关联的骨科词元素中的至少一个组合,以形成备选标签;以及第二组合模式包括:将一个与解剖部位相关联的骨科词元素和一个与病理学改变相关联的骨科词元素组合以形成备选标签。
[0007]在一些实施例中,提取关于骨科的文本中的多个语句中的每个语句的关键信息包括:对每个语句进行切词处理以得到初始词元素集合,初始词元素集合包括多个初始词元素;基于多个初始词元素和预定骨科词库,经由双向匹配算法,得到多个目标词元素;根据目标词元素的词性,确定多个目标词元素之间的语义依赖关系;以及根据多个目标词元素
之间的语义依赖关系提取语句的关键信息,关键信息包括语句中的主语、谓语和宾语中的至少一项。
[0008]在一些实施例中,该用于对关于骨科的文本分类的方法还包括:以骨科实体数据作为节点、以骨科关系数据作为边构建骨科知识图谱,骨科实体数据包括手术名称、疾病名称,骨科关系数据包括解剖部位名称、治疗方法名称和病理学改变名称;以及查询骨科知识图谱以确定与目标标签对应的目标节点;以及输出与目标节点对应的解剖部位名称、治疗方法名称和病理学改变名称中的至少一项。
[0009]在一些实施例中,提取关于骨科的文本中的多个语句中的每个语句的关键信息包括:识别关于骨科的文本中的多个段落;识别每一个段落对应的主题信息;确定每一个段落对应的主题信息是否属于感兴趣的主题信息,感兴趣的主题信息包括以下至少一项:体检信息、诊疗信息、住院信息、病情信息、注意事项、手术操作信息;以及响应于确定段落对应的主题信息属于感兴趣的主题信息,提取段落中的多个语句中的每个语句的关键信息。
[0010]在一些实施例中,识别每一个段落对应的主题信息包括:基于识别模型识别每一个段落对应的主题信息,识别模型经由预定骨科文本库训练,预定骨科文本库指示分别与体检信息、诊疗信息、住院信息、病情信息、注意事项和手术操作信息中的至少一项相关联的标签,识别模型基于VDCNN(超深卷积神经网络)模型和LSTM(长短期记忆网络)模型所构建。
[0011]在一些实施例中,基于预定的组合模式,将骨科词元素集合中的多个骨科词元素进行组合,以形成备选标签集合包括:将骨科词元素集合中的多个骨科词元素进行去重操作;将经由去重操作的骨科词元素进行组合以形成备选标签集合。
[0012]在一些实施例中,关于骨科的文本包括以下至少一项:骨科病例文本、骨科知识文章、基于对骨科实操视频识别得到的文本。
[0013]根据本公开的第二方面,提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开的第一方面的方法。
[0014]根据本公开的第三方面,提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被机器执行时实现本公开的第一方面的方法。
[0015]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0016]结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标注表示相同或相似的元素。
[0017]图1示出了用于实现根据本公开的实施例的用于对关于骨科的文本分类的方法的计算设备的示意图。
[0018]图2示出了本公开的实施例的用于对关于骨科的文本分类的方法的流程图。
[0019]图3示出了本公开的实施例的提取关键信息的方法的流程图。
[0020]图4示出了本公开的实施例的提取关键信息的方法的流程图。
[0021]图5示出了本公开的实施例的用于输出与目标节点对应名称的方法的流程图。
[0022]图6示出了可以用来实施本公开内容的实施例的用于对关于骨科的文本分类的方法的示例电子设备的示意性框图。
具体实施方式
[0023]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0024]在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于对关于骨科的文本分类的方法,包括:提取关于骨科的文本中的多个语句中的每个语句的关键信息;从所提取的关键信息中识别骨科词元素,以便形成骨科词元素集合,所述骨科词元素与解剖部位、病理学改变、根手术、产品品类和限定词中的至少一项相关联;基于预定的组合模式,将骨科词元素集合中的多个骨科词元素进行组合,以形成备选标签集合,所述备选标签集合包括多个备选标签,预定组合模式包括与手术相关的第一组合模式和与疾病相关第二组合模式;将备选标签集合中的每一备选标签与预定骨科知识图谱中的骨科实体数据相匹配,以便基于匹配结果确定目标标签,骨科实体数据至少包括:手术相关实体数据和疾病相关实体数据;响应于确定目标标签对应的组合模式为第一组合模式,将关于骨科的文本对应的类别确定为手术类别;以及响应于确定目标标签对应的组合模式为第二组合模式,将关于骨科的文本对应的类别确定为疾病类别。2.根据权利要求1所述的方法,其中第一组合模式包括:将与解剖部位相关联的骨科词元素和一个与根手术相关联的骨科词元素组合以形成备选标签;或者将与解剖部位相关联的骨科词元素和一个与根手术相关联的骨科词元素、以及与限定词相关联的骨科词元素、与产品品类相关联的骨科词元素、与限定词相关联的骨科词元素和与病理学改变相关联的骨科词元素中的至少一个组合,以形成备选标签;以及第二组合模式包括:将一个与解剖部位相关联的骨科词元素和一个与病理学改变相关联的骨科词元素组合以形成备选标签。3.根据权利要求1所述的方法,其中提取关于骨科的文本中的多个语句中的每个语句的关键信息包括:对每个语句进行切词处理以得到初始词元素集合,所述初始词元素集合包括多个初始词元素;基于多个初始词元素和预定骨科词库,经由双向匹配算法,得到多个目标词元素;根据目标词元素的词性,确定多个目标词元素之间的语义依赖关系;以及根据多个目标词元素之间的语义依赖关系提取语句的关键信息,所述关键信息包括语句中的主语、谓语和宾语中的至少一项。4.根据权利要求1所述的方法,还包括:以骨科实体数据作为节点、以骨科关...

【专利技术属性】
技术研发人员:邹金勇沈忠美
申请(专利权)人:北京欧应科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1