【技术实现步骤摘要】
面向多结构化数据的中医知识标注方法及系统
[0001]本专利技术涉及中医
,特别是涉及一种面向多结构化数据的中医知识标注方法及系统。
技术介绍
[0002]首先,目前已有的标注系统Brat,Webanno等没有针对多种结构的文本数据进行分类设计标注。由于存在多种结构的文本知识数据源,本专利技术支持多种结构数据类型的标注任务。针对不同结构的数据源进行分类管理以及设计拥有针对其结构的不同标注流程,这样做可以节约对文本数据的预处理时间,提高工作效率。
[0003]其次,现有的标注工具缺少多人友好标注的交互性。在一个多用户共同进行标注的过程中,能够协同交互进行讨论可以使标注的中医知识达成认知统一,从而提升标注质量。在本专利技术中实现了多人协同工作时的友好交互性,通过对中医复杂知识进行讨论,设计独有的guidelines定义,并在标注训练中不断完善,方便后续正式标注时,工作人员能过更加深刻理解中医复杂知识,使得没有医学背景的工作人员都可以众包完成标注工作。
[0004]最后,现有的标注工具的标注工作没有标注质量的 ...
【技术保护点】
【技术特征摘要】
1.一种面向多结构化数据的中医知识标注方法,其特征在于,所述方法包括:根据文本数据类型的不同分为结构化数据、非结构化数据和半结构化数据;所述结构化数据是指能够使用关系型数据库表示和存储以及能够用二维表来逻辑表达实现的中医数据,所述非结构化数据是指一句或一段的中医医案文本信息;所述半结构化数据为自描述的结构,介于完全结构化数据和完全非结构化数据之间;当所述文本数据是结构化数据时,利用RDF框架进行文本数据的描述,直接抽取表格中所要标注的表字段以及进行字段之间关系定义的连接;当所述文本数据是非结构化数据或半结构化数据时,确定标注规范文本,所述标注规范文本通过参考选取抽象的有概括意义的正向或反向的标注例子来控制标注质量,基于所述标注规范文本,随机抽取n条文本数据由不同的用户进行标注,计算两两用户标注后的文本数据的一致性,当一致性的数值达到预设的阈值时,更新标注规范文本,当一致性的数值未达到预设的阈值,多用户进行讨论后,形成标注一致的文本数据,并更新标注规范文本,基于更新后的标注规范文本对所有的文本数据进行标注。2.根据权利要求1所述的面向多结构化数据的中医知识标注方法,其特征在于,所述一致性是指多个用户标注结果达成一致性的程度,通过如下公式计算:其中,k为一致性,p0是两个用户之间的标注一致性,p
e
是一个用户为另一用户随机选择一个实体类别进行标注之后的标注一致性。3.根据权利要求1所述的面向多结构化数据的中医知识标注方法,其特征在于,所述半结构化数据包括:HTML文档、JSON、XML和NoSQL数据库中的一种及其组合。4.根据权利要求1所述的面向多结构化数据的中医知识标注方法,其特征在于,所述预设的阈值为0.9。5.一种面向多结构化数据的中医知识标注系统,其特征在于,所述系统包括:数据划分模块,其被配置为根据文本数据类型的不同分为结构化数据、非结构化数据和半结构化数据;所述结构化数据是指能够使用关系型数据库表...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。