【技术实现步骤摘要】
用于信息抽取的层级pattern构建的方法及装置
本申请涉及数据处理
,具体而言,涉及一种用于信息抽取的层级pattern构建的方法及装置。
技术介绍
近年来,随着信息技术的高速发展,基于大数据的应用越来越广泛。由于数据表现的丰富性与复杂性,在实际使用中,特别是统计分析中,自由文本难以被直接利用,此时需要对文本进行数据结构化,抽取出关键信息点,整理成格式化条目。这一过程可以看作是信息抽取与结构化。涉及信息抽取的领域很多,比如医学领域中医疗数据的抽取、法律领域中案件信息抽取、互联网传播领域中舆情信息的抽取等等。通常信息抽取有两种主流的方式,一是基于规则抽取,使用词典匹配关键信息,由经验总结正则式匹配;二是基于模型抽取,使用命名实体识别等方法。基于规则的抽取维护成本较高,但简单易懂,可解释性强。基于模型的抽取计算代价大,迭代周期长,缺乏可解释性等。综上,现有信息抽取相关的方式存在各种缺陷,亟需提出一种更有效的信息抽取方式。
技术实现思路
本申请的主要目的在于提供一种用于信息抽取的层级pa ...
【技术保护点】
1.一种用于信息抽取的层级pattern构建的方法,其特征在于,所述方法包括:/n获取带标注信息的样本集合,所述样本集合为自由文本,标注信息为不同层级粒度的标签;/n根据带标注信息的样本集合自动构建不同层级pattern,不同层级粒度对应不同层级pattern。/n
【技术特征摘要】
1.一种用于信息抽取的层级pattern构建的方法,其特征在于,所述方法包括:
获取带标注信息的样本集合,所述样本集合为自由文本,标注信息为不同层级粒度的标签;
根据带标注信息的样本集合自动构建不同层级pattern,不同层级粒度对应不同层级pattern。
2.根据权利要求1所述的用于信息抽取的层级pattern构建的方法,其特征在于,在获取带标注信息的样本集合之前所述方法还包括:
根据样本集合中要抽取的结构化信息,设置不同层级粒度节点以及不同层级粒度节点包含的标签;
根据不同层级粒度节点包含的标签对样本集合中的自由文本进行信息的标注。
3.根据权利要求2所述的用于信息抽取的层级pattern构建的方法,其特征在于,所述根据带标注信息的样本集合自动构建不同层级pattern包括:
将最小层级粒度节点对应的标签所对应的值确定为最小层级粒度pattern;
从最小层级粒度节点之后,每一层级粒度pattern的构建包括:
将当前层级粒度节点的标签对应的值分别与小于当前层级粒度节点的每一层的层级粒度节点对应的节点库进行匹配,所述节点库为每一层粒度节点中所有的标签以及标签对应的值;
将匹配成功的值,用对应的小于当前层级粒度节点对应的标签替换;
将替换后的标签以及未匹配成功的值进行组合确定当前层级粒度pattern。
4.根据权利要求2所述的用于信息抽取的层级pattern构建的方法,其特征在于,所述样本集合为电子病历EMR集合,所述根据样本集合中要抽取的结构化信息,设置不同层级粒度节点以及不同层级粒度节点包含的标签包括:
根据需要抽取的EMR中的结构化信息,设置叶子节点、中间节点、事件节点三个层级的粒度节点;并,
设置每层级粒度节点包含的标签;其中,叶子节点包含病理分型,TNM分期,组织部位中的至少一种标签;中间节点包含病理所见、病理诊断中的至少一种标签,事件节点包含病理事件、放疗事件、化疗事件、CT影像检查事件中的至少一种标签。
5.根据权利要求4所述的用于信息抽取的层级pattern构建的方法,其特征在于,所述根据带标注信息的样本集合自动构建...
【专利技术属性】
技术研发人员:刘辉,
申请(专利权)人:零氪科技北京有限公司,零氪信息技术北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。