【技术实现步骤摘要】
胶囊内窥镜检查报告标注方法、设备及介质
本专利技术涉及医疗器械领域,尤其涉及一种胶囊内窥镜检查报告标注方法、设备及介质。
技术介绍
胶囊内窥镜是一种医疗设备,胶囊内窥镜将摄像头、无线传输天线等核心器件集成于一个可被人体吞咽的胶囊内,在进行检查过程中,将胶囊内窥镜吞入体内,内窥镜在体内采集消化道图像并同步传送到体外,以根据获得的图像数据进行医疗检查。胶囊内窥镜检查完成以后,会生成一个检查报告,包含检查所见、诊断结果,以及建议等;由于每个医生的习惯不同,书写方式不同,导致每一份检查报告都有所不同;另外,消化道医生少,医生工作量大,可能存在漏写以及错写等;为了便于后续查阅及分析,通常需要将检查报告进行整理标注,以将检查报告形成结构化的数据。现有技术中,通常采用人工标注的方式整理检查报告,浪费人力,增加标注成本。
技术实现思路
为解决上述技术问题,本专利技术的目的在于提供一种胶囊内窥镜检查报告标注方法、设备及介质。为了实现上述专利技术目的之一,本专利技术一实施方式提供一种胶囊内窥镜 ...
【技术保护点】
1.一种胶囊内窥镜检查报告标注方法,其特征在于,所述方法包括:/nS1、收集p份报告样本以建立初始的语料数据库,p份报告样本中任一均包括:原始文本以及标注信息;所述标注信息为对应原始文本中每一名词的命名类别;/nS2、解析初始语料数据库中的报告样本,建立命名体识别词典和模式规则数据库,并去除命名体识别词典和模式规则数据库中的重复文本;/n所述命名体识别词典包括:报告样本中命名类别及每一命名类别对应的名词;所述模式规则数据库包括报告样本中未能识别的文本及未能识别的文本对应的规则、规律、特征;/nS3、自收集第q份报告样本时起,q=p+1,以报告样本中出现的文本查询匹配命名体识 ...
【技术特征摘要】
1.一种胶囊内窥镜检查报告标注方法,其特征在于,所述方法包括:
S1、收集p份报告样本以建立初始的语料数据库,p份报告样本中任一均包括:原始文本以及标注信息;所述标注信息为对应原始文本中每一名词的命名类别;
S2、解析初始语料数据库中的报告样本,建立命名体识别词典和模式规则数据库,并去除命名体识别词典和模式规则数据库中的重复文本;
所述命名体识别词典包括:报告样本中命名类别及每一命名类别对应的名词;所述模式规则数据库包括报告样本中未能识别的文本及未能识别的文本对应的规则、规律、特征;
S3、自收集第q份报告样本时起,q=p+1,以报告样本中出现的文本查询匹配命名体识别词典和模式规则数据库,以对当前报告样本进行自动标注。
2.根据权利要求1所述的胶囊内窥镜检查报告标注方法,其特征在于,步骤S3后,所述方法还包括:
S4、审核自动标注的报告样本,若自动标注的报告样本存在错误,则修订错误,并将修订后的报告样本转入初始的语料数据库,并重新迭代更新命名体识别词典和模式规则数据库;若自动标注的报告样本未存在错误,则标识当前报告样本标注完成。
3.根据权利要求1所述的胶囊内窥镜检查报告标注方法,其特征在于,步骤S2具体包括:
通过标点符号断句将每一报告样本分割为多个短句,并将首次获得的短句进行保存形成语句数据库。
4.根据权利要求3所述的胶囊内窥镜检查报告标注方法,其特征在于,步骤S2在建立语句数据库过程中,所述方法还包括:
解析获取的每一短句,并判断当前短句是否已经存在于所述语句数据库,若是,略过对当前短句进行处理,若否,将当前短句添加至语句数据库;
解析语句数据库,建立命名体识别词典和模式规则数据库,并去除命名体识别词典和模式规则数据库中的重复文本。
5.根据权利要求1所述的胶囊内窥镜检查报告标注方法,其特征在于,步骤S2还包括:
根据命名体识别词典建立前缀词典,所述前缀词典存储对应于命名体识别词典中每一名词的名词组;
命名体识别词典由{d1,……,di,……,dn}构成时,前缀词典中的任一名词组表示为:{di_1,……,di_j,……,di_Li};
其中,n表示命名体识别词典中名词的总数量,di表示命名体识别词典中的第i个名词,i∈1,2……n,第i个名词包括顺序排列的Li个字,di_j表示名词di中第1个字到第j个字顺序排列构成的词语,j∈1,2……Li;
遍历前缀词典,对相同的词语仅保留一份;
步骤S3具体包括:自收集第q份报告样本时起,以报告样本中出现的文本查询匹配...
【专利技术属性】
技术研发人员:袁文金,黄志威,张皓,张行,
申请(专利权)人:安翰科技武汉股份有限公司,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。