【技术实现步骤摘要】
基于超声检查报告文本数据的乳腺肿瘤风险性评估系统
本专利技术涉及医疗器械
,特别是涉及一种基于超声检查报告文本数据的乳腺肿瘤风险性评估系统。
技术介绍
随着现代生活节奏的加快,以及预防意识的薄弱,乳腺疾病的发病率呈现了逐年上升的趋势,乳腺癌也成为了女性最常见的癌症。据调查数据显示,中国每年的乳腺癌新发数量和死亡数量分别占全世界的12.2%和9.6%,而且按照当前趋势,至2021年中国乳腺癌患者数量可能将高达250万。如何提高乳腺肿瘤的诊断率,实现医疗资源的最大合理利用化,是医疗行业的一个难题。另外,如今大多数检查报告仍是由自然语言书写而成,海量错综复杂的半结构化,甚至是非结构化的数据挑战着医疗行业。这使得尽管病人的数据充足,但难以从这些数据中获取知识,也使得资源难以合理地分配,给整个医疗行业的发展带来了巨大的压力。就乳腺肿瘤这一疾病而言,其患者的检查信息分散在叙述性医疗文本中,无法直接交由计算机识别分析。所以首要解决的问题就是实现中文文本的结构化。常规的中文文本结构化方法,如依存句法分析(根据检测指标的词性、位置以及前后关系提取指标值)等,仍存在如下问题:1 ...
【技术保护点】
一种基于超声检查报告文本数据的乳腺肿瘤风险性评估系统,其特征在于,包括超声检查文本数据的预处理模块和结构化数据的评估模块;所述超声检查文本数据的预处理模块用于将大量非结构化的文本数据转化为评估算法可识别的结构化数据;所述结构化数据的评估模块根据结构化数据建立肿瘤风险评估模型,得到评估结果。
【技术特征摘要】
1.一种基于超声检查报告文本数据的乳腺肿瘤风险性评估系统,其特征在于,包括超声检查文本数据的预处理模块和结构化数据的评估模块;所述超声检查文本数据的预处理模块用于将大量非结构化的文本数据转化为评估算法可识别的结构化数据;所述结构化数据的评估模块根据结构化数据建立肿瘤风险评估模型,得到评估结果。2.根据权利要求1所述的基于超声检查报告文本数据的乳腺肿瘤风险性评估系统,其特征在于,所述超声检查文本数据的预处理模块包括:外部文件数据清洗子模块,用于从原始数据集中选出少量指标值完整的文本数据作为外部文件,并采用字符串匹配方法进一步规范外部文件数据,修改医学缩写、拼写错误、语法错误问题,以保证外部文件的绝对规范;建立指标库选定指标子模块,根据传统依存句法方法建立检测指标库,从中选择相关检测指标;提取检测指标的相应指标值子模块,基于强化学习,根据外部文件和检测指标参数,提取相应指标值,形成结构化数据。3.根据权利要求2所述的基于超声检查报告文本数据的乳腺肿瘤风险性评估系统,其特征在于,所述建立指标库选定指标子模块采用正则匹配方法将超声检查报告切分为若干条短句,并借助Jieba分词工具对切分后的短句进行分词;对部分短句中的词语进行标注,特征因素的词语标注为“指标”,其余标注为“无关”,形成语料库;基于依存句法分析,自动识别所有短句中的指标,形成指标库,对于无法识别的特殊短句定义特征规则,将其加入语料库;从指标库中选定需要提取指标值的指标。4.根据权利要求2所述的基于超声检查报告文本数据的乳腺肿瘤风险性评估系统,其特征在于,所述提取检测指标的相应指标值子模块基于强化学习...
【专利技术属性】
技术研发人员:潘乔,项岚,高建强,董振兴,高念高,陈德华,孙凯歧,俞春濡,
申请(专利权)人:东华大学,上海众恒信息产业股份有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。