一种用于不孕不育症临床表型信息的自然语言处理方法及系统技术方案

技术编号：28373921 阅读：24 留言：0更新日期：2021-05-08 00:01

本发明专利技术提出一种用于不孕不育症临床表型信息的自然语言处理方法及系统，通过自然语言预处理、标点符号拆分、字段拆分法将中文临床表型原始字符串转换为中文和英文临床表型初始字符串、独立字符串和拆分字符串；基于预先建立的中文和英文本体词典，对临床表型初始字符串、独立字符串和拆分字符串进行精确匹配和模糊匹配，经过加权法则，最终输出与中文和英文本体词典匹配的一个或者多个本体。其中，模糊匹配旨在通过语义近似度来计算。本发明专利技术同时还提供了自然语言处理系统及介质，包括读取、转换、拆分、匹配和输出模块。本发明专利技术解决了中文临床表型信息和本体词典快速匹配的难题，为不孕不育症等疾病的全外显子测序分析带来了便利。

全部详细技术资料下载

【技术实现步骤摘要】
一种用于不孕不育症临床表型信息的自然语言处理方法及系统
本专利技术属于临床表型信息计算机处理领域，尤其是一种用于不孕不育症临床表型信息的自然语言处理方法及系统。
技术介绍
我国现有不孕不育患者超过4000万，已成为肿瘤和心血管病之外的第三大疾病。随着社会压力的骤增，空气和食品污染的加重，不孕不育发病率从20年前的3.5％到已经上升为2016年的12.5％，有些地区已经超过15％，意味着每8对夫妻中就有一对患有不孕不育。根据研究表明，除了物理、化学、微生物等环境因子，个体自身的遗传因素也对不孕不育的发生有重要和深远的影响。随着高通量测序技术在临床的广泛应用，以及遗传变异解读指南和数据库的完善，更加微观尺度的基因单碱基变异(SNV)、短插入缺失(InDel)和拷贝数变异(CNV)，性染色体数量异常和Y染色体微缺失，对不孕不育的临床意义开始被逐渐发现和重视。遗传检测可明确诊断病因，使临床可以针对病因提出更加有效的治疗方式，避免尝试性和过度治疗。同时，明确的致病基因变异可通过胚胎植入前单基因遗传疾病诊断进行遗传阻断，...

【技术保护点】
1.一种用于不孕不育症临床表型信息的自然语言处理方法，其特征在于：/n步骤1：读取中文临床表型字符串或者中文临床表型相关文档，存储为中文临床表型原始字符串；/n步骤2：对所述中文临床表型原始字符串进行自然语言预处理，生成预处理后的中文临床表型初始字符串和英文临床表型初始字符串；/n步骤3：若中文临床表型初始字符串中含有标点符号，则对预处理后的中文临床表型初始字符串根据标点符号进行拆分，得到对应标点符号间的中文独立字符串；若不含有标点符号，则直接输出为中文独立字符串；/n若英文临床表型初始字符串中含有标点符号，则对预处理后的英文临床表型初始字符串根据标点符号进行拆分，得到对应标点符号间的英文独立...

【技术特征摘要】
1.一种用于不孕不育症临床表型信息的自然语言处理方法，其特征在于：
步骤1：读取中文临床表型字符串或者中文临床表型相关文档，存储为中文临床表型原始字符串；
步骤2：对所述中文临床表型原始字符串进行自然语言预处理，生成预处理后的中文临床表型初始字符串和英文临床表型初始字符串；
步骤3：若中文临床表型初始字符串中含有标点符号，则对预处理后的中文临床表型初始字符串根据标点符号进行拆分，得到对应标点符号间的中文独立字符串；若不含有标点符号，则直接输出为中文独立字符串；
若英文临床表型初始字符串中含有标点符号，则对预处理后的英文临床表型初始字符串根据标点符号进行拆分，得到对应标点符号间的英文独立字符串；若不含有标点符号，则直接输出为英文独立字符串；
步骤4：基于中文本体词典，寻找与中文独立字符串精确匹配的中文本体词典中的本体，输出与中文本体词典精确匹配的中文独立字符串，若无匹配，则直接转步骤5；
基于英文本体词典，寻找与英文独立字符串精确匹配的英文本体词典中的本体，输出与英文本体词典精确匹配的英文独立字符串，若无匹配，则直接转步骤5；
步骤5：对中文独立字符串，通过拆分法对其拆分得到中文拆分字符串；
对英文独立字符串，通过拆分法对其拆分得到英文拆分字符串；
步骤6：基于中文本体词典，寻找与中文拆分字符串分别匹配的中文本体词典中的本体，输出与中文本体词典精确匹配的中文拆分字符串，对无精确匹配的中文拆分字符串直接转步骤7；
基于英文本体词典，寻找与英文拆分字符串匹配的英文本体词典中的本体，输出与英文本体词典精确匹配的英文拆分字符串，对无精确匹配的英文拆分字符串直接转步骤7；
步骤7：计算该无精确匹配的中文拆分字符串对应的中文独立字符串与中文本体词典每个本体的语义近似度，根据语义近似度输出与该无精确匹配的中文拆分字符串对应的中文独立字符串最大匹配的中文本体词典的一个或多个本体，语意近似度越接近零则对应的中文独立字符串与中文本体词典的本体越匹配；
计算该无精确匹配的英文拆分字符串对应的英文独立字符串与英文本体词典每个本体的语义近似度，根据语义近似度输出与该无精确匹配的英文拆分字符串对应的英文独立字符串最大匹配的英文本体词典的一个或多个本体，语意近似度越接近零则对应的英文独立字符串与英文本体词典的本体越匹配；
步骤8：通过加权法则，对步骤4输出的与中文本体词典精确匹配的中文独立字符串、与英文本体词典精确匹配的英文独立字符串、以及步骤6输出的与中文本体词典精确匹配的中文拆分字符串、与英文本体精确匹配的英文拆分字符串、以及步骤7输出的与中文拆分字符串对应的中文独立字符串最大匹配的中文本体词典的一个或多个本体、与英文拆分字符串对应的英文独立字符串最大匹配的英文本体词典的一个或多个本体进行加权计算，得到最终和中文独立字符串以及英文独立字符串最大匹配的一个或多个本体，并按照其权值大小由大到小依次输出。

2.根据权利要求1所述的用于不孕不育症临床表型信息的自然语言处理方法，其特征在于，步骤2中的自然语言预处理包括中文自然语言预处理和英文自然语言预处理，其中：
中文自然语言预处理包括：统一中文临床表型原始字符串编码格式，半角符号和全角符号之间的转换，阿拉伯数字与中文大写数字之间的转换，无意义术语的剔除，不规整临床描述的中文标准化，缩略语和标准化中文全称之间的转换，英文名称和中文名称之间的转换，大小写字母之间的转换，其中，无意义术语由预先建立的中文非临床术语词典提供，不规整临床描述、缩略语和对应标准化中文描述、英文名称和对应的中文名称由预先建立的中文临床表型标准术语词典提供；
英文自然语言预处理包括：统一中文临床表型原始字符串编码格式，半角符号和全角符号之间的转换，阿拉伯数字与英文数字之间的转换，无意义术语的剔除，不规整临床描述的英文标准化，缩略语和标准化英文全称之间的转换，大小写字母之间的转换，中文临床表型信息到英文临床表型信息的翻译，其中，无意义术语由预先建立的中文非临床术语词典提供，不规整临床描述、缩略语和对应标准化英文描述由预先建立的英文临床表型标准术语词典提供。

3.根据权利要求1所述的用于不孕不育症临床表型信息的自然语言处理方法，其特征在于，步骤3中根据标点符号进行拆分的规则为：
根据全角符号和半角符号，将所述预处理后的中文临床表型初始字符串拆分为对应标点符号间的中文独立字符串、或者将所述预处理后的英文临床表型初始字符串拆分为对应标点符号间的英文独立字符串，所述独立字符串指具有独立语义的字符串。

4.根据权利要求1所述的用于不孕不育症临床表型信息的自然语言处理方法，其特征在于，步骤4中的本体词典包括中文本体词典和英文本体词典，其中：
中文本体词典包括表型异常本体、遗传模式本体、临床修饰本体、临床发展过程本体和频率本体，每个本体包括本体名称、本体描述词、本体同义词或别称、本体缩略语、本体跨库对应的其他本体词典、以及所述所有内容的总体描述，其中本体跨库对应的其他本体词典包括国际临床医学标准术语、人类疾病本体、组合表型本体、人类皮肤病本体、传染病本体、致病性疾病本体、哺乳动物表型本体等，所述中文本体词典使用的语言为中文；
英文本体字典包括表型异常本体、遗传模式本体、临床修饰本体、临床发展过程本体和频率本体，每个本体包括本体名称、本体描述词、本体同义词或别称、本体缩略语、本体跨库对应的其他本体词典、以及所述所有内容的总体描述，其中本体跨库对应的其他本体词典包括国际临床医学标准术语、人类疾病本体、组合表型本体、人类皮肤病本体、传染病本体、致病性疾病本体、哺乳动物表型本体等，所述英文本体词典使用的语言为英文。

5.根据权利要求1所述的用于不孕不育症临床表型信息的自然语言处理方法，其特征在于，步骤5中，中文独立字符串的中文拆分法包括最大匹配分词、通过搜索引擎构建倒排索引分词；
英文独立字符串的英文拆分法包括N元模型拆分法则、词形还原、词干提取，所述N元模型为1到30任意长度。

6.根据权利要求1所述的用于不孕不育症临床表型信息的自然语言处理方法，其特征在于，步骤7中，计算语义近似度包括以下步骤：
计算TF-IDF矩阵，TF-IDF表示术语频率-逆文档频率，TF-IDF矩阵表示中文拆分字符串与中文本体词典各本体的匹配频率、或英文拆分字符串与英文本体词典各本体的匹配频率；
利用矩阵奇异值分解SVD对...

【专利技术属性】
技术研发人员：张晶，罗俊峰，
申请(专利权)人：阅尔基因技术苏州有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人