【技术实现步骤摘要】
一种智能识别化学物质命名实体的方法及系统
[0001]本专利技术涉及一种智能识别化学物质命名实体的方法及系统,属于信息处理
。
技术介绍
[0002]化学物质命名实体是指以名称作为标识的化学物质实体,所述名称包括通用名
、
俗名
、
系统命名等,如“氢氧化钠”、“对乙酰氨基酚”、“3
‑
(5
’‑
鸟苷酰氧基
)
苯甲酸”等,通常是论文和专利等文献中的实验试剂
、
原料
、
配方
、
反应产物
、
药物等研究对象
。
如何从论文
、
专利等专业文献资料文本中高效
、
准确识别出以名称作为标识的化学物质命名实体,将是化学大数据生产和分析的重要环节,也是实现化学人工智能技术的重要基础
。
[0003]虽然申请号为
CN202111239187.7
的中国专利申请中,公开了一种从文本中提取化合 ...
【技术保护点】
【技术特征摘要】
1.
一种智能识别化学物质命名实体的方法,其特征在于,所述方法包括如下步骤:
S1)
对输入文本进行分句处理;
S2)
对经分句处理所得的各语句分别进行字符序号和字符属性标记;
S3)
进一步识别和标记能构成化学物质名称的字符;
S4)
识别能构成化学物质名称的化学物质中文名词;
S5)
根据预设的化学物质名称构词规则,使步骤
S4)
识别的化学物质中文名词扩展为化学物质名称词;
S6)
由经步骤
S5)
扩展处理后的化学物质名称词及余下的化学物质中文名词中筛选出化学物质命名实体,然后汇总输出
。2.
根据权利要求1所述的方法,其特征在于:步骤
S2)
中,所述的字符属性按数字字符
、
英文字母字符
、
希腊字母字符
、
符号字符
、
中文字字符或其他字符进行编码标记
。3.
根据权利要求1所述的方法,其特征在于,步骤
S3)
包括如下具体步骤:
S31)
根据预设的化学物质名称符号字符集,将字符属性为符号的字符进一步标记为化学物质名称符号字符和其他符号字符;
S32)
根据预设的化学物质名称中文字字符集,将字符属性为中文字的字符进一步标记为化学物质名称中文字字符和其他中文字字符
。4.
根据权利要求1所述的方法,其特征在于,步骤
S4)
包括如下具体步骤:
S41)
将字符序号相连续的多个化学物质名称中文字字符依序合并,组成化学物质中文名词;以及,将序号不连续的单个化学物质名称中文字字符也识别为化学物质中文名词;
S42)
根据预设的化学物质名称噪声词集,对步骤
S41)
所识别的化学物质中文名词进行噪声词标记和舍去处理
。5.
根据权利要求1所述的方法,其特征...
【专利技术属性】
技术研发人员:徐挺军,陈维明,李英勇,戴静芳,周俊红,赵英莉,
申请(专利权)人:中国科学院上海有机化学研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。