一种医学术语词库词性标注方法技术

技术编号:14000020 阅读:54 留言:0更新日期:2016-11-15 14:11
本发明专利技术公开了一种医学术语词库词性标注方法,包括以下步骤:S1、收集待标注词条:通过人工或算法收集待标注的词语,将这些词语保存到数据库或一个文件;S2、合成词性标注验证码图像:将收集的每个词条均转换为图像,并加入随机干扰线,形成验证码图像;S3、建立词性标注验证码数据库:以全球唯一识别号为主键,将每个词条与验证码图像对应起来,存入数据库;S4、验证码获取请求配发;S5、验证码校验请求响应;S6、词性标注结果确认;该方法将医学术语词性的标注工作分散到互联网验证码中,大大降低了医学术语词库建设的人工成本,使词库词汇量的扩充成为一个可持续的工作。

【技术实现步骤摘要】

本专利技术涉及一种自然语言词库的建立方法,尤其涉及一种医学术语词库词性标注方法
技术介绍
自然语言处理(NLP,Natural Language Process)是计算机科学领域与人工智能领域中的一个重要方向,相关研究的目的是实现人与计算机之间用自然语言进行有效通信。计算机理解自然语言的第一步是分词。只有确定如何将句子断为词语(Term),才能确定词语间的修饰关系,进而“理解”句子要表达的意思。因此,词库是建立自然语言处理的基石。在医学相关文本(例如电子病历、医学书籍)的计算机数据挖掘处理中,需要涉及医学术语的词性标注。例如:发热、咳嗽、头痛描述的是疾病的症状;肩周炎、骨质疏松描述的是疾病名称;磁共振、病理切片描述的是检查项目;鼻窦,颅底描述的是解剖部位。这就需要对医学词汇进行词性标注,使词汇与词性类别一一对应。传统的词性标注往往由一个团队手工完成,过程枯燥费时。后续如果要增加词汇量,只能重复这一过程。
技术实现思路
为解决
技术介绍
中存在的技术问题,本专利技术提出一种便捷、准确的建立医学术语词库的方法,该方法将医学术语词性的标注工作分散到互联网验证码中,大大降低了医学术语词库建设的人工成本,使词库词汇量的扩充成为一个可持续的工作。为此,本专利技术提供了一种医学术语词库词性标注方法,包括以下步骤:S1、收集待标注词条:通过人工或算法收集待标注的词语,将这些词语保存到数据库或一个文件;S2、合成词性标注验证码图像:将收集的每个词条均转换为图像,并加入随机干扰线,形成验证码图像;S3、建立词性标注验证码数据库:以全球唯一识别号为主键,将每个词条与验证码图像对应起来,存入数据库;S4、验证码获取请求配发:开放词性标注验证码图像数据库访问接口,为有验证码需求的网站页面免费提供验证码,需求方发送验证码获取请求后,本地系统将随机从数据库抽取一幅图像,图像名与UUID相同,并返回至需求方,需求方在验证码输入页面配置若干个词性标注框,以便用户在指定词性的标注框内输入验证码图像中的肉眼识别内容;S5、验证码校验请求响应:远端网页用户输入验证内容并提交后,网页后台将用户输入内容、用户词性标注结果、验证图像UUID一并以特定格式封装,发送至本地系统,本地系统根据词性标注验证码数据库比对UUID与用户输入内容的一致性,并刷新用户对该词的词性标注结果及词性标注次数;S6、词性标注结果确认:当某个词条被用户标注的次数达到一定阈值后,选取概率最高的用户标注结果作为该词条对应的词性,同时,系统会删除该词条,不再对该词条进行标注。本专利技术提出的一种便捷、准确的建立医学术语词库的方法,该方法将医学术语词性的标注工作分散到互联网验证码中,大大降低了医学术语词库建设的人工成本,使词库词汇量的扩充成为一个可持续的工作,将医学术语词性的标注工作分散到互联网验证码中,大大降低了医学术语词库建设的人工成本,使词库词汇量的扩充成为一个可持续的工作。附图说明图1为词条收集过程流程图;图2为词条标注过程流程图;图3为本地数据库表结构示例图;图4为词性标注验证码图像数据库建立流程图;图5为词性标注验证码图像分发与检验流程图;图6为用户注册页面下利用验证码进行词性标注的页面示例图。具体实施方式下面,通过具体实施例对本专利技术的技术方案进行详细说明。实施例:参照图1至图6,本专利技术提出了一种便捷、准确的建立医学术语词库的方法,分别从词性标注验证码图像数据库的建立及应用两方面进行说明。词性标注验证码图像数据库的建立过程如下:1)收集待标注词条通过人工或算法收集待标注的词语,将这些词语保存到数据库或一个文件,形成一个待标注词条的数据集。过程参考图1.2)合成词性标注验证码图像从数据库或文件中逐条读取待标注词条,将其转换为验证码图像。转换过程参考图4.其中,需要在程序中新建画板,将词条中的字逐字进行如下处理:a)旋转任意角度;b)绘制在画板上;c)添加干扰线。3)建立词性标注验证码数据库将词条及对应的验证码图像存储到数据库,并以全球唯一识别号(Universally Unique Identifier,UUID)为主键。数据库表结构设计可参考图3及图中注释。词性标注验证码图像数据库的应用词性标注的过程实际上是本地系统和远程web应用的交互过程,过程参考图2.为了更详细的表述词性标注的过程,可将词性标注验证码图像的应用分为三大步骤(系统流程示意图见图5):1)获取词性标注图像验证码获取验证码的流程由用户端发起,某网站在需要验证码图像的网站页面(例如:网页注册页面。页面设计可参考图6)添加词性标注验证码图像数据库访问接口。网站用户刷新页面时,网页会向系统发送验证码获取请求,本地系统将随机从数据库抽取一幅图像(图像名与UUID相同)并返回至需求方。需求方在验证码输入页面配置若干个词性标注框,以便用户在指定词性的标注框内输入验证码图像中的肉眼识别内容。2)校验词性标注图像验证码远端网页用户输入验证内容并提交后,网页后台将用户输入内容、用户词性标注结果(在哪个文本框输入的验证内容)、验证图像UUID一并以指定格式封装,发送至本地系统,本地系统根据词性标注验证码数据库比对UUID与用户输入内容的一致性,并刷新用户对该词的词性标注结果及词性标注次数。3)确认词性标注结果当用户对某个词条的标注次数没有达到指定阈值时,本地系统将刷新数据库中用户对该词的词性标注结果及词性标注次数记录;一旦某个词条被用户标注的次数达到一定阈值,系统将选取概率最高的用户标注结果作为该词条对应的词性,同时,系统会从词性标注验证码数据库中删除该词条,不再对该词条进行标注。传统的词性标注往往由一个团队手工完成,过程枯燥费时,后续如果要增加词汇量,只能重复这一过程。本专利技术将医学术语词性的标注工作分散到互联网验证码中,大大降低了医学术语词库建设的人工成本,使词库词汇量的扩充成为一个可持续的工作。以上所述,仅为本专利技术较佳的具体实施方式,但本专利技术的保护范围并不局限于此,任何熟悉本
的技术人员在本专利技术揭露的技术范围内,根据本专利技术的技术方案及其专利技术构思加以等同替换或改变,都应涵盖在本专利技术的保护范围之内。本文档来自技高网
...
一种医学术语词库词性标注方法

【技术保护点】
一种医学术语词库词性标注方法,其特征在于,包括以下步骤:S1、收集待标注词条:通过人工或算法收集待标注的词语,将这些词语保存到数据库或一个文件;S2、合成词性标注验证码图像:将收集的每个词条均转换为图像,并加入随机干扰线,形成验证码图像;S3、建立词性标注验证码数据库:以全球唯一识别号为主键,将每个词条与验证码图像对应起来,存入数据库;S4、验证码获取请求配发:开放词性标注验证码图像数据库访问接口,为有验证码需求的网站页面免费提供验证码,需求方发送验证码获取请求后,本地系统将随机从数据库抽取一幅图像,图像名与UUID相同,并返回至需求方,需求方在验证码输入页面配置若干个词性标注框,以便用户在指定词性的标注框内输入验证码图像中的肉眼识别内容;S5、验证码校验请求响应:远端网页用户输入验证内容并提交后,网页后台将用户输入内容、用户词性标注结果、验证图像UUID一并以特定格式封装,发送至本地系统,本地系统根据词性标注验证码数据库比对UUID与用户输入内容的一致性,并刷新用户对该词的词性标注结果及词性标注次数;S6、词性标注结果确认:当某个词条被用户标注的次数达到一定阈值后,选取概率最高的用户标注结果作为该词条对应的词性,同时,系统会删除该词条,不再对该词条进行标注。...

【技术特征摘要】
1.一种医学术语词库词性标注方法,其特征在于,包括以下步骤:S1、收集待标注词条:通过人工或算法收集待标注的词语,将这些词语保存到数据库或一个文件;S2、合成词性标注验证码图像:将收集的每个词条均转换为图像,并加入随机干扰线,形成验证码图像;S3、建立词性标注验证码数据库:以全球唯一识别号为主键,将每个词条与验证码图像对应起来,存入数据库;S4、验证码获取请求配发:开放词性标注验证码图像数据库访问接口,为有验证码需求的网站页面免费提供验证码,需求方发送验证码获取请求后,本地系统将随机从数据库抽取一幅图像,图像名与UUID相同,并返回至...

【专利技术属性】
技术研发人员:冯前进蒋君庞树茂
申请(专利权)人:广州同构医疗科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1