【技术实现步骤摘要】
本专利技术涉及自然语言计算机处理领域,特别是涉及一种文献分析过程中的 专业术语抽取方法和系统。
技术介绍
世界知识产权组织1988年编写的《知识产权教程》阐述了现代专利文献的概念专利文献是包含已经申请或被确认为发现、专利技术、技术和工业品外观设计的研究、设计、开发和试验成果的有关资料,以及保护专利技术人、专 利所有人及工业品外观设计和技术注册证书持有人权利的有关资料的已出版或未出版的文件(或其摘要)的总称。该教程还进一步指出专利文 献按一般的理解主要是指各国专利局的正式出版物。例如专利说明书、专 利公报、专利文摘、专利索引、专利分类表等。由此可知,专利文献是专利制度的产物。但是,反过来,专利文献又是专 利制度的重要基础,这是由于专利文献在专利审査和国际交流中发挥着重要作 用。事实上,对于企业和研究机构来说,在确立新产品科研课题前进行专利战 略分析是至关重要的。首先,通过专利战略分析,可以判断科研立项的必要性, 如果已经有相同的新技术申请了专利,那么再予立项,很可能会导致研发雷同, 不进会浪费人力和财力,还会存在侵犯他人专利权的风险;同时,通过专利战 略分析,研发 ...
【技术保护点】
一种专业术语抽取方法,其特征在于,包括以下步骤:步骤A,按照专利文献所属领域的不同将专利文献划分到不同领域的文献库中;步骤B,以划分后的不同领域的专利文献库,组成语料库,并根据专业术语的特点,从语料库中抽取所包含的专业术语。
【技术特征摘要】
1、 一种专业术语抽取方法,其特征在于,包括以下步骤步骤A,按照专利文献所属领域的不同将专利文献划分到不同领域的文献 库中;步骤B,以划分后的不同领域的专利文献库,组成语料库,并根据专业术 语的特点,从语料库中抽取所包含的专业术语。2、 根据权利要求1所述的一种专业术语抽取方法,其特征在于,所述专 业术语的特点包括字符串重复出现的频次、字符串语用环境灵活程度、位置成 词概率中的一个或者一个以上的组合。3、 根据权利要求1所述的一种专业术语抽取方法,其特征在于,所述语 料库以划分后的不同领域的专利文献的说明书摘要作为语料所组成。4、 根据权利要求1所述的一种专业术语抽取方法,其特征在于,所述步 骤B中,进一步包括以下步骤步骤Bl,设定一第一阀值,在语料库中进行检索,依据所述第一阀值, 将语料库中出现次数小于所述第一阀值的重复串删除,保留出现次数多于第一 阀值的重复串,作为候选字符串,并记录所述重复串在语料库中出现的次数;步骤B2,根据专业术语的特点,从保留下来的重复串中抽取所包含的专 业术语。5、 根据权利要求4所述的一种专业术语抽取方法,其特征在于,所述第 一阀值是由语料训练得来的。6、 根据权利要求4所述的一种专业术语抽取方法,其特征在于,所述步 骤B2中,进一步包括以下步骤中的至少一个-步骤B21,统计保留下来的每个重复串的左右两边所相邻的不同的字或词 的数目,并以其中数值较小的作为一个字符串语用环境灵活程度的对比值,同 时,设定一第二阀值,将字符串语用环境灵活程度的对比值的数值小于所述第 二阀值的重复串删除;步骤B22,统计保留下来的重复串的串首字和串尾字的位置成词概率,同 时,设定一个第三阀值,将串首字和串尾字的位置成词概率低于所述第三阀值 的重复串删除; 步骤B23,设定一规则库,如果保留下来的重复串满足了所述规则库中的任意一条规则,就将其删除。7、 根据权利要求6所述的一种专业术语抽取方法,其特征在于,所述第 二阀值、位置成词概率和第三阀值是由语料训练得来的。8、 根据权利要求6所述的一种专业术语抽取方法,其特征在于,所述步 骤B21至步骤B23的先后顺序可以任意排列。9、 根据权利要求6所述的一种专业术语抽取方法,其特征在于,所述步 骤B22中,还包括一步骤步骤B221,根据步骤B22中所得到的过滤结果,在得到的过滤结果中, 如果发现以一字符为首字或尾字的垃圾串多于预设《直,则设定将该字的位置成 词概率调低,并重复执行步骤B22。10、 根据权利要求6所述的一种专业术语抽取方法,其特征在于,所述步 骤B23中,还包括一步骤步骤B231,根据步骤B23中所得到的过滤结果,在得到的过滤结果中, 如果发现包含一字符的垃圾串出现的次数多于预设值,则在所述规则库中增加 设定相应的规则,以删除包含所述字符的重复...
【专利技术属性】
技术研发人员:张华平,黄玉兰,龚才春,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。