一种基于专利搜索日志用户行为的同义词自动挖掘方法技术

技术编号:12888644 阅读:43 留言:0更新日期:2016-02-17 22:41
本发明专利技术涉及一种基于专利搜索日志用户行为的同义词自动挖掘方法,包括以下步骤:步骤1)对专利搜索日志进行预处理,利用专利搜索日志同义词集的结构模板获取候选同义词集;步骤2)提取出候选同义词集中的候选同义词的字面特征、读音特征和查询特征。本发明专利技术提供的基于专利搜索日志用户行为的同义词自动挖掘方法,通过选取字面特征、读音特征和查询特征可以有效地提高专利搜索日志领域的同义词识别的准确度,可以很好地满足实际应用的需要。

【技术实现步骤摘要】

本专利技术属于中文信息检索
,具体涉及一种基于专利搜索日志用户行为的 同义词自动挖掘方法。
技术介绍
随着科学技术的快速发展,各种新兴的高科技产品越来越多的涌入市场,专利信 息作为一种寓法律、技术、经济于一体的特殊信息资源已经被人们高度重视。专利搜索引擎 作为专利信息查询的一个基本手段,得到广泛应用。用户是否可以检索到满意的信息与搜 索引擎的叙词表有非常密切的关系,同义词是组成叙词表的一部分,为了使用户查询到更 全面详细的专利信息,同义词挖掘研究显得尤为重要。 专利搜索日志中存在大量的错别字,有些错别字被人们广泛使用,这类词与和它 对应的正确词也被认为是同义词,如碳纳米管和炭纳米管、瑜伽和瑜珈。除此之外,专利搜 索日志中存在很多未登录词,因此现有的《知网》和《同义词词林》这类同义词资源不能用于 专利搜索日志的同义词挖掘。传统的同义词定义是指一个事物的不同表达形式,通过分析 专利搜索日志中词汇的特点,专利领域的同义词大致可以分为以下八大类:1)中文-英文, 这类同义词主要是描述同一概念的两种不同表达形式,如:锌-Zn、电子邮件-email;2)学 名-俗名,指同一事物的书面语和日常用语,如:乙醇-酒精;3)全称-简称,指同一事物的 原名称和简化名称,如:北京大学-北大、短消息-短信、时间戳记-时戳;4)同音同义词, 这类词主要是由高频使用的错别字引发的,如:瑜伽-瑜珈、伽马-伽玛、苯扎贝特-苯札贝 特、汽车-气车;5)新称-旧称,指不同时期同一概念的两种称呼方式,如自行车-脚踏车; 6)传统同义词,指概念相同且不属于以上类别的词,如甲壳素-几丁质、阈值-门限;7)反 义词,指概念截然相反的词,如出-入、增加-减少、左转-右转;8)翻译引起的同义词,这 类词是对英文的翻译,读音大致相同,如:爱普科斯公司-埃普科斯股份有限公司、罗斯蒙 德公司-罗斯蒙特公司。目前,同义词资源已经被广泛应用于各种领域,如信息检索、语义消歧、查询扩展、 关键词提取、机器翻译等。随着应用的推动,自动挖掘同义词的方法层出不穷,现阶段主要 存在以下两种方法:基于语料库和基于词典的同义词挖掘。但是,这两种方法均存在一定的 缺陷:基于语料库的方法容易产生矩阵稀疏问题;基于词典的同义词挖掘方法容易受到领 域的限制,并不能很好地发挥作用。
技术实现思路
针对上述现有技术中存在的问题,本专利技术的目的在于提供一种可避免出现上述技 术缺陷的基于专利搜索日志用户行为的同义词自动挖掘方法。 为了实现上述专利技术目的,本专利技术采用的技术方案如下: -种基于专利搜索日志用户行为的同义词自动挖掘方法,包括以下步骤: 步骤1)对专利搜索日志进行预处理,利用专利搜索日志同义词集的结构模板获 取候选同义词集;步骤2)提取出候选同义词集中的候选同义词的字面特征、读音特征和查询特征。 进一步地,所述步骤1)具体为: 步骤A:过滤无用的查询串,利用正则表达式去除专利搜索日志中以申请号、公开 号、分类号进行查询的专利信息; 步骤B:对专利搜索日志进行全角转换为半角、繁体转换为简体的处理; 步骤C:根据候选同义词集的结构模板提取专利搜索日志中的同义词结构; 步骤D:根据人名标识符规则过滤人名信息,获得候选同义词集。 进一步地,所述字面特征包括最大相似度、最小相似度、重心后移相似度、是否具 有相同前缀和是否具有相同后缀五个特征,其中:所述最大相似度的计算公式如下所示: 所述最小相似度的计算公式如下所示: 所述重心后移相似度的计算公式如下所示: 其中,3;[111_2;[11^11|11!"(¥1,'\¥2)代表词对(¥ 1,'\¥2)的最大相似度;5;[111_2;[11^11|1^(¥ 1,'\¥2) 代表词对^1,'\¥2)的最小相似度;5;[111_2;[11^1^。 11_(¥1,'\¥2)代表词对^1,'\¥2)的重心后移相 似度;same^^w;;)代表词对(w^w;;)中相同字的个数;mindw」,|w2|)代表词对(w^w;;)中 最小的词长;maxOw」,|w2|)代表词对(WpW;;)中最大的词长;|w」代表^的词长;|w2|代 表《2的词i是指相同的字在词不同位置的权值之和;k代 表词中包含的字的个数,sameCwpm)代表相同的字的位置;其中,α=0. 6,β=0. 4,γ=10 进一步地,所述读音特征的读音相似度计算公式如下:[0022 其中,'代表^的读音,代表词对(Wl,W2)读音的最小编辑距离, max(|:TWi |,|;21)代表词对(Wl,W2)中最大的读音长度;代表词对(Wl,W2)的 读音相似度。 进一步地,将出现在专利搜索日志同一行中的词汇作为一个查询特征,利用以下 公式计算查询特征值: (WpW;;)erow代表词对(WpW;;)在专利搜索日志中的同一行出现,(?)运row 代表词对(Wl,w2)不在专利搜索日志的同一行出现。 本专利技术提供的基于专利搜索日志用户行为的同义词自动挖掘方法,通过选取字面 特征、读音特征和查询特征可以有效地提高专利搜索日志领域的同义词识别的准确度,可 以很好地满足实际应用的需要。【附图说明】 图1为本专利技术的流程图; 图2为步骤1)的具体步骤流程图; 图3为一个线性不可分的数据经过高斯核函数变换之后得到的线性可分样本,其 中,被圈起来的点是支持向量。【具体实施方式】 为了使本专利技术的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施 例对本专利技术做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用 于限定本专利技术。 如图1所示,,包括以下 步骤: 步骤1)对专利搜索日志进行预处理,利用专利搜索日志同义词集的结构模板获 取候选同义词集; 步骤2)提取出候选同义词集中的候选同义词的字面特征、读音特征和查询特征。 专利搜索日志中的大部分查询串包含了一个事物的多种描述方式,这些描述方式 之间通过" 〇,、"811(1"、"1^"等逻辑运算符进行连接,这些逻辑运算符连接的部分词汇存在 并列关系。通过分析专利搜索日志中同义词分布的特点如表1所示。 表1 :已处理的专利搜索日志语料 构建的同义词集结构模板主要有以下五种: 1.模板1"'wordsl'0R'words2'0R'words3' ",其中 wordsl、words2和words3为候选同义词集;该模板以"OR"或"or"连接,是最简单的同义 词集的结构模板,如图1中18行所示; 2.模板 2"('wordsl'pre/2'words2')OR'words3' ", "'wordsl'pre/2'words2' " 表;^wordsl和words2 构成的词组与 "OR"连接的words3是候选同义词,即wordsl+words2和words3为候选同义词,如图1中 19、24、26行所示; 3.模板 3a'words本文档来自技高网
...

【技术保护点】
一种基于专利搜索日志用户行为的同义词自动挖掘方法,其特征在于,包括以下步骤:步骤1)对专利搜索日志进行预处理,利用专利搜索日志同义词集的结构模板获取候选同义词集;步骤2)提取出候选同义词集中的候选同义词的字面特征、读音特征和查询特征。

【技术特征摘要】

【专利技术属性】
技术研发人员:吕学强周建设董志安李雪伟
申请(专利权)人:北京信息科技大学首都师范大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1