用于文件数据分析的方法及系统技术方案

技术编号:2852659 阅读:204 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种用于文件数据分析的方法及系统,所述用于文件数据分析的系统,包含词库、解析器、及处理器。该词库是储存多个技术词汇及用以定义该技术词汇之间关系的关系指数。该解析器是分别从第一文件及第二文件中撷取出第一及第二对象阶层,其中该第一及第二对象阶层分别包含多个第一及第二参考对象。该处理器是于该词库中搜寻与该第一及第二参考对象对应的技术词汇,并依据搜寻得到的该技术词汇所对应的该关系指数,决定该第一及第二参考对象之间的关联评比。

【技术实现步骤摘要】

本专利技术是有关于数据分析,特别是有关于用以分析文献之间内容关联程度的方法与系统。
技术介绍
传统的文件分析,是借由使用者,以人力进行一技术文件(例如一专利文件)和其它技术文件的分析比较。该使用者阅读欲比较的文件,分析其内容,并借由绘制图表等方式来协助推导出被分析文件之间的关联程度。此种传统的文件分析方法,不但耗时且容易出错。而且,此种分析方法所得出的比较结果,多是依据使用者主观判断而来,所以不同的使用者常会得出迥异的结果。另外尚有一些所谓的“文件分析”方法,其是依据被分析文件所包含的一些类别信息来进行分析。例如,专利文件是基于专利权人、专利技术人、及国别等信息而被分类。此所谓的“分析”的依据,是与被分析文件的内容无关,因此其所得到的“分析”结果,实际上也无法对于被分析文件内容之间的关系有所提示。
技术实现思路
本专利技术是有关于数据分析,特别是有关于用以分析文献之间内容关联程度的方法与系统。本专利技术提供一种用于文件数据分析的系统。该系统包含词库、解析器、及处理器。该词库是储存多个技术词汇及用以定义该技术词汇之间关系的关系指数。该解析器是分别从第一文件及第二文件中撷取出第一及第二对象阶层,其中该第一及第二对象阶层分别包含多个第一及第二参考对象。该处理器是于该词库中搜寻与该第一及第二参考对象对应的技术词汇,并依据搜寻得到的该技术词汇所对应的该关系指数,决定该第一及第二参考对象之间的关联评比。本专利技术所述的用于文件数据分析的系统,该第一文件为专利文件,其包含一组专利权项,且每一专利权项与该第一对象阶层的一节点对应。本专利技术所述的用于文件数据分析的系统,该第二文件是为专利文件、期刊文献、技术文献其中之一。本专利技术所述的用于文件数据分析的系统,该第一参考对象对应于一加权系数。本专利技术所述的用于文件数据分析的系统,该处理器依据该对应的技术词汇的关系指数,决定该第二参考对象与该第一参考对象之间的关联分数。本专利技术所述的用于文件数据分析的系统,该处理器将该关联分数与对应的加权系数相乘,以取得该第二参考对象的加权关联分数。本专利技术所述的用于文件数据分析的系统,该处理器将该第二参考对象的该加权关联分数加总,以决定该第一及第二文件间的该关联评比。本专利技术并提供一种用于文件数据分析的方法。该方法首先提供一词库,其储存多个技术词汇及用以定义该技术词汇之间关系的关系指数。并提供欲加以分析的第一文件及第二文件。继之,分别从第一文件及第二文件中撷取出第一及第二对象阶层,其中该第一及第二对象阶层分别包含多个第一及第二参考对象。再于该词库中搜寻与该第一及第二参考对象对应的技术词汇,并依据搜寻得到的该技术词汇所对应的该关系指数,决定该第一及第二参考对象之间的关联评比。本专利技术所述的用于文件数据分析的方法,进一步将一加权系数指定予该第一参考对象。本专利技术所述的用于文件数据分析的方法,进一步依据该对应的技术词汇的关系指数,决定该第二参考对象与该第一参考对象之间的关联分数。本专利技术所述的用于文件数据分析的方法,进一步将该关联分数与对应的加权系数相乘,以取得该第二参考对象的加权关联分数。本专利技术所述的用于文件数据分析的方法,进一步将该第二参考对象的该加权关联分数加总,以决定该第一及第二文件间的该关联评比。上述方法是可以借由将储存于计算机可读取储存媒体的计算机程序加载计算机系统中而实现。附图说明图1显示依据本专利技术实施例系统的示意图;图2显示本专利技术文件数据分析方法的流程图;图3显示依据本专利技术实施例的技术词汇配置示意图;图4显示依据本专利技术实施例的计算机系统的示意图。具体实施例方式为了让本专利技术的目的、特征及优点能更明显易懂,下文特举较佳实施例,并配合所附图1至图4,做详细的说明。本专利技术说明书提供不同的实施例来说明本专利技术不同实施方式的技术特征。其中,实施例中的各元件的配置是为说明之用,并非用以限制本专利技术。且实施例中图式标号的部分重复,是为了简化说明,并非意指不同实施例之间的关联性。图1显示依据本专利技术实施例的文件数据分析系统的示意图。本专利技术系统10是用以比较第一文件和第二文件,并决定两文件之间的关联程度。系统10包含词库11、解析器13、以及处理器15。词库11储存多个技术词汇及用以定义该技术词汇之间关系的关系指数。其中,上述技术词汇是可以不同方式储存配置。例如,属于同一
的技术词汇可以储存为一字汇群集,并依据各字汇与特定概念的关联程度,分别指定其维度(dimension)。当欲将第一文件和第二文件进行比对时,先将该二文件透过类似如网络12的数据传输途径传送至系统10。其中该第一文件可以为专利文件,其包含一组专利权项,且每一专利权项与该第一对象阶层的一节点对应。该第一文件可以由客户端14提供。而该第二文件是由数据库16中撷取而来,其可以为专利文件、期刊文献、技术文献其中之一。该第一文件和第二文件传送到系统10时,是借由接口(interface)17接收,并转送至解析器,以进行进一步的分析。解析器13处理该第一文件,并从该第一文件中撷取出第一对象阶层,其中该第一对象阶层包含多个第一参考对象。该第一对象阶层主要是由该第一文件的特定部分分析得出(例如专利文件中权利要求的部分),其可以包含多个分支,每一分支又包含多个节点。每一该第一参考对象是对应于一加权系数。同样地,解析器13处理该第二文件,并从该第二文件中撷取出第二对象阶层,其中该第二对象阶层包含多个第二参考对象。该第二对象阶层可以包含多个分支,每一分支又包含多个节点。解析器13所得出的上述第一及第二对象阶层数据,被传送到处理器15,以进行进一步分析。处理器15是于词库11中搜寻与该第一及第二参考对象对应的技术词汇,并依据搜寻得到的该技术词汇所对应的该关系指数,决定该第一及第二参考对象之间的关联评比。处理器15并依据该对应的技术词汇的关系指数,决定该第二参考对象与该第一参考对象之间的关联分数,再将该关联分数与对应的加权系数相乘,以取得该第二参考对象的加权关联分数。处理器15是借由将该第一及第二参考对象的该加权关联分数加总,以决定该第一及第二文件间的该关联评比。上述关联评比数据透过网络12传送到客户端14。参见图2,其显示本专利技术文件数据分析方法的流程图。提供和某一特定
相关的多个技术词汇,如步骤S20。例如,提供和半导体制造相关的技术词汇,并将该等技术词汇以网络型态互相关联储存之。该网络可以设置储存于一多维空间中,其中每一维度是用以界定一技术词汇的一种特性。例如,当该网络设置于一三维空间中时,该空间具有的三个维度分别用以界定某一技术词汇在制程、设备和装置三方面的特性。该等技术词汇是依据其所具有的技术意义来加以储存安排。依据每一技术词汇的意义,在对应的维度上,针对属于同一
的技术词汇,赋予每一技术词汇一指数,如步骤S21。其中,上述技术词汇是可以不同方式储存配置。例如,属于同一
的技术词汇可以储存为一字汇群集,并依据各字汇与特定概念的关联程度,分别指定其维度(dimension)。每一技术词汇可以借由一向量(X,Y,Z)来加以识别,其中X、Y、Z分别表示该技术词汇于设备维度、装置维度和制程维度的指数量值,如图3所示。而两个不同技术词汇之间的关系指数,是可以借由计算该两技术词汇在该三维空间中的“距离”来决定。例如某本文档来自技高网
...

【技术保护点】
一种用于文件数据分析的系统,所述用于文件数据分析的系统包括:词库,其储存多个技术词汇及用以定义该技术词汇之间关系的关系指数;解析器,其是分别从第一文件及第二文件中撷取出第一及第二对象阶层,其中该第一及第二对象阶层分别包含多个 第一及第二参考对象;以及处理器,其是于该词库中搜寻与该第一及第二参考对象对应的技术词汇,并依据搜寻得到的该技术词汇所对应的该关系指数,决定该第一及第二参考对象之间的关联评比。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:杜维武林炳宏李月青陈君仪
申请(专利权)人:台湾积体电路制造股份有限公司
类型:发明
国别省市:71[中国|台湾]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1