当前位置: 首页 > 专利查询>内蒙古大学专利>正文

基于数据挖掘和异构知识关联的专利估值方法、估值系统技术方案

技术编号:22565965 阅读:15 留言:0更新日期:2019-11-16 12:24
本发明专利技术属于专利价值评测技术领域,公开了一种基于数据挖掘和异构知识关联的专利估值方法和专利估值系统,根据专利文本与市场信息文本复杂的关联关系,构建异构知识关联网络作为专利估值的网络环境;在所述网络环境中通过训练机器学习,数据挖掘的模型对专利价值进行精准度量;在所述网络环境中通过机器学习,数据挖掘的方法对专利价值进行精准度量。本发明专利技术不仅从专利自身提取相关价值特征,又从关联关系上分析引入了复杂的外部实体特征。通过大量的专利文本与复杂的外部市场相关的文本建立关联,形成一个庞大的异构知识关联网络,通过提取的专利自身及外部的价值特征,训练机器学习,数据挖掘的模型对专利价值来做精准度量。

Patent valuation method and system based on data mining and heterogeneous knowledge association

The invention belongs to the technical field of patent value evaluation, and discloses a patent evaluation method and patent evaluation system based on data mining and heterogeneous knowledge association. According to the complex association relationship between patent text and market information text, a heterogeneous knowledge association network is constructed as a network environment for patent evaluation. In the network environment, through training machine learning, data mining model is established Accurately measure the patent value; accurately measure the patent value through machine learning and data mining in the network environment. The invention not only extracts relevant value features from the patent itself, but also analyzes and introduces complex external entity features from the association relationship. Through a large number of Patent Texts and complex external market related texts, a huge heterogeneous knowledge association network is formed. Through the extracted patent itself and external value features, machine learning is trained, and the model of data mining is used to do the accuracy of patent value.

【技术实现步骤摘要】
基于数据挖掘和异构知识关联的专利估值方法、估值系统
本专利技术属于专利价值评测
,尤其涉及一种基于数据挖掘和异构知识关联的专利估值方法和专利估值系统。
技术介绍
目前,最接近的现有技术:目前常见的价值度量模型主要有统计引文数量的方法,潜在图模型的方法,深度学习的方法等,这些方法是以专利自身的价值特征作为出发点或引入了简单的外部特征对专利价值进行研究。(1)从专利自身来看,目前方法认为专利价值是单一的,确定的。对专利这类无形资产来说,其价值本身就随外界相关因素的变化而变化,不可能永远是一个稳定的价值。甚至在不同环境中,可以体现出不同的价值。而现有的方法以单一,确定的角度来看待专利的价值,这样便会埋没了专利在其他视角下的价值,从而不能对专利做精准估值。(2)从相关关系来看,目前方法认为专利价值是非关联,非市场的。事实上,专利价值往往体现在与外部实体特征复杂的异构关系中。专利这类无形资产的价值与市场走向密不可分。比如某个专利所提出的技术与当前市场的潮流息息相关,则该专利与当前市场的关联程度就越大,所体现的价值也更大。通过这些异构关系,专利价值与这些外部实体之间发生联动。如果不清楚的表示和利用这些复杂的异构关系,专利的真实价值就难以被挖掘出来,不能对专利价值进行精准度量。综上所述,现有技术存在的问题是:目前的方法不能清楚的表示和利用这些复杂的异构关系,专利的真实价值就难以被挖掘出来,不能对专利价值进行精准度量。解决上述技术问题的难度:难度一:异构知识关联网络的建立。异构知识关联网络是由不同类型的异构节点和节点之间的相互关联所组成的,如何让不同类型的节点互相关联是难点之一。难度二:外部实体特征的提取。专利的价值与市场的情况具有非常紧密的关联,但如何将专利与市场情况巧妙地关联在一起以及如何转化为计算机可识别的特征是一个技术难点。解决上述技术问题的意义:当今世界各国之间的抗衡已经转化成知识科技的比拼,知识经济愈发重要。专利作为其中具有代表性的知识产出,在各国之间都深受重视。而要正确无误地将专利进行交易转化,对其自身价值的准确度量必不可少。因为对专利做了不同市场下的价值评估,便使得专利用户更加地了解专利,这样才更加有利于交易转化地实施。
技术实现思路
针对现有技术存在的问题,本专利技术提供了一种基于数据挖掘和异构知识关联的专利估值方法及系统。本专利技术是这样实现的,一种基于数据挖掘和异构知识关联的专利估值方法,所述基于数据挖掘和异构知识关联的专利估值方法包括:根据专利文本与市场信息文本复杂的关联关系,构建异构知识关联网络作为专利估值的网络环境。在所述网络环境中通过训练机器学习,数据挖掘的模型对专利价值进行精准度量。在所述网络环境中通过机器学习,数据挖掘的方法对专利价值进行精准度量。进一步,所述基于数据挖掘和异构知识关联的专利估值方法进一步包括:第一步,数据采集和预处理,进行数据源选择、信息抽取。第二步,建立异构知识关联网络,进行网络节点的构造、文本特征的提取、关联计算以及边的构造。第三步,提取专利自身的价值特征及其与之关联的外部实体特征,生成概率图模型以及专利价值后验分布的计算。进一步,第一步,具体包括:1)选择数据源:确定数据源,分别为中国国家知识产权局的专利信息,巨潮资讯网的上市公司年报信息以及电子商务网站上的商品信息。2)信息抽取:首先,对专利数据,从中抽取专利的摘要,权利要求书,说明书的文本信息。然后,对年报数据,抽取公司的主营业务,经营范围的文本信息,还抽取净资产收益率,投资收益率,净利润率,流动比率,毛利率五个公司相对稳定的指标。对商品数据,抽取商品介绍,规格包装的文本信息,还抽取了商品价值,评论数量的商品指标。进一步,第二步,包括:a)异构节点的构造。选择专利文本,市场上上市公司年报文本,商品信息文本作为构建异构知识关联网络的异构节点。b)文本特征的提取。c)关联计算:d)异构节点之间边的确定。根据专利文本与外部市场之间复杂的关联关系,形成一个异构知识关联网络。进一步,第三步,概率图模型的构建及计算进一步包括:A)提取价值特征,所述提取价值特征包括:文本内部的价值特征:为每个节点V提取文本特征。对抽取的专利文本,提取专利关键词的流行度,专利文本的上下文一致度和专利文本内容的复杂度作为专利文本的价值特征。对抽取的年报文本,用抽取的净资产收益率,投资收益率,净利润率,流动比率,毛利率五个公司稳定的指标作为年报的价值特征。对抽取的商品信息文本,用抽取的商品价值,评论数量作为商品信息的价值特征。文本之间关联的外部实体特征:为节点V之间提取文本的关联特征。即专利文本与公司年报文本,商品信息文本之间建立关联。通过文本之间距离的计算来得到文本之间的关联特征。B)概率图模型生成过程:令价值特征的权重服从迪利克雷分布;令文本价值服从伽马分布;令不同类型的文本之间的强度服从伽马分布;令每个关联特征服从泊松分布;C)计算专利价值的后验分布:根据生成的概率图模型计算整个模型的联合概率分布;得到联合概率分布之后由采样算法计算出专利价值参数的后验分布。进一步,所述概率图模型生成方法中,令每个价值特征的权重节点为超参。令每个价值节点为超参;令每个不同类型之间的强度节点λ~Gamma(αλ),αλ为超参;令每个关联特征节点w~Possion(λ,r);具体包括:设价值权重个数W,价值分布个数V,强度类型个数N,关联数目M。forn=1,…,Ndo;samplingλ~Gamma(αλ);form=1,…,Mdo;forw=1,…,Wdo;samplingforv=1,…,Vdo;samplingsamplingw~Possion(λ,r);本专利技术的采样方法使用MCMC算法来进行实现的。所述计算专利价值的后验分布的方法为:根据生成的概率图模型计算整个模型的联合概率分布;进一步,所述构建异构知识关联网络的过程为:第一,异构节点的构造:选择专利文本,市场上上市公司年报文本,商品信息文本作为构建异构知识关联网络的异构节点。第二,文本特征的提取:在构造的异构节点的文本中,采用自然语言处理技术对文本做文本关键词的提取处理,将提出的关键字作为文本的特征。第三,关联计算:在得到的文本特征下,用自然语言处理技术做文本之间距离的计算,使文本间的距离的远近作为文本间的关联的大小。第四,边的构造:由得到的文本间的距离作为文本之间关联程度的边。根据上述所描述的异构节点与异构节点之间边的构造,将大量的专利文本,年报文本,商品信息文本按照上述方法进行构建,形成一个复杂的异构知识关联网络。然后在所述网络环境中通过机器学习和数据挖掘的方法对专利价值进行精准度量。本文档来自技高网
...

【技术保护点】
1.一种基于数据挖掘和异构知识关联的专利估值方法,其特征在于,所述基于数据挖掘和异构知识关联的专利估值方法包括:/n根据专利文本与市场信息文本复杂的关联关系,构建异构知识关联网络作为专利估值的网络环境;/n在所述网络环境中通过训练机器学习,数据挖掘的模型对专利价值进行精准度量;/n在所述网络环境中通过机器学习,数据挖掘的方法对专利价值进行精准度量。/n

【技术特征摘要】
1.一种基于数据挖掘和异构知识关联的专利估值方法,其特征在于,所述基于数据挖掘和异构知识关联的专利估值方法包括:
根据专利文本与市场信息文本复杂的关联关系,构建异构知识关联网络作为专利估值的网络环境;
在所述网络环境中通过训练机器学习,数据挖掘的模型对专利价值进行精准度量;
在所述网络环境中通过机器学习,数据挖掘的方法对专利价值进行精准度量。


2.如权利要求1所述的基于数据挖掘和异构知识关联的专利估值方法,其特征在于,所述构建异构知识关联网络的过程为:
第一,异构节点的构造:选择专利文本,市场上上市公司年报文本,商品信息文本作为构建异构知识关联网络的异构节点;
第二,文本特征的提取:在构造的异构节点的文本中,采用自然语言处理技术对文本做文本关键词的提取处理,将提出的关键字作为文本的特征;
第三,关联计算:在得到的文本特征下,用自然语言处理技术做文本之间距离的计算,使文本间的距离的远近作为文本间的关联的大小;
第四,边的构造:由得到的文本间的距离作为文本之间关联程度的边;根据所述异构节点与异构节点之间边的构造,将大量的专利文本,年报文本,商品信息文本按照上述方法进行构建,形成一个复杂的异构知识关联网络;然后在所述网络环境中通过机器学习和数据挖掘的方法对专利价值进行精准度量。


3.如权利要求1所述的基于数据挖掘和异构知识关联的专利估值方法,其特征在于,所述基于数据挖掘和异构知识关联的专利估值方法进一步包括:
第一步,数据采集和预处理,进行数据源选择、信息抽取;
第二步,建立异构知识关联网络,进行网络节点的构造、文本特征的提取、关联计算以及边的构造。
第三步,提取专利自身的价值特征及其与之关联的外部实体特征,生成概率图模型以及专利价值后验分布的计算。


4.如权利要求3所述的基于数据挖掘和异构知识关联的专利估值方法,其特征在于,第一步,具体包括:
1)选择数据源:确定数据源,分别为中国国家知识产权局的专利信息,巨潮资讯网的上市公司年报信息以及电子商务网站上的商品信息;
2)信息抽取:首先,对专利数据,从中抽取专利的摘要,权利要求书,说明书的文本信息;然后,对年报数据,抽取公司的主营业务,经营范围的文本信息,还抽取净资产收益率,投资收益率,净利润率,流动比率,毛利率五个公司相对稳定的指标;对商品数据,抽取商品介绍,规格包装的文本信息,还抽取了商品价值,评论数量的商品指标。


5.如权利要求3所述的基于数据挖掘和异构知识关联的专利估值方法,其特征在于,第二步,包括:
a)异构节点的构造...

【专利技术属性】
技术研发人员:刘维东刘鑫张程郭旭
申请(专利权)人:内蒙古大学
类型:发明
国别省市:内蒙;15

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1