专利交易大数据采集和处理方法技术

技术编号:21453952 阅读:28 留言:0更新日期:2019-06-26 04:47
本发明专利技术的目的是提供一种采用大数据的手段采集专利交易信息的专利交易大数据采集和处理方法,通过该方法可以省时省力的完成专利交易信息包括发布时间、发布人、联系方式以及购买和需求信息的采集,从而形成专利交易信息库,为专利交易平台的建设提供数据支持。专利交易大数据采集和处理方法,包括以下步骤:将即时聊天工具中的群聊信息采集生成原始数据;即时聊天工具可以是微信、QQ、或者其他类似工具;对原始数据进行识别提取生成有效数据;对有效数据进行标准化提取形成标准数据;所述标准化提取包括卖方数据标准化提取和买方数据标准化提取;对标准数据进行合并归类处理形成最终数据。

【技术实现步骤摘要】
专利交易大数据采集和处理方法
本专利技术属于大数据领域,具体为一种专利交易大数据采集和处理方法。
技术介绍
美国有一项关于技术转移的研究,发现通过技术转移,企业的平均收益为55%,而通过技术创新,企业的平均收益仅为22%。因此,我们认为,技术转移是科学技术成果转变成现实生产力并实现其经济价值的根本途径。知识产权交易,是指知识产权出让主体与知识产权受让主体,根据与知识产权转让有关的法律法规和双方签定的转让合同,将知识产权权利享有者由出让方转移给受让方的法律行为。知识产权市场交易实践中,知识产权转让行为也越来越活跃,从而使知识产权利用率大大提高,也给知识产权权利人带来了转让收益。就企业知识产权管理来说,通过知识产权转让,可以为企业创造利润,从而增强企业经营效益。知识产权转让的价值,可以从知识产权交易与知识产权管理两个层面进行分析。认识知识产权转让的价值与意义,不仅可以为知识产权权利人尤其是企业的知识产权交易提供知识产权转让的新理念,而且也为知识产权管理者重视与促进知识产权转让管理提供新思路。知识产权交易有利于拓宽科技型中小企业融资渠道,有利于科学引导民间资本开拓新的投资领域。知识产权转让不仅可以使知识产权得到充分的利用,不仅可以给出让人与受让人带来收益,而且还可以促进与知识产权业务有关的行业有序、快速发展。通过专利等知识产权交易对于促进科技成果的转化,促进经济的增长意义重大。目前的知识产权交易信息的采集包括两种。政府及其相关机构获得知识产权交易信息的方式主要是在其管辖范围内范围收集本地科研院所、高校、企事业单位的科知识产权交易信息,构建科技成果库,或者是和其他部门进行科技成果信息整合。而民间机构的知识产权交易信息的采集,主要通过依托政府或者通过网络吸引知识产权的持有方录入。以上两种方法都费时费力,所以实施研发高效的基于大数据的知识产权交易数据系统很有必要性。
技术实现思路
本专利技术的目的是提供一种采用大数据的手段采集专利交易信息的专利交易大数据采集和处理方法,通过该方法可以省时省力的完成专利交易信息包括发布时间、发布人、联系方式以及购买和需求信息的采集,从而形成可靠地专利交易信息库,为专利交易平台的建设提供大数据支持。专利交易大数据采集和处理方法,包括以下步骤:S1、将即时聊天工具中的群聊信息采集生成原始数据;可是QQ群、微信群、或者其他专业的交流群的群聊信息,采集每条群聊信息中的发布人账号、发布时间、发布内容;S2、对原始数据进行识别提取生成有效数据;识别提取为提取含有预先设定关键词的群聊信息,并将群聊信息归类为买方数据和卖方数据;S3、对有效数据进行标准化提取形成标准数据;标准化提取包括卖方数据标准化提取和买方数据标准化提取;S4、对标准数据进行合并归类处理形成最终数据。卖方数据标准化提取,包括以下步骤:S311、对于卖方数据中的每一条群聊信息,首先提取每一条群聊信息中含有的专利号,并分别对应相应的发布人账号和发布时间;S312、根据匹配算法匹配每一条群聊信息中的专利号对应的专利名称,形成卖方标准数据;卖方数据中一条群聊信息最终形成一条或者多条卖方标准数据,卖方标准数据包含专利号、专利名称、发布人账号、发布时间;匹配算法为:识别每一条群聊信息中第一个专利号前的连续汉字数量SQ,以及最后一个专利号后的连续汉字数量SH;如果SH小于5,且SQ大于6,则提取专利号前的连续汉字为专利名称;否则提取专利号后的连续汉字为专利名称。买方数据标准化提取,包括以下步骤:S321、设置一级关键词和二级关键词;其中一级关键词可以为买方数据关键词;S322、买方数据中的每一条群聊信息中含有M个一级关键词并含有N个二级关键词;如果M=1,N>1,则根据二级关键词形成N个买方信息;否则根据一级关键词形成M个买方信息;将买方信息分别相应的发布人账号和发布时间;形成买方标准数据。买方标准数据包含发布人账号、发布时间、买方信息。买方数据中一条群聊信息最终形成一条或者多条买方标准数据。合并归类处理包括以下步骤:S401、卖方标准数据中存在发布人账号和专利号相同的数据,则只保留其中一条;S402、卖方标准数据中存在发布人账号和买方信息相同的数据,则只保留其中一条;S403、在一定时间段内,不同发布人账号对应多个相同的专利号或者买方信息,则将不同发布人账号标记为一类。作为优化,在买方数据每一条群聊信息中一级关键词向前或者向后的五个字符内存在其他一级关键词,则相邻一级关键词合为一个一级关键词;在一条群聊信息中二级关键词向前或者向后的五个字符内存在其他二级关键词,则相邻二级关键词合为一个二级关键词。作为优化,二级关键词包括前置关键词和后置关键词;首先前置关键词确定为二级关键词,如果不含有前置关键则后置关键词确定为二级关键词。作为优化,根据一级关键词形成相应的M个买方信息为:提取相邻一级关键词之间的信息为买方信息,提取最后一个一级关键词后面的信息为买方信息,从而形成M个买方信息。作为优化,根据二级关键词形成N个买方信息为:含有前置关键词则提取相邻前置关键词之间的信息为买方信息,提取最后一个前置关键词后面的信息为买方信息,从而形成N个买方信息;不含前置关键词则提取相邻后置关键词之间的信息为买方信息,提取第一个后置关键词和一级关键词之间的数据为买方信息,从而形成N个买方信息。作为优化,提取含有预先设定关键词的群聊信息为:S201、有效数据中的一条群聊信息,只含有卖方数据关键词则提取为卖方数据;S202、有效数据中的一条群聊信息,只含有买方数据关键词则提取为买方数据;S203、有效数据中的一条群聊信息,既含有买方数据关键词又含有卖方数据关键词;那么,如果买方数据关键词之后没有卖方数据关键词则截取买方数据关键词之后的数据,为买方数据;如果买方数据关键词之后有卖方数据关键词则截取买方数据关键词和第一个卖方数据关键词之间的数据,为买方数据;剩余数据为卖方数据。本专利技术专利交易大数据采集和处理方法,包括识别提取、标准化提取、合并归类处理三个环节,在卖方数据标准化提取过程中采用匹配算法,保证了专利号对应的专利名称的准确性;通过设置一级关键词和二级关键词,以及二级关键词中设置前置关键词和后置关键词,实现了对买方数据标准化提取的精确性;合并归类处理去除了相同多余数据,对同一类进行了标记,减少了数据冗余,提高了精确性。通过以上大数据采集的采用巧妙的构架和算法,提高了数据识别的精确性,减少了无效多余数据,识别有效率高达99%以上,最终形成可靠地具有商业价值的标准化的专利交易大数据信息库。附图说明下面结合附图和具体实施方式来详细说明本专利技术;图1为本专利技术专利交易大数据采集和处理方法流程图;图2为实施例1系统效果图。具体实施方式下面给出的实施例拟对本专利技术作进一步说明,但不能理解为是对本专利技术保护范围的限制,本领域技术人员根据本
技术实现思路
对本专利技术的一些非本质的改进和调整,仍属于本专利技术的保护范围。实施例1:专利交易大数据采集和处理方法,包括以下步骤:(1)将加入专业的QQ群,将群聊信息采集作为原始数据,生成TXT文档;每一条群聊信息包括发布人账号、发布时间、发布内容。(2)读取TXT文档,对原始数据进行识别提取生成有效数据;识别提取为提取含有预先设定关键词的群聊信息,并将群聊信息归本文档来自技高网
...

【技术保护点】
1.专利交易大数据采集和处理方法,其特征在于包括以下步骤:S1、将即时聊天工具中的群聊信息采集生成原始数据;S2、对原始数据进行识别提取生成有效数据;所述识别提取为提取含有预先设定关键词的群聊信息,并将群聊信息归类为买方数据和卖方数据;S3、对有效数据进行标准化提取形成标准数据;所述标准化提取包括卖方数据标准化提取和买方数据标准化提取;所述卖方数据标准化提取,包括以下步骤:S311、对于卖方数据中的一条群聊信息,首先提取该一条群聊信息中含有的专利号,并分别对应相应的发布人账号和发布时间;S312、根据匹配算法匹配一条群聊信息中的专利号对应的专利名称,形成卖方标准数据;所述买方数据标准化提取,包括以下步骤:S321、设置一级关键词和二级关键词;S322、买方数据中的一条群聊信息中含有M个一级关键词并含有N个二级关键词;如果M=1,N>1,则根据二级关键词形成N个买方信息;否则根据一级关键词形成M个买方信息;将买方信息分别相应的发布人账号和发布时间;形成买方标准数据;S4、对标准数据进行合并归类处理形成最终数据。

【技术特征摘要】
1.专利交易大数据采集和处理方法,其特征在于包括以下步骤:S1、将即时聊天工具中的群聊信息采集生成原始数据;S2、对原始数据进行识别提取生成有效数据;所述识别提取为提取含有预先设定关键词的群聊信息,并将群聊信息归类为买方数据和卖方数据;S3、对有效数据进行标准化提取形成标准数据;所述标准化提取包括卖方数据标准化提取和买方数据标准化提取;所述卖方数据标准化提取,包括以下步骤:S311、对于卖方数据中的一条群聊信息,首先提取该一条群聊信息中含有的专利号,并分别对应相应的发布人账号和发布时间;S312、根据匹配算法匹配一条群聊信息中的专利号对应的专利名称,形成卖方标准数据;所述买方数据标准化提取,包括以下步骤:S321、设置一级关键词和二级关键词;S322、买方数据中的一条群聊信息中含有M个一级关键词并含有N个二级关键词;如果M=1,N>1,则根据二级关键词形成N个买方信息;否则根据一级关键词形成M个买方信息;将买方信息分别相应的发布人账号和发布时间;形成买方标准数据;S4、对标准数据进行合并归类处理形成最终数据。2.根据权利要求1所述的专利交易大数据采集和处理方法,其特征在于:所述匹配算法为:识别一条群聊信息中第一个专利号前的连续汉字数量SQ,以及最后一个专利号后的连续汉字数量SH;如果SH小于5,且SQ大于6,则提取专利号前的连续汉字为专利名称;否则提取专利号后的连续汉字为专利名称。3.根据权利要求1所述的专利交易大数据采集和处理方法,其特征在于:所述合并归类处理包括以下步骤:S401、卖方标准数据中存在发布人账号和专利号相同的数据,则只保留其中一条;S402、卖方标准数据中存在发布人账号和买方信息相同的数据,则只保留其中一条;S403、如果在一定时间段内,不同发布人账号对应多个相同的专利号或者买方信息,则将不同发布人账号标记为一类。4.根据权利要...

【专利技术属性】
技术研发人员:张乔木杜亮
申请(专利权)人:太原蓝知科技有限公司
类型:发明
国别省市:山西,14

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1