System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于信息处理,尤其涉及一种专利和论文的联结方法及系统、存储介质。
技术介绍
1、随着互联网和科技的飞速发展,近年来论文和专利这两个重要的知识产权领域内的文本数量发生了惊人的增长,全球每年发表的论文数量和公开的专利数量都已经达到了数百万篇。
2、论文和专利成为了现代人类学习和汲取知识的重要途径。论文和专利中包含了大量的实体信息,如人名、机构名、地名、出版时间等。当人们开始深入了解一篇专利时,往往需要这篇专利的专利技术人在同一
内的所有相关的论文来辅以进行专利成果转化;反之,当人们开始深入学习一篇论文时,往往也需要借鉴这篇论文的作者在同一
内所有相关的公开专利来辅以系统性的学习。
3、但是多次在不同的论文平台或专利平台进行人工检索和筛选,是十分费时耗力的。因此,如何产生论文和专利之间的高度联结,以便于后续进行高效地检索和学习就成为了信息处理
亟需解决的问题。
技术实现思路
1、本专利技术的目的是克服上述现有技术的不足,提供一种论文和专利的联结方法,能够产生论文和专利之间的高度联结,便于后续进行高效地检索和学习。
2、为实现上述目的,本专利技术采用了以下技术方案:
3、一种论文和专利的联结方法,包括以下步骤:
4、s1,专利文献经过翻译去重、预处理、分词处理后得到对应的专利单词序列;
5、s2,人工标注出各专利单词序列所对应的标签序列,利用若干个专利单词序列以及对应的标签序列构成第一训练集
6、s3,使用crf模型基于当前专利文献的标签序列,输出与当前标签序列对应的最优标签序列;
7、s4,将最优标签序列中的标签按顺序排列成优先级降序的约束条件后,根据约束条件查找出对应的若干篇论文文献并按照满足约束条件的程度降序输出论文文献。
8、优选的,s1中还包括以下子步骤:
9、s11,将各专利文献翻译成中文后,将专利文献与存储在本地专利数据库内的专利文献进行比对,若发现当前专利文献与本地专利数据库内已存储的专利文献重合,则直接调取本地专利数据库内对应的专利文献所绑定的最优标签序列,否则将当前专利文献存储进本地专利数据库内;
10、s12,将本地专利数据库内新增的专利文献送入文献预处理模块内,预处理模块先去除各专利文献的无用内容,再将各专利文献中的专业缩略语替换为全称,最后将各篇专利文献左对齐后形成对应的专利文本;
11、s13,在专利文本中进行若干次双向最大匹配分词操作后得到对应的专利单词序列。
12、优选的,s13中还包括以下子内容:在专利文本中进行若干次双向最大匹配分词操作,直至当前专利文本中的各部分均匹配成功得到专利单词序列,或者,当前专利文本中的未匹配成功的部分为单个字符时,双向最大匹配分词操作终止:
13、w={w1,…,wt}=merge[l,r,rule],
14、l=match(t,maxlen,d,rule,true),
15、r=match(t,maxlen,d,rule,false),
16、其中,单词序列w指与专利文本对应的专利单词序列,文本t指专利文本,{w1,…,wt}表示文本t经过若干次双向最大匹配分词操作所输出的单词序列,wt表示单词序列中的第t个单词,merge[l,r,rule]表示将左向匹配l和右向匹配r的结果根据规则rule进行合并操作的函数,d指数据字典,maxlen指将从左向/右向进行匹配时的单词的最大长度,true是指从左向进行匹配,false是指从右向进行匹配,rule是指以停用词词典和词性词典作为规则,match(*)是递归的匹配函数,match(t,maxlen,d,rule,true)表示将文本t从左向开始,结合规则rule进行取词,取一个长度为maxlen的单词段α,进行第一轮取词:若当前单词段α存在于数据字典d内,则第一轮取词成功,保留单词段α,若当前单词段α不存在于数据字典d内,则查找单词段α从左往右长度为(maxlen-1)的子单词段是否存在于数据字典d内,若存在,则保留子单词段β,第一轮取词成功,否则继续查找单词段α中长度依次递减的子单词段是否存在于数据字典d内,直至当前子单词段的长度为1为止,第一轮取词结束;在当前文本t中去除第一轮取词成功时所保留的单词段或在当前文本t中去除第一轮取词结束时长度为1的单词段后,进行第二轮取词,步骤与第一轮取词相同,直至当前文本t的最后一轮取词成功或最后一轮取词结束后,前文本t的左向匹配终止;match(t,maxlen,d,rule,true)的右向匹配过程同左向匹配match(t,maxlen,d,rule,true)方向相反,一篇专利文本对应一个专利单词序列。
17、优选的,s2中还包括以下子步骤:
18、s21,人工基于词性、关键词匹配、上下文信息对专利单词序列进行标签内容的设定;
19、s22,将若干个专利单词序列作为第一训练单词序列集,人工标注出第一训练单词序列集中各分词的标签内容和bio边界,形成第一训练标签序列集;
20、其中,bio边界包括b、i、o三种表示,b表示当前分词位于当前标签的开头位置,i表示当前分词位于当前标签的非开头位置,o表示当前分词不属于任何标签;
21、s23,第一训练单词序列集与第一训练标签序列集共同组成第一训练集,使用多标签分类模型基于第一训练集进行初步训练,再使用经过初步训练后的多标签分类模型基于新的专利单词序列输出对应的标签序列l。
22、优选的,s3中还包括以下子步骤:
23、s31,记标签序列l={l1,…,li,…,ls},li表示当前标签序列l中的第i个标签元素,1≤i≤s,且i、s均为正整数,且li=(lic,libio),lic表示标签元素li的标签内容,libio表示标签元素li的bio边界表示,即各标签元素均包含标签内容和bio边界的信息,分别计算当前标签序列l中各标签元素的上下文特征值、词性特征值、候选标签特征值;
24、s32,基于当前标签序列l中各标签元素的上下文特征值、词性特征值、候选标签特征值,计算当前标签序列l所得到的各输出标签序列在crf模型中的转移特征全权重和状态特征权重;
25、s33,根据转移特征全权重和状态特征权重计算当前标签序列l所得到的各输出标签序列的得分,得分最高的输出标签序列为最优标签序列。
26、优选的,s31中还包括以下子步骤:
27、s311,计算当前标签序列中各标签元素所对应的上下文特征值:
28、
29、其中,fi(1)表示当前标签序列l中的标签元素li所对应的上下文特征值;
30、s312,计算当前标签序列中各标签元素所对应的词性特征值:
本文档来自技高网...【技术保护点】
1.一种论文和专利的联结方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种论文和专利的联结方法,其特征在于,S1中还包括以下子步骤:
3.根据权利要求2所述的一种论文和专利的联结方法,其特征在于,S13中还包括以下子内容:在专利文本中进行若干次双向最大匹配分词操作,直至当前专利文本中的各部分均匹配成功得到专利单词序列,或者,当前专利文本中的未匹配成功的部分为单个字符时,双向最大匹配分词操作终止:
4.根据权利要求2所述的一种论文和专利的联结方法,其特征在于,S2中还包括以下子步骤:
5.根据权利要求4所述的一种论文和专利的联结方法,其特征在于,S3中还包括以下子步骤:
6.根据权利要求5所述的一种论文和专利的联结方法,其特征在于,S31中还包括以下子步骤:
7.根据权利要求6所述的一种论文和专利的联结方法,其特征在于,S32中还包括以下子步骤:
8.根权利要求7所述的一种论文和专利的联结方法,其特征在于,S33中还包括以下内容:计算当前标签序列L所得到的各输出标签序列的得分:
< ...【技术特征摘要】
1.一种论文和专利的联结方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种论文和专利的联结方法,其特征在于,s1中还包括以下子步骤:
3.根据权利要求2所述的一种论文和专利的联结方法,其特征在于,s13中还包括以下子内容:在专利文本中进行若干次双向最大匹配分词操作,直至当前专利文本中的各部分均匹配成功得到专利单词序列,或者,当前专利文本中的未匹配成功的部分为单个字符时,双向最大匹配分词操作终止:
4.根据权利要求2所述的一种论文和专利的联结方法,其特征在于,s2中还包括以下子步骤:
5.根据权利要求4所述的一种论文和专利的联结方法,其特征在于,s3中还包括以下子步骤:
【专利技术属性】
技术研发人员:王建,孙昕,王佐成,吕孝忠,
申请(专利权)人:数据空间研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。