【技术实现步骤摘要】
一种基于通用信息抽取的文献分析系统及方法
[0001]本专利技术涉及文献分析领域,尤其涉及一种基于通用信息抽取的文献分析系统及方法。
技术介绍
[0002]文献分析是指通过对收集到的某方面的文献资料进行研究,以探明研究对象的性质和状况,并从中引出自己观点的分析方法。它能帮助调查研究者形成关于研究对象的一般印象有利于对研究对象作历史的动态把握,还可研究已不可能接近的研究对象。
[0003]常规的分析可分为社会网络分析、引文分析、统计学分析等,但其分析维度主要集中于文献的属性值分析,如:作者、联合作者、单位、年限、引文、分类号等。基于内容的分析相对较少,常规的有关键词分析、词云分析、主题分析等,均以无监督的分析为主,可控性较小,欠缺目的性。像专利数据中的功效矩阵分析,这类带有强烈目的性的基于文本内容的分析,又多以人工标记为主,难以自动化进行,部分自动化功效矩阵构建系统也多采用限定类别的抽取模型,难以实现任意角度的抽取及分析。
技术实现思路
[0004]本专利技术的目的在于提供一种基于通用信息抽取的文献分析 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于通用信息抽取的文献分析系统,包括初始化模块、文献收集模块、抽取统计分析模块;其中,所述初始化模块,用于构建UIE模型;获取语料库,利用所述语料库对所述UIE模型进行训练,得到通用信息抽取模型;所述文献收集模块,用于确定检索词,并通过所述检索词检索获取多个检索数据;所述抽取统计分析模块,用于根据所述通用信息抽取模型,对所述检索数据进行抽取得到通用信息后;对所述通用信息进行对齐操作,得到标准化词汇;对所述标准化词汇进行分析,最终得到分析结果。2.根据权利要求1所述的一种基于通用信息抽取的文献分析系统,其特征在于,还包括文献清洗模块、维度定义模块、schema拓展模块、通用信息抽取模块、实体对齐/合并模块;其中,所述文献清洗模块,用于对所述检索数据进行数据清洗,得到清洗后的数据;并将所述清洗后的数据输入所述通用信息抽取模型;所述维度定义模块,用于确定所述清洗后的数据的目标维度;所述Schema拓展模块,用于对所述目标分析维度进行拓展,得到平行实体对;所述通用信息抽取模块,用于将所述平行实体对输入所述通用信息抽取模型,从所述清洗后的数据中抽取得到目标实体;所述实体对齐/合并模块,用于通过所述目标实体获取动态词向量,计算得到所述动态词向量的余弦相似度;预设余弦相似度最小阈值,分别判断所述余弦相似度是否大于或等于所述余弦相似度最小阈值;若是,则将所述动态词向量对应的目标实体聚类获取词汇组;获取所述词汇组中所有目标实体的出现频次;筛选所述目标实体的出现频次最高的目标实体作为标准化词汇;并将所述词汇组中的目标实体进行标准化处理,获取标准化词汇出现的频次。3.一种基于通用信息抽取的文献分析方法,其特征在于,包括如下操作步骤:构建UIE模型;获取语料库,利用所述语料库对所述UIE模型进行训练,得到通用信息抽取模型;确定检索词,通过所述检索词检索得到多个检索数据;根据所述通用信息抽取模型,对所述检索数据进行抽取得到通用信息后;对所述通用信息进行对齐操作,得到标准化词汇;对所述标准化词汇进行分析,最终得到分析结果。4.根据权利要求3所述的一种基于通用信息抽取的文献分析方法,其特征在于,所述利用所述语料库对所述UIE模型进行训练,得到通用信息抽取模型,包括如下操作步骤:获取所述语料库的分析维度;基于公开实体抽取分析维度,获取所述分析维度的实体类别;基于关系抽取数据集,获取所述分析维度的关系类别;构建近义词实体词库;根据所述近义词实体词库对所述分析维度进行拓展,得到平行实体对;基于所述平行实体语料对计算获取平行实体语料对的余弦损失函数、平行实体语料对的损失函数L_pair、结构数据集的损失函数L
record
、平行实体语料对的文本损失函数L
Text
;通过所述平行实体语料对的余弦损失函数、平行实体语料对的损失函数L_pair、结构数据集的损失函数L
record
、平行实体语料对的文本损失函数L
Text
计算获取UIE模型的损失函数;将所述UIE模型的损失函数输入所述UIE模型,得到通用信息抽取模型。
5.根据权利要求4所述的一种基于通用信息抽取的文献分析方法,其特征在于,所述根据所述近义词实体词库对所述分析维度进行拓展,得到平行实体对,包括如下操作步骤:根据所述近义词实体词库对所述实体类别进行替换,得到实体类别替换数据;根据所述近义词实体词库对所述关系类别进行替换,得到关系类别替换数据;将所述实体类别替换数据与所述关系类别替换数据融合得到平行实体对。6.根据权利要求5所述的一种基于通用信息抽取的文献分析方法,其特征在于,所述基于所述平行实体语料对计算获取平行实体语料对的余弦损失函数、平行实体语料对的损失函数L_pair、结构数据集的损失函数L
record
、平行实体语料对的文本损失函数L
Text
技术研发人员:杨万征,蔡超,
申请(专利权)人:中译语通科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。