【技术实现步骤摘要】
基于Web采集与文本特征均衡分布的语料库构建方法
本申请涉及一种信息处理方法,具体的,涉及一种基于Web采集技术与文本特征均衡分布的语料库构建方法,能够适用于电力行业,建成的语料库支持按需截取的离线应用,同时支持增量更新。
技术介绍
随着电力业务增长,电力行业各部门积累了一定数量的非结构化数据,由于技术等因素限制导致非结构化数据利用率并不高。但海量非结构化数据中蕴含着大量有用信息,如何对这些非结构化数据进行深入研究是一个重要研究问题。目前,非结构化数据在知识库建立、信息抽取、信息检索、文本分类等方面的应用可基于语料库实现,语料库可为行业应用提供语料附属信息,满足各行各业在办公、管理和决策过程中对非结构化文档分类检索的需求。因此,建设电力行业语料库具有重要的应用意义。目前,国内外研究团队构建了大量通用语料库,如Brown、Semcor、LOB、ICE等英文语料库以及国家语委现代汉语语料库语料库、北大语料库、台北“中研院”语料库等中文语料库。另有学者建设学习者、FAO农业英语语料库、中介话语语料库、学术语篇语料库、法律语料库等专用语料库服务于各行业各业。收集的语料大多 ...
【技术保护点】
1.基于Web采集与文本特征均衡分布的语料库构建方法,包括如下步骤:Web信息采集步骤S110:通过Web连接方式,采集网络页面中的文本信息,并将信息采集结果进行保存;语料库构建步骤S120:对上一步骤的信息采集结果中不必要的信息进行去重和删除,形成生语料,基于现有基础词典和行业专用词典对生语料进行分词、语料标注和去停用词操作,形成该行业专业语料库;对分词后的语料进行词频统计S130:统计整体语料库中每个词的词频信息,然后逐一统计单篇语料中的每个词的词频信息,并分别存储;语料代表性度量步骤S140:1)构建语料代表性度量模型考虑单个词权重的影响和该词出现的次数,构建如下语料 ...
【技术特征摘要】
1.基于Web采集与文本特征均衡分布的语料库构建方法,包括如下步骤:Web信息采集步骤S110:通过Web连接方式,采集网络页面中的文本信息,并将信息采集结果进行保存;语料库构建步骤S120:对上一步骤的信息采集结果中不必要的信息进行去重和删除,形成生语料,基于现有基础词典和行业专用词典对生语料进行分词、语料标注和去停用词操作,形成该行业专业语料库;对分词后的语料进行词频统计S130:统计整体语料库中每个词的词频信息,然后逐一统计单篇语料中的每个词的词频信息,并分别存储;语料代表性度量步骤S140:1)构建语料代表性度量模型考虑单个词权重的影响和该词出现的次数,构建如下语料代表性度量模型,计算得到某篇文档的语料代表性度量值:其中,hi表示该篇文档中词i出现的次数,n表示该篇文档中总的词数,wi为单个词i权重,表示为sumi表示单个词i在所有文本中出现的次数,sum表示语料库中所有词出现的总次数;2)语料代表性度量值计算对所有语料,即文档,按照语料代表性度量模型逐一进行代表性度量值计算;3)语料排序按照语料代表性度量值计算结果,对所有语料,即文档排序,形成按照降序排列的语料素材序列;语料库按需截取步骤S150:基于按降序排列的语料素材序列,结合用户对语料库大小的需求,对语料库进行按需截取。2.根据权利要求1所述的构建方法,其特征在于:还具有语料库增量更新步骤S160:对于新增的文本,利用步骤S110-S140分别进行采集、分词和语料代表性计算,并结合原有的已有语料和增量语料按语料代表性度量值重新进行排序,用户可根据语料代表性曲线重新截取满足其应用需求的语料长度。3.根据...
【专利技术属性】
技术研发人员:林宝德,张新阳,张梅,
申请(专利权)人:云南电网有限责任公司信息中心,
类型:发明
国别省市:云南,53
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。