基于Web采集与文本特征均衡分布的语料库构建方法技术

技术编号：20681245 阅读：45 留言：0更新日期：2019-03-27 18:59

一种基于Web采集与文本特征均衡分布的语料库构建方法，利用Web进行语料收集，采用基于词典的方式对预处理后的生语料进行标注，利用代表性度量模型对语料素材在语料库中的代表性进行量化并排序，形成按照降序排列的语料素材序列，利用这些序列可以实现任意规模的最逼近的语料子库。例如可以通过增量方式对电力语料库进行更新，从而建立起能够自由扩充的电力行业专用语料库。同时量化排序后的语料素材序列支持对语料库进行子集化操作，即取得一部分语料库的素材，使其尽可能地代表原始语料库的相关特性，从而开展语料库的离线应用。

全部详细技术资料下载

【技术实现步骤摘要】
基于Web采集与文本特征均衡分布的语料库构建方法
本申请涉及一种信息处理方法，具体的，涉及一种基于Web采集技术与文本特征均衡分布的语料库构建方法，能够适用于电力行业，建成的语料库支持按需截取的离线应用，同时支持增量更新。
技术介绍
随着电力业务增长，电力行业各部门积累了一定数量的非结构化数据，由于技术等因素限制导致非结构化数据利用率并不高。但海量非结构化数据中蕴含着大量有用信息，如何对这些非结构化数据进行深入研究是一个重要研究问题。目前，非结构化数据在知识库建立、信息抽取、信息检索、文本分类等方面的应用可基于语料库实现，语料库可为行业应用提供语料附属信息，满足各行各业在办公、管理和决策过程中对非结构化文档分类检索的需求。因此，建设电力行业语料库具有重要的应用意义。目前，国内外研究团队构建了大量通用语料库，如Brown、Semcor、LOB、ICE等英文语料库以及国家语委现代汉语语料库语料库、北大语料库、台北“中研院”语料库等中文语料库。另有学者建设学习者、FAO农业英语语料库、中介话语语料库、学术语篇语料库、法律语料库等专用语料库服务于各行业各业。收集的语料大多...

【技术保护点】
1.基于Web采集与文本特征均衡分布的语料库构建方法，包括如下步骤：Web信息采集步骤S110:通过Web连接方式，采集网络页面中的文本信息，并将信息采集结果进行保存；语料库构建步骤S120:对上一步骤的信息采集结果中不必要的信息进行去重和删除，形成生语料，基于现有基础词典和行业专用词典对生语料进行分词、语料标注和去停用词操作，形成该行业专业语料库；对分词后的语料进行词频统计S130：统计整体语料库中每个词的词频信息，然后逐一统计单篇语料中的每个词的词频信息，并分别存储；语料代表性度量步骤S140：1)构建语料代表性度量模型考虑单个词权重的影响和该词出现的次数，构建如下语料代表性度量模型，计算...

【技术特征摘要】
1.基于Web采集与文本特征均衡分布的语料库构建方法，包括如下步骤：Web信息采集步骤S110:通过Web连接方式，采集网络页面中的文本信息，并将信息采集结果进行保存；语料库构建步骤S120:对上一步骤的信息采集结果中不必要的信息进行去重和删除，形成生语料，基于现有基础词典和行业专用词典对生语料进行分词、语料标注和去停用词操作，形成该行业专业语料库；对分词后的语料进行词频统计S130：统计整体语料库中每个词的词频信息，然后逐一统计单篇语料中的每个词的词频信息，并分别存储；语料代表性度量步骤S140：1)构建语料代表性度量模型考虑单个词权重的影响和该词出现的次数，构建如下语料代表性度量模型，计算得到某篇文档的语料代表性度量值：其中，hi表示该篇文档中词i出现的次数，n表示该篇文档中总的词数，wi为单个词i权重，表示为sumi表示单个词i在所有文本中出现的次数，sum表示语料库中所有词出现的总次数；2)语料代表性度量值计算对所有语料，即文档，按照语料代表性度量模型逐一进行代表性度量值计算；3)语料排序按照语料代表性度量值计算结果，对所有语料，即文档排序，形成按照降序排列的语料素材序列；语料库按需截取步骤S150：基于按降序排列的语料素材序列，结合用户对语料库大小的需求，对语料库进行按需截取。2.根据权利要求1所述的构建方法，其特征在于：还具有语料库增量更新步骤S160：对于新增的文本，利用步骤S110-S140分别进行采集、分词和语料代表性计算，并结合原有的已有语料和增量语料按语料代表性度量值重新进行排序，用户可根据语料代表性曲线重新截取满足其应用需求的语料长度。3.根据...

【专利技术属性】
技术研发人员：林宝德，张新阳，张梅，
申请(专利权)人：云南电网有限责任公司信息中心，
类型：发明
国别省市：云南,53

全部详细技术资料下载我是这个专利的主人