当前位置: 首页 > 专利查询>南通大学专利>正文

一种用于语言材料的数据识别与提取方法技术

技术编号:11191804 阅读:96 留言:0更新日期:2015-03-25 20:25
本发明专利技术公开了一种用于语言材料的数据识别与提取方法,包括:根据原始数据文件中的内容对应的计算机字符编码,将组成所述内容的数据单元进行第一次转换处理,生成预处理数据单元;根据与所述原始数据文件相应的数据库中的数据单元属性的相互关系,将所述预处理数据单元进行第二次转换处理,生成与所述原始数据文件相应的数据库中的数据单元相一致的规范化的数据单元;对所述规范化的数据单元进行提取。本发明专利技术的方法操作简单、运算速度快。

【技术实现步骤摘要】

本专利技术涉及计算机数据处理领域,特别涉及一种用于语言材料的数据识别与提取 方法。
技术介绍
随着数据信息的爆炸式发展,大数据时代已经来临,数据的数量、类型、书写的等 方面的差异,使得数据日益复杂,这给计算机识别与提取数据带来了障碍。作为数据信息 中一个重要分支,语言文字是人类进行信息交流和文化传承的工具,经过无数代人继承、发 展、进化而自然形成。词汇是语言表达组成的最小单位,也是语言研究、语言教学的核心内 容。随着科学技术的发展,词汇研究由简单的单个词汇的语义研究、使用研究开始进入词汇 宏观的数据分析研究,学界近年来开始关注词汇数据信息的挖掘、研究、利用,以了解不同 地区、不同阶层、不同时代人群用词特点,提高对语言规律的再认识和语言发展趋势。由此 一批学者试图通过系列研究,来形成了一批分析词汇特征、差异和规律的测定指标,类似医 院做肝功能检查,做血液检查一样,通过不同指标的数值高低判断被测材料的总体规模、用 词特征、易读性、适用对象等等,得出客观的、科学的判断。 但是,语言文字材料词汇本身数量就十分的庞大,语句的变化、词汇的变形极其复 杂,所以国际本文档来自技高网...

【技术保护点】
一种用于语言材料的数据识别与提取方法,包括:(1)根据原始数据文件中的内容对应的计算机字符编码,将组成所述内容的数据单元进行第一次转换处理,生成预处理数据单元;(2)根据与所述原始数据文件相应的数据库中的数据单元属性的相互关系,将所述预处理数据单元进行第二次转换处理,生成与所述原始数据文件相应的数据库中的数据单元相一致的规范化的数据单元;(3)对所述规范化的数据单元进行提取。

【技术特征摘要】
1. 一种用于语言材料的数据识别与提取方法,包括: (1) 根据原始数据文件中的内容对应的计算机字符编码,将组成所述内容的数据单元 进行第一次转换处理,生成预处理数据单元; (2) 根据与所述原始数据文件相应的数据库中的数据单元属性的相互关系,将所述预 处理数据单元进行第二次转换处理,生成与所述原始数据文件相应的数据库中的数据单元 相一致的规范化的数据单元; (3) 对所述规范化的数据单元进行提取。2. 根据权利要求1所述的方法,其特征在于,所述步骤(1)包括: 将所述原始数据的数据单元中的有效数据信息用计算机对应的字符编码; 将所述原始数据的数据单元中的无效数据信息用计算机预设的字符编码; 根据所述计算机对应或者预设的字符编码,滤除所述原始数据的数据单元中的无效数 据信息,生成仅保留所述原始数据的数据单元的有效数据信息。3. 根据权利要求1所述的方法,其特征在于,所述步骤(2)包括: 针对与所述原始数据文件相应的数据库中的数据单元在预处理数据单元中进行全文 检索; 根据所述数据库中的数据单元属性的相互关系,将所述预处理数据单元用与所述数据 库中的数据单元进行替换处理; 生成与所述原始数据文件相应的数据库中...

【专利技术属性】
技术研发人员:李冬庄勋李漓
申请(专利权)人:南通大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1