【技术实现步骤摘要】
一种从非结构化文本数据中提取结构化数据的方法及系统
本专利技术属于数据处理
,尤其涉及一种从非结构化文本数据中提取结构化数据的方法及系统。
技术介绍
非结构化文本数据是以文本(如字符、数字、标点、各种可打印的符号等)作为数据形式的非结构化数据;非结构化或半结构化文本数据的典型代表是图书馆数据库中的文档,这些文档可能包含结构字段,如标题、作者、出版日期、长度、分类等,也可能包含大量非结构化文本成分,如摘要和正文内容。随着大数据、互联网技术的发展,每时每刻都在产生海量的数据,其中非结构化文本数据占据了较大比重,例如各种新闻、微博、博客、聊天记录等。如何快速、有效的理解和利用好这些数据成为一个迫切的需求,最直接的做法是通过注释语义信息,把非结构化文本变成结构化文本。但是巨大的数据量以及数据的差异性,使得不可能完全依靠人工来实现这种转换。这时就需要利用计算机通过有限的人工标注数据自动地从爆炸式增长的数据中抽取出结构化信息。从非结构化文本数据中提取结构化数据目前已有多种方案,但都有一定的局限性和缺点。比如对于网页 ...
【技术保护点】
1.一种从非结构化文本数据中提取结构化数据的方法及系统,其特征在于包括以下步骤:/n1)在样本中标注要提取的信息在标注操作界面中建立要提取的字段,并在文本数据中标注字段对应的内容,标注完成系统会记录字段名称及其内容在文本中的起止位置;/n2)分词、标注词性/n通过常用分词工具对步骤 1 中标注好的文本数据逐篇进行分词及词性标注,具体步骤包含:首先根据标注内容在文本中起止位置对文本进行分割,得到数个文本段,然后对这些文本段进行分词和词性标注,这样可以防止分词时将标注内容割裂,影响后续模型训练效果;/n3)生成正则/n对步骤 1 中标注好的文本数据通过其标注内容生成正则匹配表达 ...
【技术特征摘要】
1.一种从非结构化文本数据中提取结构化数据的方法及系统,其特征在于包括以下步骤:
1)在样本中标注要提取的信息在标注操作界面中建立要提取的字段,并在文本数据中标注字段对应的内容,标注完成系统会记录字段名称及其内容在文本中的起止位置;
2)分词、标注词性
通过常用分词工具对步骤1中标注好的文本数据逐篇进行分词及词性标注,具体步骤包含:首先根据标注内容在文本中起止位置对文本进行分割,得到数个文本段,然后对这些文本段进行分词和词性标注,这样可以防止分词时将标注内容割裂,影响后续模型训练效果;
3)生成正则
对步骤1中标注好的文本数据通过其标注内容生成正则匹配表达式,并可对生成的正则表达式进行必要调整,提高其匹配效果;
4)生成CRF训练特征数据
CRF(条件随机场)是由一个在给定输入节点条件下计算输出节点的条件概率的无向图模型,假设X,Y分别表示需要标记的观察序列和相对应的标记序列的联合分布随机变量,那么条件随机场(X,...
【专利技术属性】
技术研发人员:胡博,李钊,李伟,王丽霞,王大维,雷振江,田小蕾,杨超,顾海林,胡楠,刘晓强,齐俊,高强,庄莉,梁懿,陈新梅,刘鹏宇,曹国强,
申请(专利权)人:国网辽宁省电力有限公司电力科学研究院,福建亿榕信息技术有限公司,南京南瑞信息通信科技有限公司,国家电网有限公司,
类型:发明
国别省市:辽宁;21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。