一种内容提取方法及装置制造方法及图纸

技术编号:15254963 阅读:87 留言:0更新日期:2017-05-02 22:16
本发明专利技术提出一种基于语义分析和规则的内容提取方法及装置,并在此基础上结合传统的基于模板的内容提取方法。本发明专利技术同时具备模板提取速度快,数据准确的优点,以及语义分析和规则解析适应性强的优点,通过两种方式的结合,实现快速、精确地提取内容数据。

Content extraction method and device

The invention provides a method and a device for extracting content based on semantic analysis and rules. The invention also has the advantages of fast template extraction, accurate data, and the advantages of semantic analysis and regular analysis of adaptability, through the combination of two ways, can quickly and accurately extract the content data.

【技术实现步骤摘要】

本专利技术涉及通信
,具体涉及一种内容提取方法及装置。
技术介绍
随着移动终端的快速发展,手机已经成为人民生活中的必需品。在电子数据取证中聊天内容数据量最大,平均占总数据量70%,每个移动终端的聊天信息通常也在几十万条,多的可达几百万条。聊天内容信息对研判分析价值很大,可以从中找到很多蛛丝马迹。通知类短信内容中经常包含很多关键信息,比如银行、移动运营商、天然气提供商等。通知类的内容经常会包含用户的基本信息,银行的消费通知短信中包含机主姓名、银行卡号后四位、银行卡类型等,车船票、机票预定信息会包含旅客姓名、行程信息等。目前对于这类数据的提取基本都是采用模板的方式来提取,通过预先设置的模板进行匹配,获取所需提取的关键内容信息,通过模板来提取数据的优点是精确和快速,缺点是需要人为持续的提取大量的模板。因为不同机构的短信内容模板不一样,同一机构不同地区的短信内容模板也可能不一样,同一机构同一地区在不同的时间段的短信内容模板也可能变化。
技术实现思路
针对此问题,本专利技术提出一种基于语义分析和规则的内容提取方法及装置,并在此基础上结合传统的基于模板的内容提取方法。同时具备模板提取速度快,数据准确的优点,以及语义分析和规则解析适应性强的优点,通过两种方式的结合,实现快速、精确地提取内容数据。具体方案如下:一种内容提取方法,包括:S01,对样本数据进行语义分析,根据语义分析结果以及目标内容构建内容提取规则;S02,使用多个样本数据构建的内容提取规则建立规则库;S03,对待提取的数据进行语义分析,根据语义分析结果匹配规则库中对应的内容提取规则,若匹配成功,则使用该内容提取规则进行内容提取,若匹配失败,则记录语义分析结果,并建立新的内容提取规则,将该新建立的内容提取规则更新至规则库。进一步的,在步骤S01前,还包括:步骤S00,对待提取的数据进行模板匹配,若匹配成功,则使用该模板进行内容提取,若匹配失败,则执行所述步骤S01至S03。其中,所述的语义分析具体包括:对数据进行分词和词性标注;对分词的结果进行实体标注,该实体标注包括但不限于人名标注、时间标注以及金额标注;构建数据中各词之间的依存和关联关系。一种内容提取装置,包括:规则构建模块,被配置成对样本数据进行语义分析,根据语义分析结果以及目标内容构建内容提取规则;规则库模块,被配置成使用多个样本数据构建的内容提取规则建立规则库;内容提取模块,被配置成对待提取的数据进行语义分析,根据语义分析结果匹配规则库中对应的内容提取规则,若匹配成功,则使用该内容提取规则进行内容提取,若匹配失败,则记录语义分析结果,并建立新的内容提取规则,将该新建立的内容提取规则更新至规则库。进一步的,还包括:模板匹配模块,被配置成对待提取的数据进行模板匹配,若匹配成功,则使用该模板进行内容提取,若匹配失败,则进入规则构建模块、规则库模块及内容提取模块处理。一种内容提取装置,包括:处理器以及存储器;所述存储器用于存储程序;所述处理器用于执行所述存储器中的程序,使得所述内容提取装置执行上述的内容提取方法。本专利技术有益效果:本专利技术使用语义分析和规则的方法进行内容提取,并不断更新内容提取规则库,具有适应性强的特点,通过结合模板提取与语义分析和规则的方法提取,使得内容数据提取更加快速及准确。附图说明图1为本专利技术一实施例建立规则库的处理流程图;图2为本专利技术一实施例的依存句法树;图3为本专利技术一实施例提取内容的处理流程图;图4为本专利技术另一实施例的处理流程图。具体实施方式为进一步说明各实施例,本专利技术提供有附图。这些附图为本专利技术揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本专利技术的优点。现结合附图和具体实施方式对本专利技术进一步说明。以下以银行通知类的内容数据提取作为示例性说明,现有技术中,短信“您尾号8888的账户于8月18日网银转账转出人民币876元,收款人刘德华,活期存款账户余额人民币1500元,详询95511-3【平安银行】”可以通过模板“您尾号(\\d{4,32本文档来自技高网...

【技术保护点】
一种内容提取方法,其特征在于,包括:S01,对样本数据进行语义分析,根据语义分析结果以及目标内容构建内容提取规则;S02,使用多个样本数据构建的内容提取规则建立规则库;S03,对待提取的数据进行语义分析,根据语义分析结果匹配规则库中对应的内容提取规则,若匹配成功,则使用该内容提取规则进行内容提取,若匹配失败,则记录语义分析结果,并建立新的内容提取规则,将该新建立的内容提取规则更新至规则库。

【技术特征摘要】
1.一种内容提取方法,其特征在于,包括:S01,对样本数据进行语义分析,根据语义分析结果以及目标内容构建内容提取规则;S02,使用多个样本数据构建的内容提取规则建立规则库;S03,对待提取的数据进行语义分析,根据语义分析结果匹配规则库中对应的内容提取规则,若匹配成功,则使用该内容提取规则进行内容提取,若匹配失败,则记录语义分析结果,并建立新的内容提取规则,将该新建立的内容提取规则更新至规则库。2.根据权利要求1所述的内容提取方法,其特征在于,在步骤S01前,还包括:步骤S00,对待提取的数据进行模板匹配,若匹配成功,则使用该模板进行内容提取,若匹配失败,则执行所述步骤S01至S03。3.根据权利要求1所述的内容提取方法,其特征在于,所述的语义分析具体包括:对数据进行分词和词性标注;对分词的结果进行实体标注,该实体标注包括但不限于人名标注、时间标注以及金额标注;构建数据中各词之间的依存和关联关系。4.一种内容...

【专利技术属性】
技术研发人员:曾超林艺滨朱健伟江汉祥
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1