文本内容提取方法、装置、系统及存储介质制造方法及图纸

技术编号:17486062 阅读:40 留言:0更新日期:2018-03-17 10:26
本发明专利技术公开了一种文本内容提取方法、装置、系统及存储介质,所述方法包括:接收编辑终端发送的文本内容提取请求,并发送文本内容提取页面至所述编辑终端;接收编辑终端根据文本内容提取页面发送的书籍信息;所述书籍信息包括书籍类别、书籍名称,以及作者;根据所述书籍信息,查询书籍数据库并利用语义分析和预设的内容提取规则提取该书籍的目标文本内容,并打包发送至所述编辑终端。本发明专利技术通过智能终端和服务器的交互,实现目标文本内容提取的半自动化,在确保所提取的目标文本内容准确的基础上,还提高目标文本内容提取效率,同时节约时间成本和人力成本。

Text content extraction method, device, system and storage medium

The invention discloses a text extraction method, device, system and storage medium, wherein the method comprises: receiving text editor sent by the terminal extraction request, and send text pages to the editing terminal; the receiving terminal editing extract page send books information according to the text content; the books information includes books, books category name, and the author; according to the information of books, check books database and the use of semantic analysis and preset content extraction rules to extract the target text contents of the book, and sends them to the editing terminal. The invention realizes semi-automatic extraction of target text content through interaction between intelligent terminal and server, and improves the extraction efficiency of target text content on the basis of ensuring the accuracy of the extracted target text content, and saves time cost and labor cost.

【技术实现步骤摘要】
文本内容提取方法、装置、系统及存储介质
本专利技术涉及自然语言处理领域,尤其涉及一种文本内容提取方法、装置、系统及存储介质。
技术介绍
随着教育平台越来越多,越来越完善,人们也乐意为在线教育付费,而且随着移动终端的快速发展,手机、电脑等成为人们生活中的必需品,在线阅读也成了的人们喜好和习惯。为了给用户提供高质量的阅读资源,各平台、阅读器、APP等会很大程度上依靠人工对提供给用户的资源进行筛选和鉴定,以展示最精彩最具有价值的内容。但是在商业化背景下,仅依靠人工全文阅读甚至全文精读来选择书本的精髓内容,准确率虽然较高,但是效率低下,时间成本和人力成本巨大。
技术实现思路
本专利技术的一个实施例所要解决的技术问题在于,提供一种文本内容提取方法、装置、系统及存储介质,能够实现目标文本内容提取的半自动化,在确保所提取的目标文本内容准确的基础上,还提高目标文本内容提取效率,同时节约时间成本和人力成本。为了解决上述技术问题,本专利技术的一个实施例提供了一种文本内容提取方法,包括如下步骤:接收编辑终端发送的文本内容提取请求,并发送文本内容提取页面至所述编辑终端;接收编辑终端根据文本内容提取页面发送的书籍信息;所述书籍信息包括书籍类别、书籍名称,以及作者;根据所述书籍信息,查询书籍数据库并利用语义分析和预设的内容提取规则提取该书籍的目标文本内容,并打包发送至所述编辑终端。优选地,所述根据所述书籍信息,查询书籍数据库并利用语义分析和预设的内容提取规则提取该书籍的目标文本内容,并打包发送至所述编辑终端,具体为:根据书籍的书籍类别、书籍名称,以及作者,查询书籍数据库以获取所述书籍文本内容;对待提取书籍的文本内容数据进行语义分析,并根据语义分析结果匹配规则库中对应的内容提取规则;若匹配成功,则使用所述内容提取规则从所述书籍的文本内容中提取目标文本内容,并将提取的所述目标文本内容打包发送至所述编辑终端;若匹配失败,则记录语义分析结果,并建立新的内容提取规则,并将该新建立的内容提取规则更新至规则库。优选地,所述对待提取书籍的文本内容数据进行语义分析包括:对提取书籍的文本内容数据进行分词和词性标注;对分词的结果进行实体标注;构建数据中各词之间的关联关系;所述实体标注包括人名标注、时间标注以及数字标注。优选地,所述对分词的结果进行实体标注,具体为:采用条件随机场的模型,根据经机器学习对书籍的文本内容作出的分词和词性标注,同时利用书籍的文本内容的上下文内容、前后词语的词性以及词语的长度,进一步对书籍的文本内容进行实体标注。优选地,所述内容提取规则为根据选取的书籍文本内容样本、关键词,以及与关键词相关联的语法关系进行训练分析提取;所述规则库为根据书籍的文本内容和语义分析建立。本专利技术的一个实施例还提供了一种文本内容提取装置,包括:文本内容提取请求接收单元,接收编辑终端发送文本内容提取请求,并发送文本内容提取页面至所述编辑终端;文本内容提取单元,用于接收编辑终端根据文本内容提取页面发送的书籍信息,并根据所述书籍信息,查询书籍数据库并利用语义分析和预设的内容提取规则提取该书籍的目标文本内容,并打包发送至所述编辑终端;所述书籍信息包括书籍类别、书籍名称,以及作者。本专利技术的一个实施例还提供了一种文本内容提取装置,包括处理器,存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时,实现如上述的文本内容提取方法。本专利技术的一个实施例还提供了一种存储介质,所述存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述存储介质所在设备执行如上述的文本内容提取方法。本专利技术的一个实施例还提供了一种文本内容提取系统,包括编辑终端和服务器;编辑终端,用于发送文本内容提取请求至服务器;所述服务器,用于根据所述文本内容提取请求,发送文本内容提取页面至所述编辑终端;所述编辑终端,还用于获取用户根据文本内容提取页面选取的书籍信息,并发送至服务器;所述书籍信息包括书籍类别、书籍名称,以及作者;所述服务器,还用于根据所述书籍信息,查询书籍数据库并利用语义分析和预设的内容提取规则提取该书籍的目标文本内容,并打包发送至所述编辑终端。实施本专利技术实施例,具有如下有益效果:本专利技术的文本内容提取方法、装置、系统及存储介质,通过接收编辑终端发送的文本内容提取请求,并发送文本内容提取页面至所述编辑终端;接收编辑终端根据文本内容提取页面发送的书籍信息;所述书籍信息包括书籍类别、书籍名称,以及作者;根据所述书籍信息,查询书籍数据库并利用语义分析和预设的内容提取规则提取该书籍的目标文本内容,并打包发送至所述编辑终端。责任编辑可浏览服务器发送至编辑终端的经过初步提取的文本内容,并判断是否对此书目进行精读,本专利技术通过智能终端和服务器的交互,实现目标文本内容提取的半自动化,在确保所提取的目标文本内容准确的基础上,还提高目标文本内容提取效率,同时节约时间成本和人力成本。附图说明为了更清楚地说明本专利技术的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术的一个实施例提供的一种文本内容提取方法的流程示意图;图2是本专利技术的一个实施例提供的一种文本内容提取装置的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1,图1是本专利技术的一个实施例提供的一种文本内容提取方法的流程示意图。本专利技术的一个实施例提供的一种文本内容提取方法可以由服务器执行,且下文均以服务器作为执行主体为例进行说明。所述文本内容提取方法,包括如下步骤:S101、接收编辑终端发送的文本内容提取请求,并发送文本内容提取页面至所述编辑终端;在本专利技术的一个实施例中,所述编辑终端可为智能手机、个人电脑等智能终端,所述文本内容提取页面为阅读器APP页面或微信小程序页面或微信公众号页面等。以微信公众号为例,编辑终端与服务器的数据交互以微信公众号页面或公众号编辑页面或者其他平台编辑编辑页面为展示层。当责任编辑进入编辑页面之后,点击文本编辑选项,随即编辑终端发送的文本内容提取请求至服务器,服务器响应该请求并返回文本内容提取页面至所述编辑终端。S102、接收编辑终端根据文本内容提取页面发送的书籍信息;所述书籍信息包括书籍类别、书籍名称,以及作者;在本专利技术的一个实施例中,责任编辑可以根据服务器返回编辑终端的文本内容提取页面进行文本内容提取操作,如从海量书籍中确定选取需要浏览的书籍的范围或类别信息,如财经类、金融类、投资类等,以及具体的书籍,然后把选中的待提取的书籍的书籍信息,包括书籍类别、书籍名称,以及作者发送至服务器,由服务器进行下一步的提取操作。S103、根据所述书籍信息,查询书籍数据库并利用语义分析和预设的内容提取规则提取该书籍的目标文本内容,并打包发送至所述编辑终端。在本专利技术的一个实施例中,优选地,所述根据所述书籍信息本文档来自技高网...
文本内容提取方法、装置、系统及存储介质

【技术保护点】
一种文本内容提取方法,其特征在于,包括如下步骤:接收编辑终端发送的文本内容提取请求,并发送文本内容提取页面至所述编辑终端;接收编辑终端根据文本内容提取页面发送的书籍信息;所述书籍信息包括书籍类别、书籍名称,以及作者;根据所述书籍信息,查询书籍数据库并利用语义分析和预设的内容提取规则提取该书籍的目标文本内容,并打包发送至所述编辑终端。

【技术特征摘要】
1.一种文本内容提取方法,其特征在于,包括如下步骤:接收编辑终端发送的文本内容提取请求,并发送文本内容提取页面至所述编辑终端;接收编辑终端根据文本内容提取页面发送的书籍信息;所述书籍信息包括书籍类别、书籍名称,以及作者;根据所述书籍信息,查询书籍数据库并利用语义分析和预设的内容提取规则提取该书籍的目标文本内容,并打包发送至所述编辑终端。2.根据权利要求1所述的一种文本内容提取方法,其特征在于,所述根据所述书籍信息,查询书籍数据库并利用语义分析和预设的内容提取规则提取该书籍的目标文本内容,并打包发送至所述编辑终端,具体为:根据书籍的书籍类别、书籍名称,以及作者,查询书籍数据库以获取所述书籍文本内容;对待提取书籍的文本内容数据进行语义分析,并根据语义分析结果匹配规则库中对应的内容提取规则;若匹配成功,则使用所述内容提取规则从所述书籍的文本内容中提取目标文本内容,并将提取的所述目标文本内容打包发送至所述编辑终端;若匹配失败,则记录语义分析结果,并建立新的内容提取规则,并将该新建立的内容提取规则更新至规则库。3.根据权利要求2所述的一种文本内容提取方法,其特征在于,所述对待提取书籍的文本内容数据进行语义分析包括:对提取书籍的文本内容数据进行分词和词性标注;对分词的结果进行实体标注;构建数据中各词之间的关联关系;所述实体标注包括人名标注、时间标注以及数字标注。4.根据权利要求3所述的一种文本内容提取方法,其特征在于,所述对分词的结果进行实体标注,具体为:采用条件随机场的模型,根据经机器学习对书籍的文本内容作出的分词和词性标注,同时利用书籍的文本内容的上下文内容、前后词语的词性以及词语的长度,进一步对书籍的...

【专利技术属性】
技术研发人员:刘克亮
申请(专利权)人:风变科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1