The invention discloses a text extraction method, device, system and storage medium, wherein the method comprises: receiving text editor sent by the terminal extraction request, and send text pages to the editing terminal; the receiving terminal editing extract page send books information according to the text content; the books information includes books, books category name, and the author; according to the information of books, check books database and the use of semantic analysis and preset content extraction rules to extract the target text contents of the book, and sends them to the editing terminal. The invention realizes semi-automatic extraction of target text content through interaction between intelligent terminal and server, and improves the extraction efficiency of target text content on the basis of ensuring the accuracy of the extracted target text content, and saves time cost and labor cost.
【技术实现步骤摘要】
文本内容提取方法、装置、系统及存储介质
本专利技术涉及自然语言处理领域,尤其涉及一种文本内容提取方法、装置、系统及存储介质。
技术介绍
随着教育平台越来越多,越来越完善,人们也乐意为在线教育付费,而且随着移动终端的快速发展,手机、电脑等成为人们生活中的必需品,在线阅读也成了的人们喜好和习惯。为了给用户提供高质量的阅读资源,各平台、阅读器、APP等会很大程度上依靠人工对提供给用户的资源进行筛选和鉴定,以展示最精彩最具有价值的内容。但是在商业化背景下,仅依靠人工全文阅读甚至全文精读来选择书本的精髓内容,准确率虽然较高,但是效率低下,时间成本和人力成本巨大。
技术实现思路
本专利技术的一个实施例所要解决的技术问题在于,提供一种文本内容提取方法、装置、系统及存储介质,能够实现目标文本内容提取的半自动化,在确保所提取的目标文本内容准确的基础上,还提高目标文本内容提取效率,同时节约时间成本和人力成本。为了解决上述技术问题,本专利技术的一个实施例提供了一种文本内容提取方法,包括如下步骤:接收编辑终端发送的文本内容提取请求,并发送文本内容提取页面至所述编辑终端;接收编辑终端根据文本内容提取页面发送的书籍信息;所述书籍信息包括书籍类别、书籍名称,以及作者;根据所述书籍信息,查询书籍数据库并利用语义分析和预设的内容提取规则提取该书籍的目标文本内容,并打包发送至所述编辑终端。优选地,所述根据所述书籍信息,查询书籍数据库并利用语义分析和预设的内容提取规则提取该书籍的目标文本内容,并打包发送至所述编辑终端,具体为:根据书籍的书籍类别、书籍名称,以及作者,查询书籍数据库以获取所述书籍文本 ...
【技术保护点】
一种文本内容提取方法,其特征在于,包括如下步骤:接收编辑终端发送的文本内容提取请求,并发送文本内容提取页面至所述编辑终端;接收编辑终端根据文本内容提取页面发送的书籍信息;所述书籍信息包括书籍类别、书籍名称,以及作者;根据所述书籍信息,查询书籍数据库并利用语义分析和预设的内容提取规则提取该书籍的目标文本内容,并打包发送至所述编辑终端。
【技术特征摘要】
1.一种文本内容提取方法,其特征在于,包括如下步骤:接收编辑终端发送的文本内容提取请求,并发送文本内容提取页面至所述编辑终端;接收编辑终端根据文本内容提取页面发送的书籍信息;所述书籍信息包括书籍类别、书籍名称,以及作者;根据所述书籍信息,查询书籍数据库并利用语义分析和预设的内容提取规则提取该书籍的目标文本内容,并打包发送至所述编辑终端。2.根据权利要求1所述的一种文本内容提取方法,其特征在于,所述根据所述书籍信息,查询书籍数据库并利用语义分析和预设的内容提取规则提取该书籍的目标文本内容,并打包发送至所述编辑终端,具体为:根据书籍的书籍类别、书籍名称,以及作者,查询书籍数据库以获取所述书籍文本内容;对待提取书籍的文本内容数据进行语义分析,并根据语义分析结果匹配规则库中对应的内容提取规则;若匹配成功,则使用所述内容提取规则从所述书籍的文本内容中提取目标文本内容,并将提取的所述目标文本内容打包发送至所述编辑终端;若匹配失败,则记录语义分析结果,并建立新的内容提取规则,并将该新建立的内容提取规则更新至规则库。3.根据权利要求2所述的一种文本内容提取方法,其特征在于,所述对待提取书籍的文本内容数据进行语义分析包括:对提取书籍的文本内容数据进行分词和词性标注;对分词的结果进行实体标注;构建数据中各词之间的关联关系;所述实体标注包括人名标注、时间标注以及数字标注。4.根据权利要求3所述的一种文本内容提取方法,其特征在于,所述对分词的结果进行实体标注,具体为:采用条件随机场的模型,根据经机器学习对书籍的文本内容作出的分词和词性标注,同时利用书籍的文本内容的上下文内容、前后词语的词性以及词语的长度,进一步对书籍的...
【专利技术属性】
技术研发人员:刘克亮,
申请(专利权)人:风变科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。