一种目标文本显示方法及装置制造方法及图纸

技术编号:18591833 阅读:27 留言:0更新日期:2018-08-04 20:00
本申请实施例公开了一种目标文本显示方法及装置,用于用户从海量文档中快速获取到所需要文本,该方法包括:预先建立倒排索引,倒排索引包括各个分词对应的文档标识以及段落标识;获取用户输入的查询词,查询词包括第一分词;根据倒排索引,查询第一分词对应的文档标识和/或段落标识,根据第一分词对应的文档标识和/或段落标识确定第一分词对应的文档和/或段落;对第一分词对应的文档和/或段落进行排序,按照排序结果将第一分词对应的文档摘要和/或段落摘要发送给终端顺序显示;在获取到针对任一第一分词对应的文档摘要或者段落摘要的显示请求,向终端发送该文档摘要或者段落摘要对应的文档页面,以使终端加载显示该文档页面。

A method and device for target text display

The application embodiment discloses a target text display method and device for the user to quickly obtain the required text from a mass document. The method includes: setting up an inverted index in advance, an inverted index including the document identification corresponding to the individual participle and the paragraph identification; obtaining the query words for the user input, and the query words including The first participle; the document identification and / or paragraph identification corresponding to the first participle according to the inverted index to determine the documents and / or paragraphs corresponding to the first participle according to the document identification and / or paragraph identifier corresponding to the first participle; to sort the documents and / or paragraphs corresponding to the first participle, and to make the first participle according to the ranking result. The document summary and / or paragraph summary should be sent to the terminal sequence display; the document page is sent to the terminal or the document page corresponding to the paragraph summary to the terminal to display the document page by the terminal, or the document page corresponding to the paragraph summary to the terminal for the display request for a document summary or a paragraph summary corresponding to any of the first participle.

【技术实现步骤摘要】
一种目标文本显示方法及装置
本申请涉及互联网
,具体涉及一种目标文本显示方法及装置。
技术介绍
随着互联网技术的发展,用户会面临大量信息、文档的阅读。通常情况下,用户会按照顺序逐页翻看文档,完成快速扫描阅读。但是,当用户需要阅读文档中某一关注点的内容时,很难快速获得所需要的信息。例如,金融分析师在面对很多几百页的上市公司年度报告时,如逐页翻看各个文档以寻找某一关注点时,会花费大量时间,且极易遗漏相关内容。因此,如何使用户可以从海量文档中快速阅读到所需要的内容是亟待解决的技术问题。
技术实现思路
有鉴于此,本申请实施例提供一种目标文本显示方法及装置,以解决现有技术中用户无法从海量文档中快速获取到所需要文本的技术问题。为解决上述问题,本申请实施例提供的技术方案如下:一种目标文本显示方法,预先建立倒排索引,所述倒排索引包括各个分词对应的文档标识以及段落标识,所述方法包括:获取用户输入的查询词,所述查询词包括第一分词;根据所述倒排索引,查询所述第一分词对应的文档标识和/或段落标识,根据所述第一分词对应的文档标识和/或段落标识确定所述第一分词对应的文档和/或段落;对所述第一分词对应的文档和/或段落进行排序,按照排序结果将所述第一分词对应的文档摘要和/或段落摘要发送给终端顺序显示;在获取到针对任一所述第一分词对应的文档摘要或者段落摘要的显示请求,向所述终端发送该文档摘要或者段落摘要对应的文档页面,以使所述终端加载显示该文档页面。可选的,所述方法还包括:确定所述查询词对应的相关词,向所述终端发送所述相关词进行显示,所述相关词包括第二分词;根据所述倒排索引,查询所述第二分词对应的文档标识和/或段落标识,根据所述第二分词对应的文档标识和/或段落标识确定所述第二分词对应的文档和/或段落;对所述第二分词对应的文档和/或段落进行排序;获取针对任一所述相关词的查询请求,将该相关词包括的第二分词对应的文档摘要和/或段落摘要按照排序结果发送给终端顺序显示;在获取到针对任一所述第二分词对应的文档摘要或者段落摘要的显示请求,向所述终端发送该文档摘要或者段落摘要对应的文档页面,以使所述终端加载显示该文档页面。可选的,所述确定所述查询词对应的相关词,包括:根据分词特征模型确定所述第一分词的特征向量以及其他各个分词的特征向量;计算所述第一分词的特征向量与其他各个分词的特征向量之间的相似度;将与所述第一分词的特征向量的相似度满足预设条件的分词确定为相关词。可选的,所述根据分词特征模型确定所述第一分词的特征向量以及其他各个分词的特征向量,包括:将任一分词的初始特征向量作为分词特征模型的输出,按照各个文档中的语序,将该分词先后预设范围内分词的初始特征向量作为所述分词特征模型的输入,对所述分词特征模型进行训练,在所述分词特征模型达到收敛条件后,得到所述第一分词的特征向量以及其他各个分词的特征向量,所述分词特征模型为神经网络模型。可选的,所述方法还包括:根据历史查询词记录,确定所述查询词对应的预测查询词,所述预测查询词包括第三分词;根据所述倒排索引,查询所述第三分词对应的文档标识和/或段落标识,根据所述第三分词对应的文档标识和/或段落标识确定所述第三分词对应的文档和/或段落;对所述第三分词对应的文档和/或段落进行排序;获取针对任一所述预测查询词的查询请求,将该预测查询词包括的第三分词对应的文档摘要和/或段落摘要按照排序结果发送给终端顺序显示;在获取到针对任一所述第三分词对应的文档摘要或者段落摘要的显示请求,向所述终端发送该文档摘要或者段落摘要对应的文档页面,以使所述终端加载显示该文档页面。可选的,所述对所述第一分词对应的文档和/或段落进行排序,包括:根据所述第一分词对应的文档的文档类型、所述第一分词在每篇对应的文档中的出现次数、所述第一分词在每篇对应的文档中的出现比例、所述第一分词在每篇对应的文档中的出现位置、各个所述第一分词在每篇对应的文档中的距离中的一项或多项,对所述第一分词对应的文档进行排序;和/或,根据所述第一分词在每个对应的段落中的出现次数、所述第一分词在每个对应的段落中的出现比例、所述第一分词在每个对应的段落中的出现位置、各个所述第一分词在每个对应的段落中的距离中的一项或多项,对所述第一分词对应的段落进行排序。一种目标文本显示装置,所述装置包括:建立单元,用于预先建立倒排索引,所述倒排索引包括各个分词对应的文档标识以及段落标识;第一获取单元,用于获取用户输入的查询词,所述查询词包括第一分词;第一查询单元,用于根据所述倒排索引,查询所述第一分词对应的文档标识和/或段落标识,根据所述第一分词对应的文档标识和/或段落标识确定所述第一分词对应的文档和/或段落;第一排序单元,用于对所述第一分词对应的文档和/或段落进行排序,按照排序结果将所述第一分词对应的文档摘要和/或段落摘要发送给终端顺序显示;第一发送单元,用于在获取到针对任一所述第一分词对应的文档摘要或者段落摘要的显示请求,向所述终端发送该文档摘要或者段落摘要对应的文档页面,以使所述终端加载显示该文档页面。可选的,所述装置还包括:第一确定单元,用于确定所述查询词对应的相关词,向所述终端发送所述相关词进行显示,所述相关词包括第二分词;第二查询单元,用于根据所述倒排索引,查询所述第二分词对应的文档标识和/或段落标识,根据所述第二分词对应的文档标识和/或段落标识确定所述第二分词对应的文档和/或段落;第二排序单元,用于对所述第二分词对应的文档和/或段落进行排序;第二获取单元,用于获取针对任一所述相关词的查询请求,将该相关词包括的第二分词对应的文档摘要和/或段落摘要按照排序结果发送给终端顺序显示;第二发送单元,用于在获取到针对任一所述第二分词对应的文档摘要或者段落摘要的显示请求,向所述终端发送该文档摘要或者段落摘要对应的文档页面,以使所述终端加载显示该文档页面。可选的,所述第一确定单元包括:第一确定子单元,用于根据分词特征模型确定所述第一分词的特征向量以及其他各个分词的特征向量;计算子单元,用于计算所述第一分词的特征向量与其他各个分词的特征向量之间的相似度;第二确定子单元,用于将与所述第一分词的特征向量的相似度满足预设条件的分词确定为相关词。可选的,所述第一确定子单元具体用于:将任一分词的初始特征向量作为分词特征模型的输出,按照各个文档中的语序,将该分词先后预设范围内分词的初始特征向量作为所述分词特征模型的输入,对所述分词特征模型进行训练,在所述分词特征模型达到收敛条件后,得到所述第一分词的特征向量以及其他各个分词的特征向量,所述分词特征模型为神经网络模型。可选的,所述装置还包括:第二确定单元,用于根据历史查询词记录,确定所述查询词对应的预测查询词,所述预测查询词包括第三分词;第三查询单元,用于根据所述倒排索引,查询所述第三分词对应的文档标识和/或段落标识,根据所述第三分词对应的文档标识和/或段落标识确定所述第三分词对应的文档和/或段落;第三排序单元,用于对所述第三分词对应的文档和/或段落进行排序;第三获取单元,用于获取针对任一所述预测查询词的查询请求,将该预测查询词包括的第三分词对应的文档摘要和/或段落摘要按照排序结果发送给终端顺序显示;第三发送单元,用于在获取到针对任一所述第三分词对应本文档来自技高网...

【技术保护点】
1.一种目标文本显示方法,其特征在于,预先建立倒排索引,所述倒排索引包括各个分词对应的文档标识以及段落标识,所述方法包括:获取用户输入的查询词,所述查询词包括第一分词;根据所述倒排索引,查询所述第一分词对应的文档标识和/或段落标识,根据所述第一分词对应的文档标识和/或段落标识确定所述第一分词对应的文档和/或段落;对所述第一分词对应的文档和/或段落进行排序,按照排序结果将所述第一分词对应的文档摘要和/或段落摘要发送给终端顺序显示;在获取到针对任一所述第一分词对应的文档摘要或者段落摘要的显示请求,向所述终端发送该文档摘要或者段落摘要对应的文档页面,以使所述终端加载显示该文档页面。

【技术特征摘要】
1.一种目标文本显示方法,其特征在于,预先建立倒排索引,所述倒排索引包括各个分词对应的文档标识以及段落标识,所述方法包括:获取用户输入的查询词,所述查询词包括第一分词;根据所述倒排索引,查询所述第一分词对应的文档标识和/或段落标识,根据所述第一分词对应的文档标识和/或段落标识确定所述第一分词对应的文档和/或段落;对所述第一分词对应的文档和/或段落进行排序,按照排序结果将所述第一分词对应的文档摘要和/或段落摘要发送给终端顺序显示;在获取到针对任一所述第一分词对应的文档摘要或者段落摘要的显示请求,向所述终端发送该文档摘要或者段落摘要对应的文档页面,以使所述终端加载显示该文档页面。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:确定所述查询词对应的相关词,向所述终端发送所述相关词进行显示,所述相关词包括第二分词;根据所述倒排索引,查询所述第二分词对应的文档标识和/或段落标识,根据所述第二分词对应的文档标识和/或段落标识确定所述第二分词对应的文档和/或段落;对所述第二分词对应的文档和/或段落进行排序;获取针对任一所述相关词的查询请求,将该相关词包括的第二分词对应的文档摘要和/或段落摘要按照排序结果发送给终端顺序显示;在获取到针对任一所述第二分词对应的文档摘要或者段落摘要的显示请求,向所述终端发送该文档摘要或者段落摘要对应的文档页面,以使所述终端加载显示该文档页面。3.根据权利要求2所述的方法,其特征在于,所述确定所述查询词对应的相关词,包括:根据分词特征模型确定所述第一分词的特征向量以及其他各个分词的特征向量;计算所述第一分词的特征向量与其他各个分词的特征向量之间的相似度;将与所述第一分词的特征向量的相似度满足预设条件的分词确定为相关词。4.根据权利要求3所述的方法,其特征在于,所述根据分词特征模型确定所述第一分词的特征向量以及其他各个分词的特征向量,包括:将任一分词的初始特征向量作为分词特征模型的输出,按照各个文档中的语序,将该分词先后预设范围内分词的初始特征向量作为所述分词特征模型的输入,对所述分词特征模型进行训练,在所述分词特征模型达到收敛条件后,得到所述第一分词的特征向量以及其他各个分词的特征向量,所述分词特征模型为神经网络模型。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据历史查询词记录,确定所述查询词对应的预测查询词,所述预测查询词包括第三分词;根据所述倒排索引,查询所述第三分词对应的文档标识和/或段落标识,根据所述第三分词对应的文档标识和/或段落标识确定所述第三分词对应的文档和/或段落;对所述第三分词对应的文档和/或段落进行排序;获取针对任一所述预测查询词的查询请求,将该预测查询词包括的第三分词对应的文档摘要和/或段落摘要按照排序结果发送给终端顺序显示;在获取到针对任一所述第三分词对应的文档摘要或者段落摘要的显示请求,向所述终端发送该文档摘要或者段落摘要对应的文档页面,以使所述终端加载显示该文档页面。6.根据权利要求1所述的方法,其特征在于,所述对所述第一分词对应的文档和/或段落进行排序,包括:根据所述第一分词对应的文档的文档类型、所述第一分词在每篇对应的文档中的出现次数、所述第一分词在每篇对应的文档中的出现比例、所述第一分词在每篇对应的文档中的出现位置、各个所述第一分词在每篇对应的文档中的距离中的一项或多项,对所述第一分词对应的文档进行排序;和/或,根据所述第一分词在每个对应的段落中的出现次数、所述第一分词在每个对应的段落中的出现比例、所述第一分词在每个对应的段落中的出现位置、各个所述第一分词在每个对应的段落中的距离中的一项或多项,对所述第一分词对应的段落进行排序。7.一种目标文本显示装置,其特征在于,所述装置包括:建立单元,用于预先建立倒排索引,所述倒排索引包括各个分词对应的文...

【专利技术属性】
技术研发人员:张晓东陈利人翟忠武苏波李效云
申请(专利权)人:广州数知科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1