一种文档的搜索处理方法及装置制造方法及图纸

技术编号:22688906 阅读:29 留言:0更新日期:2019-11-30 03:34
本发明专利技术提供了一种文档的搜索处理方法、装置、电子设备及存储介质;方法包括:响应于针对文档的搜索请求,确定搜索信息;根据搜索信息,确定对应的至少一个搜索结果;根据搜索结果以及搜索信息,确定搜索结果中相对于搜索信息的实体词;根据搜索结果中相对于搜索信息的实体词以及搜索结果,确定搜索结果的惩罚值;根据搜索结果的惩罚值,确定搜索结果与搜索信息的文本相关度;基于搜索结果与搜索信息的文本相关度,对至少一个搜索结果进行排序,得到用于响应搜索请求的搜索文档。通过本发明专利技术,能够根据搜索请求,获得准确的搜索文档。

A search processing method and device for documents

The invention provides a document search processing method, device, electronic device and storage medium; the method comprises: determining search information in response to a search request for a document; determining at least one corresponding search result according to the search information; determining entity words in the search result relative to the search information according to the search result and the search information; and determining entity words in the search result according to the search result Relative to the entity words and search results of search information, the penalty value of search results is determined; according to the penalty value of search results, the text relevance of search results and search information is determined; based on the text relevance of search results and search information, at least one search result is sorted to get the search documents used to respond to search requests. According to the invention, an accurate search document can be obtained according to the search request.

【技术实现步骤摘要】
一种文档的搜索处理方法及装置
本专利技术涉及人工智能的自然语言处理技术,尤其涉及一种文档的搜索处理方法、装置、电子设备及存储介质。
技术介绍
自然语言处理(NatureLanguageProcessing,NLP)是计算机科学领域与人工智能领域中的一个重要方向,能实现人与计算机之间用自然语言进行有效通信。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,该领域将涉及自然语言,即人们日常使用的语言,所以它与语言学有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。随着互联网技术的发展,网络信息资源已经成为了隐含巨大价值的网络大数据。由于网络资源信息过大,当用户需要查看某一文档时,无法做到对网络资源信息进行一一查看,来获得用户所需的文档。因此,现有技术提出采用自然语言处理技术的搜索系统,通过搜索系统针对网络资源信息进行搜索,得到用户所需的文档。虽然,现有的搜索系统在一定程度上缓解了人们在互联网搜索信息的问题。但是,现有的搜索系统往往是基于关键词进行机械式的匹配,不可避免地存本文档来自技高网...

【技术保护点】
1.一种文档的搜索处理方法,其特征在于,包括:/n响应于针对文档的搜索请求,确定搜索信息;/n根据所述搜索信息,确定对应的至少一个搜索结果;/n根据所述搜索结果以及所述搜索信息,确定所述搜索结果中相对于所述搜索信息的实体词;/n根据所述搜索结果中相对于所述搜索信息的实体词以及所述搜索结果,确定所述搜索结果的惩罚值;/n根据所述搜索结果的惩罚值,确定所述搜索结果与所述搜索信息的文本相关度;/n基于所述搜索结果与所述搜索信息的文本相关度,对所述至少一个搜索结果进行排序,得到用于响应所述搜索请求的搜索文档。/n

【技术特征摘要】
1.一种文档的搜索处理方法,其特征在于,包括:
响应于针对文档的搜索请求,确定搜索信息;
根据所述搜索信息,确定对应的至少一个搜索结果;
根据所述搜索结果以及所述搜索信息,确定所述搜索结果中相对于所述搜索信息的实体词;
根据所述搜索结果中相对于所述搜索信息的实体词以及所述搜索结果,确定所述搜索结果的惩罚值;
根据所述搜索结果的惩罚值,确定所述搜索结果与所述搜索信息的文本相关度;
基于所述搜索结果与所述搜索信息的文本相关度,对所述至少一个搜索结果进行排序,得到用于响应所述搜索请求的搜索文档。


2.根据权利要求1所述的方法,其特征在于,所述根据所述搜索信息,确定对应的至少一个搜索结果,包括:
对所述搜索信息进行分词处理,得到所述搜索信息中的关键词;
根据所述搜索信息中的关键词进行文档搜索,确定对应的至少一个搜索结果。


3.根据权利要求1所述的方法,其特征在于,所述根据所述搜索结果以及所述搜索信息,确定所述搜索结果中相对于所述搜索信息的实体词,包括:
根据所述搜索信息中的至少一个关键词,确定所述搜索结果中所述关键词的位置;
根据搜索结果中所述关键词的位置,确定所述搜索结果中存在实体词的部分文本;
对所述存在实体词的部分文本进行分词处理,得到所述搜索结果中相对于所述搜索信息的实体词。


4.根据权利要求1所述的方法,其特征在于,所述根据所述搜索信息,确定对应的至少一个搜索结果之后,所述方法还包括:
根据所述搜索结果以及所述搜索信息,确定所述搜索结果与所述搜索信息的相关度;
所述根据所述搜索结果的惩罚值,确定所述搜索结果与所述搜索信息的文本相关度,包括:
根据所述搜索结果与所述搜索信息的相关度以及所述搜索结果的惩罚值,得到所述搜索结果与所述搜索信息的文本相关度。


5.根据权利要求4所述的方法,其特征在于,所述根据所述搜索结果以及所述搜索信息,确定所述搜索结果与所述搜索信息的相关度,包括:
确定所述搜索信息中的关键词的权重;
根据所述搜索信息中的关键词以及所述搜索结果,确定所述关键词与所述搜索结果的相关度;
对所述关键词的权重、以及所述关键词与所述搜索结果的相关度进行加权求和,得到所述搜索结果与所述搜索信息的相关度。


6.根据权利要求5所述的方法,其特征在于,所述确定所述搜索信息中的关键词的权重,包括:
根据所述搜索信息中的关键词,确定文档库中包含所述关...

【专利技术属性】
技术研发人员:康战辉
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1