【技术实现步骤摘要】
一种基于深度学习的长文本检索系统及方法
本申请涉及长文本检索
,尤其涉及一种基于深度学习的长文本检索系统及方法。
技术介绍
文献检索是检索对象为文献的一种信息检索技术,是根据学习和工作的需要通过检索来获取文献的过程。随着现代网络技术的发展,文献检索的更多是通过计算机技术来完成。文献的检索语言可分为分类语言(以数字、字母或字母与数字结合作为基本字符,以基本类目作为基本词汇,以类目的从属关系来表达复杂概念的一类检索语言)、主题语言(以自然语言的字符为字符,以名词术语为基本词汇,用一组名词术语作为检索标识的一类检索语言)等。使用规范的文献检索语言可以快速准确的检索出所需的文献资料,但规范的文献检索语言使用门槛较高,普通用户由于不了解分类规则或检索关键字表达不准确等原因不能较好的使用规范的文献检索语言。因此,需要通过分析用户输入的自然语言,直接检索到其最需要的文献的检索系统。现有技术中,一方面提出了基于交互的文本匹配系统,该系统首先将用户输入的问题和文本文档的每个词转化为词向量,然后基于词向量计算用户输入的问题和文本文 ...
【技术保护点】
1.一种基于深度学习的长文本检索系统,其特征在于,所述长文本检索系统包括:/n交互特征提取模块,用于对长文本文档进行分段,将得到的文本片段与用户输入的搜索请求数据进行拼接,并输入至基本特征提取器中,提取文本片段交互特征,其中,所述基本特征提取器通过预设的掩膜机制可准确提取所述文本片段交互特征;/n交互特征聚合模块,用于对所述文本片段交互特征进行聚合,得到聚合文本片段交互特征;/n输出模块,用于将所述聚合文本片段交互特征输入至匹配得分计算器中,计算所述搜索请求数据和所述长文本文档的匹配得分。/n
【技术特征摘要】
1.一种基于深度学习的长文本检索系统,其特征在于,所述长文本检索系统包括:
交互特征提取模块,用于对长文本文档进行分段,将得到的文本片段与用户输入的搜索请求数据进行拼接,并输入至基本特征提取器中,提取文本片段交互特征,其中,所述基本特征提取器通过预设的掩膜机制可准确提取所述文本片段交互特征;
交互特征聚合模块,用于对所述文本片段交互特征进行聚合,得到聚合文本片段交互特征;
输出模块,用于将所述聚合文本片段交互特征输入至匹配得分计算器中,计算所述搜索请求数据和所述长文本文档的匹配得分。
2.根据权利要求1所述的一种基于深度学习的长文本检索系统,其特征在于,所述交互特征提取模块具体用于实现如下操作:
对长文本文档进行分段,并获取得到的文本片段的字符向量序列;
获取用户输入的搜索请求数据,及搜索请求数据的字符向量序列;
将所述文本片段的字符向量序列与所述搜索请求数据的字符向量序列进行拼接,得到输入字符向量序列;
对所述输入字符向量序列采用预设的掩膜机制进行处理,得到掩膜向量,其中,所述预设的掩膜机制包括普通的掩膜机制和基于匹配字符的掩膜机制,所述掩膜向量包括普通掩膜向量和基于匹配字符的掩膜向量;
将所述输入字符向量序列和所述普通掩膜向量以及所述基于匹配字符的掩膜向量同时输入至所述基本特征提取器中,提取所述文本片段交互特征。
3.根据权利要求2所述的一种基于深度学习的长文本检索系统,其特征在于,所述基本特征提取器具体为基于注意力的双向编码器,通过所述基于注意力的双向编码器的自注意力结构和所述基于匹配字符的掩膜机制的结合,查询所述搜索请求数据的字符向量序列与所述文本片段的字符向量序列中完全匹配的字符,准确提取所述文本片段交互特征。
4.根据权利要求2所述的一种基于深度学习的长文本检索系统,其特征在于,提取所述文本片段交互特征采用的公式具体如下
vi=BERT([Q;Pi],M1,M2),
其中,i的取值范围为1,2,3,...,n,vi表示文本片段交互特征,Q表示搜索请求数据的字符向量序列,Pi表示文本片段的字符向量序列,M1表示普通掩膜向量,M2表示基于匹配字符的掩膜向量。
5.根据权利要求1所述的一...
【专利技术属性】
技术研发人员:李杰坷,杨敏,李成明,贺倩明,
申请(专利权)人:深圳得理科技有限公司,中国科学院深圳先进技术研究院,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。