【技术实现步骤摘要】
文本的查询方法、文本查询装置以及计算机存储介质
本申请涉及文本查询
,特别是涉及一种文本的查询方法、文本查询装置以及计算机存储介质。
技术介绍
在文献检索时,用户给定一个专业领域相关的问题,检索系统要从数据库中找出与该问题最相关的若干篇文献返回给用户,用户即可快速获得所需的相关文献资料,能够节省大量的时间。随着现代互联网技术的发展,越来越多的文献资料可从互联网中直接获取到,如何做到快速精准的文献检索也成为了自然语言处理领域研究的一个热点方向。而在文献检索时,常常涉及到专业领域,例如法律领域,法律领域中文献的检索问题有其区别于其他领域文献检索的特点,首先,法律领域有较多的专业术语是以短语的形式出现的,这些短语在文献检索时,可能会被分成单独的词语来处理。其次,法律领域的文献其案由和关键词的关联性较强,如果能够利用好案由和关键字的关系,就能够较好的提升检索效果。
技术实现思路
为解决上述问题,本申请提供了一种文本的查询方法、文本查询装置以及计算机存储介质,能够提高文本查询的精确度和效率。本 ...
【技术保护点】
1.一种文本的查询方法,其特征在于,所述方法包括:/n基于查询语句和文档语句的第一词语级别的相关性,对所述查询语句和所述文档语句引入注意力机制,并根据引入注意力机制后的所述查询语句和所述文档语句的相关性,得到第一查询结果;/n根据所述第一词语级别的相关性,得到所述查询语句和所述文档语句的短语级别的相关性,并根据所述短语级别的相关性得到第二查询结果;/n基于所述查询语句中的专业领域词汇和所述文档语句中的专业领域词汇的第二词语级别的相关性,对所述查询语句和所述文档语句引入注意力机制,并根据引入注意力机制后的所述查询语句和所述文档语句的相关性,得到第三查询结果;/n根据所述第一查 ...
【技术特征摘要】 【专利技术属性】
1.一种文本的查询方法,其特征在于,所述方法包括:
基于查询语句和文档语句的第一词语级别的相关性,对所述查询语句和所述文档语句引入注意力机制,并根据引入注意力机制后的所述查询语句和所述文档语句的相关性,得到第一查询结果;
根据所述第一词语级别的相关性,得到所述查询语句和所述文档语句的短语级别的相关性,并根据所述短语级别的相关性得到第二查询结果;
基于所述查询语句中的专业领域词汇和所述文档语句中的专业领域词汇的第二词语级别的相关性,对所述查询语句和所述文档语句引入注意力机制,并根据引入注意力机制后的所述查询语句和所述文档语句的相关性,得到第三查询结果;
根据所述第一查询结果、所述第二查询结果和所述第三查询结果,确定基于所述查询语句的最终查询结果。
2.根据权利要求1所述的方法,其特征在于,
所述基于查询语句和文档语句的第一词语级别的相关性,对所述查询语句和所述文档语句引入注意力机制,并根据引入注意力机制后的所述查询语句和所述文档语句的相关性,得到第一查询结果包括:
确定所述查询语句和文档语句的向量表达;
计算所述查询语句和所述文档语句的词语级别的相关性矩阵;
基于所述查询语句和所述文档语句的词语级别的相关性矩阵,对所述查询语句和文档语句的向量表达引入注意力机制;
根据引入注意力机制后的所述查询语句和所述文档语句的相关性,得到第一查询结果。
3.根据权利要求2所述的方法,其特征在于,
所述确定所述查询语句和文档语句的向量表达,包括:
对所述查询语句和文档语句进行分词和词嵌入处理,以得到所述查询语句的向量表达Qn*k和所述文档语句的向量表达Dm*k,其中,
其中,k表示词语进行词嵌入后向量的维数,n表示查询语句序列中分词后的词语的个数,m表示文档语句中分词后词语的个数,表示查询语句序列中第i个词语的向量表达,表示文档中第i个词语的向量表达。
4.根据权利要求3所述的方法,其特征在于,
所述计算所述查询语句和所述文档语句的词语级别的相关性矩阵,包括:
计算查询语句和文档语句的词语级别的相关性矩阵Mn*m,其中,矩阵Mn*m中的第i行第j列的元素Mij采用以下公式计算得到:
其中,表示查询语句序列中的第i个词语对应的向量,表示文档语句中第j个词语对应的向量。
5.根据权利要求4所述的方法,其特征在于,
所述基于所述查询语句和所述文档语句的词语级别的相关性矩阵,对所述查询语句和文档语句的向量表达引入注意力机制,包括:
采用以下公式计算引入注意力机制后的所述查询语句和文档语句的向量表达:
其中,表示查询语句序列中的第i个词语引入注意力机制后的向量,表示文档中第j个词语引入注意力机制后的的向量。
6.根据权利要求5所述的方法,其特征在于,
技术研发人员:杨敏,姜青山,曲强,李成明,贺倩明,
申请(专利权)人:中国科学院深圳先进技术研究院,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。