System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及计算机,尤其涉及一种文本定位方法、系统和存储介质。
技术介绍
1、在当今信息量庞大的社会中,人们在办公和文档处理过程中需要频繁进行文本检索和定位。无论是在大型企业还是个人用户中,快速准确地定位和获取特定文本信息的能力对于提高工作效率和处理效果至关重要。人们希望能够通过简单的搜索操作快速找到所需的文本,并且期望搜索结果与其意图高度匹配。
2、然而,传统的文本定位方法存在一定的局限性,无法完全满足日益增长的文本定位需求。传统的文本定位方法主要依赖于关键词匹配,存在以下的不足:
3、(1)关键词搜索容易受到语言表达的多样性和歧义性的干扰,导致搜索结果的准确性不高。这意味着用户可能会收到大量与其意图不相关的文本结果,造成时间和精力的浪费。
4、(2)传统方法往往无法处理文本的语义关联和全局上下文,无法理解文本中的语义信息,限制了搜索结果的准确性和全面性。
技术实现思路
1、针对现有技术的不足,本申请提出了一种文本定位方法、系统和存储介质,解决了现有文本定位方法准确率低,速度慢的问题。
2、为了实现上述目的,本申请技术方案如下:
3、一种文本定位方法,包括以下步骤s1-s4:
4、s1、获取关键词:获取目标文本对应的搜索关键词。
5、s2、非完全匹配搜索:采用非完全匹配算法根据搜索关键词对文件进行模糊搜索;若搜索结果不为空,则得到与搜索关键词相似度最高的文本对应的位置信息。
6、s3、语
7、s4、目标文本定位校准:对所述位置信息进行定位校准,得到目标文本所对应的页码和内容。
8、可选地,步骤s2包括以下步骤s21-s25:
9、s21、对文件进行预处理,去除空格和符号字符,得到预处理文件。
10、s22、从预处理文件中匹配若干含有搜索关键词字符的相似字符串。
11、s23、分别计算每个相似字符串中含有搜索关键词字符的个数。
12、s24、根据相似字符串的长度以及含有搜索关键词字符的个数,确定每个相似字符串对应的相似度。
13、s25、从各相似字符串中获取相似度最高的目标相似字符串,并输出目标相似字符串对应的位置信息。
14、可选地,步骤s3包括以下步骤s31-s34:
15、s31、根据文件的特征信息对文件进行文本切分,得到若干文本块。
16、s32、分别对各文本块进行去噪声信息处理,得到若干降噪文本块。
17、s33、分别对搜索关键词和各降噪文本块进行向量化,得到向量化关键词和若干向量化文本块。
18、s34、依次比较向量化关键词与各向量化文本块的相似度,确定与向量化关键词相似度最高的向量化文本块,得到所述位置信息。
19、可选地,步骤s33包括以下步骤s331-s334:
20、s331、对第一降噪文本块进行分词处理,得到第一降噪文本块的若干分词。
21、第一降噪文本块为若干降噪文本块中的任一降噪文本块。
22、s332、从预设的语料库得到每个分词对应的词向量表示。
23、s333、通过最大化条件概率分布,在向量空间中捕捉各词向量表示之间的语义关系和上下文信息。
24、s334、根据各词向量表示之间的语义关系和上下文信息,将每个词向量表示进行聚合,得到第一向量化文本块;最终,得到若干向量化文本块。
25、可选地,在步骤s333之前,还包括以下步骤s03331-s03333:
26、s03331、建立并训练word2vec词向量模型。
27、s03332、将每个词向量表示相加并求平均,得到输入特征。
28、s03333、将输入特征输入至word2vec词向量模型,得到第一降噪文本块的中心词向量表示的最大条件概率分布。
29、可选地,中心词向量表示的最大条件概率分布的表达式为:
30、maximize(p(center_word|context))=softmax(u(center_word)*x)
31、其中,u(center_word)为中心词向量表示;p(center_word|context)为希望最大化;x为输入特征。
32、可选地,通过余弦相似度比较向量化关键词与各向量化文本块的相似度。
33、可选地,通过欧氏距离比较向量化关键词与各向量化文本块的相似度。
34、可选地,通过内积比较向量化关键词与各向量化文本块的相似度。
35、基于相同的技术构思,本申请还提供了一种文本定位系统,包括:
36、获取模块,用于获取目标文本对应的搜索关键词。
37、处理模块,用于采用非完全匹配算法根据搜索关键词对文件进行模糊搜索;若搜索结果不为空,则得到与搜索关键词相似度最高的文本对应的位置信息;若搜索结果为空,则采用语义匹配法根据搜索关键词对文件进行分块定位,得到所述位置信息;对所述位置信息进行定位校准,得到目标文本所对应的页码和内容。
38、基于相同的技术构思,本申请还提供了一种文本定位存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述任一所述的文本定位方法中的步骤。
39、本申请的有益效果:采用非完全匹配快速搜索和语义匹配准确搜索相结合的方式,兼顾文本查找的速度和准确性;通过文本语义在向量空间中捕捉各词向量表示之间的语义关系和上下文信息,来定位文本中对应的内容,弥补模糊搜索模块在语义层面的不足,有效克服文本中语言表达的多样性和歧义性对快速查找的干扰。
本文档来自技高网...【技术保护点】
1.一种文本定位方法,其特征在于,包括以下步骤S1-S4:
2.根据权利要求1所述的文本定位方法,其特征在于,
3.根据权利要求1所述的文本定位方法,其特征在于,
4.根据权利要求3所述的文本定位方法,其特征在于,
5.根据权利要求4所述的文本定位方法,其特征在于,
6.根据权利要求5所述的文本定位方法,其特征在于,
7.根据权利要求3所述的文本定位方法,其特征在于,
8.根据权利要求3所述的文本定位方法,其特征在于,
9.一种文本定位系统,其特征在于,包括:
10.一种存储有计算机可读指令的存储介质,其特征在于,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至8中的任一所述的文本定位方法中的步骤。
【技术特征摘要】
1.一种文本定位方法,其特征在于,包括以下步骤s1-s4:
2.根据权利要求1所述的文本定位方法,其特征在于,
3.根据权利要求1所述的文本定位方法,其特征在于,
4.根据权利要求3所述的文本定位方法,其特征在于,
5.根据权利要求4所述的文本定位方法,其特征在于,
6.根据权利要求5所述的文本定位方法,其特征在...
【专利技术属性】
技术研发人员:张睿,李俊,包昶翔,邹捷,陈彦哲,郑煜,泮莉莎,周松华,
申请(专利权)人:国网浙江省电力有限公司杭州供电公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。