一种全文检索方法及其检索系统技术方案

技术编号:38324931 阅读:10 留言:0更新日期:2023-07-29 09:07
本发明专利技术公开了一种全文检索方法及其检索系统,涉及全文检索技术领域,方法包括以下步骤:S1、文章预处理,对文章进行识别,将各种格式文章的文字转换成文本文件格式,并为文章的每个字和词建立文字索引,指出该字或词出现在文章中出现的位置和次数;该全文检索方法及其检索系统,通过将文章的公式进行识别后转换成文本文件格式储存,并对公式字符和公式分别建立一级公式索引和二级公式索引,分别检索包含相应公式字符的公式,然后再根据检索出的公式检索公式所在的文章,及其在文章中出现的位置和出现次数,使得检索公式时不用在文章文字的部分检索,减小了检索的范围。减小了检索的范围。减小了检索的范围。

【技术实现步骤摘要】
一种全文检索方法及其检索系统


[0001]本专利技术涉及全文检索
,具体涉及一种全文检索方法及其检索系统。

技术介绍

[0002]全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。
[0003]然而现有的全文检索主要的是对文章的文本部分进行检索,对于非文本文件格式的文字,如PDF格式、图片格式记载的文字就需要将其识别后转换成文本文件格式进行检索,而一些用户在学习、做学术研究等情况下时,需要使用公式,这就需要对公式进行检索,而一般的全文检索系统对公式的识别准确率不高,这就导致用户不方便使用公式直接进行检索,具有一定的不便性。

技术实现思路

[0004]本专利技术的目的是提供一种全文检索方法及其检索系统,以解决现有技术中的上述不足之处。
[0005]为了实现上述目的,本专利技术提供如下技术方案:一种全文检索方法,方法包括以下步骤:S1、文章预处理,对文章进行识别,将各种格式文章的文字转换成文本文件格式,并为文章的每个字和词建立文字索引,指出该字或词出现在文章中出现的位置和次数;S2、将文章识别时,识别为公式的部分提取出来,对公式进行识别后转换成相应的文本文件格式的公式字符,并为其建立公式索引,所述公式索引包括一级公式索引和二级公式索引,所述一级公式索引用于指出公式字符出现的公式,所述二级公式索引用于指出一级公式索引指出的公式出现在文章中的位置和次数;S3、通过公式输入器在搜索框中输入公式字符,对公式进行检索,对公式进行检索的方式包括精确检索和模糊检索,进行所述精确检索时,对输入的公式字符进行一一检索,使得检索出的公式包含与输入的公式字符相同的部分;进行所述模糊检索时,将输入的公式字符中的一到三个字符采用任意字符替换,对公式进行检索,并检索与输入的公式字符公式意义相同的公式。
[0006]进一步的,输入公式字符后,识别公式字符中的运算符,并根据运算符的意义将根据简化公式转换成其他相应的等式,并按照转换后的等式的公式字符进行检索。
[0007]进一步的,进行所述模糊检索时输入的公式字符大于五个,且仅检索匹配率大于p的公式,用户可在检索时设置p的值,p取值范围大于百分之六十,匹配率P公式计算公式为:,
其中,n为输入的公式字符的数量,a检索时使用的任意字符的数量。
[0008]进一步的,进行所述模糊检索时,将检索结果按计算出的匹配率的高低降序排列。
[0009]进一步的,进行所述精确检索时,将检索的结果按精确率J的高低降序排列,所述精确率J的计算公式为:,其中,n为输入的公式字符的数量,N为检索出的公式的公式字符的数量。
[0010]一种全文检索系统,包括文章文字处理单元,其用于将文章中非文本文件格式的文字识别转换成文本文件格式,并建立文字索引;文章公式处理单元,其用于识别文章中的公式,并将公式中的各字符转换成所述公式字符,并为公式字符和公式分别建立所述一级公式索引和二级公式索引,所述文章公式处理单元包括文本公式字符模块,其用于建立公式字符库并储存,公式字符库内储存公式字符包括各种字体的数学运算符号、大小写英文字母、希腊字母和数字;公式标记模块,其用于将文章中的公式标记出来待识别;公式识别算法模块,其用于采用基于CNN模型的公式符号识别算法识别公式图像,并输出为公式字符保存;公式索引建立模块,其用于为识别出来公式字符建立所述一级公式索引,并为公式建立所述二级公式索引;符号等效模块,其用于建立并储存等效运算符号库,其用于将简化的运算符号转换成等效的数学运算符号后再进行检索或储存;公式等效模块,其用于建立并储存公式简化等式库,其用于将公式转换成简化前或简化后的公式;检索系统还包括检索输入单元,其用于输入需要检索内容,对需要检索的内容进行检索,并将检索结果按一定规则排序。
[0011]进一步的,文章处理单元包括文字识别转换模块,其用于使用文字识别工具将非文本文件格式的文字识别并转换成文本文件格式储存起来;文字索引建立模块,其用于为文章的单个文字和词分别建立所述文字索引。
[0012]进一步的,所述检索输入单元包括检索输入模块,其用于用户输入需要检索的内容,并对输入内容进行检索;公式键盘模块,其用于用户通过公式键盘模块输入数学运算符号、希腊字母到检索输入模块。
[0013]进一步的,所述基于CNN模型的公式符号识别算法步骤为:M1、将所述公式图像进行处理后作为特征图输入输入层;M2、卷积层对前一层的特征图进行特征提取,得到本层的特征图,公式为:,其中,f为激活函数,Kernel为卷积核,M
j
为选定的一组输入特征图,l为当前网络层号,B为偏值,i表示第i个类别;M3、采样层通过最大池化操作降低卷积层输出特征图的分辨率,在保持高分辨率特征图的特征的同时消除偏移和图像的扭曲,下次神经元的输入的计算公式为:,其中,n为缩放因子,u表示采样操作,y表示上一层的输出;
M4、输出层对于第 i 个类别,输出层的第 i 个单元输出为 1,其他为 0,并采用随机对角LM算法学习,其对每个连接权值采用不同的学习速率,学习速率根据待学习参数的二阶导数进行调整公式为:,其中,为全局学习速率,用来避免式中分母过小而导致学习速率过大的问题,为误差函数E关于权重参数w的二阶导数的估计值。
[0014]与现有技术相比,本专利技术提供的一种全文检索方法及其检索系统,通过将文章的公式进行识别后转换成文本文件格式储存,并对公式字符和公式分别建立一级公式索引和二级公式索引,分别检索包含相应公式字符的公式,然后再根据检索出的公式检索公式所在的文章,及其在文章中出现的位置和出现次数,使得检索公式时不用在文章文字的部分检索,减小了检索的范围。
[0015]与现有技术相比,本专利技术提供的一种全文检索方法及其检索系统,通过符号等效模块将简化的运算符号转换成等效的数学运算符号后再进行检索或储存,通过公式等效模块将公式转换成简化前或简化后的公式后再进行检索,使得检索更灵活。
附图说明
[0016]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0017]图1为本专利技术实施例提供的方法步骤图;图2为本专利技术实施例提供的系统框图;图3为本专利技术实施例提供的基于CNN模型的公式符号识别算法步骤图。
[0018]附图标记说明:1、文章文字处理单元;11、文字识别转换模块;12、文字索引建立模块;2、文章公式处理单元;21、公式字符模块;22、公式标记模块;23、公式识别算法模块;24、公式索引建立模块;25、符号等效模块;26、公式等效模块;3、检索输入单元;31、检索输入模块;32、公式键盘模块。...

【技术保护点】

【技术特征摘要】
1.一种全文检索方法,其特征在于:方法包括以下步骤:S1、文章预处理,对文章进行识别,将各种格式文章的文字转换成文本文件格式,并为文章的每个字和词建立文字索引,指出该字或词出现在文章中出现的位置和次数;S2、将文章识别时,识别为公式的部分提取出来,对公式进行识别后转换成相应的文本文件格式的公式字符,并为其建立公式索引,所述公式索引包括一级公式索引和二级公式索引,所述一级公式索引用于指出公式字符出现的公式,所述二级公式索引用于指出一级公式索引指出的公式出现在文章中的位置和次数;S3、通过公式输入器在搜索框中输入公式字符,对公式进行检索,对公式进行检索的方式包括精确检索和模糊检索,进行所述精确检索时,对输入的公式字符进行一一检索,使得检索出的公式包含与输入的公式字符相同的部分;进行所述模糊检索时,将输入的公式字符中的一到三个字符采用任意字符替换,对公式进行检索,并检索与输入的公式字符公式意义相同的公式。2.根据权利要求1所述的一种全文检索方法,其特征在于:输入公式字符后,识别公式字符中的运算符,并根据运算符的意义将根据简化公式转换成其他相应的等式,并按照转换后的等式的公式字符进行检索。3.根据权利要求1所述的一种全文检索方法,其特征在于:进行所述模糊检索时输入的公式字符大于五个,且仅检索匹配率大于p的公式,用户可在检索时设置p的值,p取值范围大于百分之六十,匹配率P公式计算公式为:,其中,n为输入的公式字符的数量,a检索时使用的任意字符的数量。4.根据权利要求3所述的一种全文检索方法,其特征在于:进行所述模糊检索时,将检索结果按计算出的匹配率的高低降序排列。5.根据权利要求1所述的一种全文检索方法,其特征在于:进行所述精确检索时,将检索的结果按精确率J的高低降序排列,所述精确率J的计算公式为:,其中,n为输入的公式字符的数量,N为检索出的公式的公式字符的数量。6.一种全文检索系统,应用于根据权利要求1

5任一项所述的一种全文检索方法,其特征在于:包括文章文字处理单元,其用于将文章中非文本文件格式的文字识别转换成文本文件格式,并建立文字索引;文章公式处理单元,其用于识别文章中的公式,并将公式中的各字符转换成所述公式字符,并为公式字符和公式分别建立所述一级公式索引和二级公式索引,所述文章公式处理单元包括文本公式字符模块,其用于建立公式字符库并储...

【专利技术属性】
技术研发人员:卢国栋李静王峰宋丙华江洲
申请(专利权)人:山东网安安全技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1