System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文本内容的搜索方法、装置、电子设备及存储介质制造方法及图纸_技高网

文本内容的搜索方法、装置、电子设备及存储介质制造方法及图纸

技术编号:41184750 阅读:3 留言:0更新日期:2024-05-07 22:17
本申请涉及一种文本内容的搜索方法、装置、电子设备及存储介质,所述方法包括:获取目标文档;响应于针对所述目标文档的文本搜索指令,从所述目标文档中提取目标链接,并从所述目标链接对应的链接数据中获取待搜索文本数据;根据所述文本搜索指令中的关键字在所述目标文档和所述待搜索文本数据中进行文本搜索,得到文本搜索结果。由此能够将文本搜索的范围扩展到从目标文档所关联的链接中获取到的文本数据,而不仅仅是局限于目标文档自身的文本内容,因此能够使得搜索更为全面,获取到更多且有效的文本搜索结果。

【技术实现步骤摘要】

本申请涉及文本处理领域,尤其涉及一种文本内容的搜索方法、装置、电子设备及存储介质


技术介绍

1、在现有的办公软件中,支持通过基于关键字的文本搜索功能在文档中搜索到用户想要的目标文本内容,这里的目标文本内容可以是包含关键字的一句话或者一个段落。

2、但这也只能是在文档所包含的文本数据范围内进行文本搜索,对于文档以外的文本数据中的目标文本内容是搜索不到的。


技术实现思路

1、本申请提供了一种文本内容的搜索方法、装置、电子设备及存储介质,以解决现有技术中仅支持对文档中的文本数据进行文本搜索,导致无法搜索到文档以外的文本数据中的目标文本内容的技术问题。

2、第一方面,本申请提供了一种文本内容的搜索方法,所述方法包括:

3、获取目标文档;

4、响应于针对所述目标文档的文本搜索指令,从所述目标文档中提取目标链接,并从所述目标链接对应的链接数据中获取待搜索文本数据;

5、根据所述文本搜索指令中的关键字在所述目标文档和所述待搜索文本数据中进行文本搜索,得到文本搜索结果。

6、在一可能的实施方式中,所述从所述目标链接对应的链接数据中获取待搜索文本数据,包括:

7、确定所述目标链接对应的链接数据的数据类型;

8、基于所述链接数据的数据类型对所述链接数据进行解析,得到待搜索文本数据。

9、在一可能的实施方式中,所述基于所述链接数据的数据类型对所述链接数据进行解析,得到待搜索文本数据,包括:>

10、在所述链接数据的数据类型为图片的情况下,将所述链接数据输入至预设的图片理解工具,以由所述图片理解工具对所述链接数据进行图片理解,得到所述链接数据的图片理解内容;

11、将所述链接数据的图片理解内容确定为待搜索文本数据。

12、在一可能的实施方式中,所述基于所述链接数据的数据类型对所述链接数据进行解析,得到待搜索文本数据,包括:

13、在所述链接数据的数据类型为视频的情况下,抽取所述链接数据的视频关键帧;

14、将所述视频关键帧输入至预设的图片理解工具,以由所述图片理解工具对所述视频关键帧进行图片理解,得到所述视频关键帧的图片理解内容;

15、将所述视频关键帧的图片理解内容确定为待搜索文本数据。

16、在一可能的实施方式中,所述基于所述链接数据的数据类型对所述链接数据进行解析,得到待搜索文本数据,包括:

17、在所述链接数据的数据类型为视频的情况下,从所述链接数据中提取字幕数据和/或弹幕数据;

18、将所述字幕数据和/或弹幕数据确定为待搜索文本数据。

19、在一可能的实施方式中,所述基于所述链接数据的数据类型对所述链接数据进行解析,得到待搜索文本数据,包括:

20、在所述链接数据的数据类型为音频的情况下,对所述链接数据进行语音识别出来,得到文本数据;

21、将所述文本数据确定为待搜索文本数据。

22、在一可能的实施方式中,所述基于所述链接数据的数据类型对所述链接数据进行解析,得到待搜索文本数据,包括:

23、在所述链接数据的数据类型为网页的情况下,对所述链接数据进行节点解析,得到所述链接数据中各个网页节点的文本数据;

24、将所述各个网页节点的文本数据确定为待搜索文本数据。

25、在一可能的实施方式中,所述方法还包括:

26、在所述文本搜索结果来自所述网页节点的文本数据的情况下,修改所述网页节点的节点属性,以显示修改后的链接数据。

27、在一可能的实施方式中,所述从所述目标文档中提取目标链接,包括:

28、提取所述目标文档中的所有链接;

29、将提取到的所有链接确定为目标链接;或者,

30、对提取到的所述链接进行解析,得到所述链接对应的门户信息;在根据所述门户信息确定所述链接属于指定门户的情况下,将所述链接确定为目标链接。

31、在一可能的实施方式中,在所述从所述目标链接对应的链接数据中获取待搜索文本数据之后,还包括:

32、在确定所述待搜索文本数据中包括链接的情况下,从所述待搜索文本数据中提取二级目标链接;

33、从所述二级目标链接对应的链接数据中获取二级待搜索文本数据;

34、根据所述文本搜索指令中的关键字在所述二级待搜索文本数据中进行文本搜索,得到二级文本搜索结果。

35、第二方面,本申请提供一种文本内容的搜索装置,所述装置包括:

36、文档获取模块,用于获取目标文档;

37、链接提取模块,用于响应于针对所述目标文档的文本搜索指令,从所述目标文档中提取目标链接;

38、扩展模块,用于从所述目标链接对应的链接数据中获取待搜索文本数据;

39、搜索模块,用于根据所述文本搜索指令中的关键字在所述目标文档和所述待搜索文本数据中进行文本搜索,得到文本搜索结果。

40、在一可能的实施方式中,所述扩展模块,包括:

41、类型确定单元,用于确定所述目标链接对应的链接数据的数据类型;

42、数据解析单元,用于基于所述链接数据的数据类型对所述链接数据进行解析,得到待搜索文本数据。

43、在一可能的实施方式中,所述数据解析单元,具体用于:

44、在所述链接数据的数据类型为图片的情况下,将所述链接数据输入至预设的图片理解工具,以由所述图片理解工具对所述链接数据进行图片理解,得到所述链接数据的图片理解内容;

45、将所述链接数据的图片理解内容确定为待搜索文本数据。

46、在一可能的实施方式中,所述数据解析单元,具体用于:

47、在所述链接数据的数据类型为视频的情况下,抽取所述链接数据的视频关键帧;

48、将所述视频关键帧输入至预设的图片理解工具,以由所述图片理解工具对所述视频关键帧进行图片理解,得到所述视频关键帧的图片理解内容;

49、将所述视频关键帧的图片理解内容确定为待搜索文本数据。

50、在一可能的实施方式中,所述数据解析单元,具体用于:

51、在所述链接数据的数据类型为视频的情况下,从所述链接数据中提取字幕数据和/或弹幕数据;

52、将所述字幕数据和/或弹幕数据确定为待搜索文本数据。

53、在一可能的实施方式中,所述数据解析单元,具体用于:

54、在所述链接数据的数据类型为音频的情况下,对所述链接数据进行语音识别处理,得到文本数据;

55、将所述文本数据确定为待搜索文本数据。

56、在一可能的实施方式中,所述数据解析单元,具体用于:

57、在所述链接数据的数据类型为网页的情况下,对所述链接数据进行节点解析,得到所述链接数据中各个网页节点的文本数据;

58、将所述各个网本文档来自技高网...

【技术保护点】

1.一种文本内容的搜索方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述从所述目标链接对应的链接数据中获取待搜索文本数据,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于所述链接数据的数据类型对所述链接数据进行解析,得到待搜索文本数据,包括:

4.根据权利要求2所述的方法,其特征在于,所述基于所述链接数据的数据类型对所述链接数据进行解析,得到待搜索文本数据,包括:

5.根据权利要求2所述的方法,其特征在于,所述基于所述链接数据的数据类型对所述链接数据进行解析,得到待搜索文本数据,包括:

6.根据权利要求2所述的方法,其特征在于,所述基于所述链接数据的数据类型对所述链接数据进行解析,得到待搜索文本数据,包括:

7.根据权利要求2所述的方法,其特征在于,所述基于所述链接数据的数据类型对所述链接数据进行解析,得到待搜索文本数据,包括:

8.根据权利要求7所述的方法,其特征在于,所述方法还包括:

9.根据权利要求1所述的方法,其特征在于,所述从所述目标文档中提取目标链接,包括:

10.根据权利要求1所述的方法,其特征在于,在所述从所述目标链接对应的链接数据中获取待搜索文本数据之后,还包括:

11.一种文本内容的搜索装置,其特征在于,所述装置包括:

12.一种电子设备,其特征在于,包括:处理器和存储器,所述处理器用于执行所述存储器中存储的文本内容的搜索程序,以实现权利要求1~10中任一项所述的文本内容的搜索方法。

13.一种存储介质,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1~10中任一项所述的文本内容的搜索方法。

...

【技术特征摘要】

1.一种文本内容的搜索方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述从所述目标链接对应的链接数据中获取待搜索文本数据,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于所述链接数据的数据类型对所述链接数据进行解析,得到待搜索文本数据,包括:

4.根据权利要求2所述的方法,其特征在于,所述基于所述链接数据的数据类型对所述链接数据进行解析,得到待搜索文本数据,包括:

5.根据权利要求2所述的方法,其特征在于,所述基于所述链接数据的数据类型对所述链接数据进行解析,得到待搜索文本数据,包括:

6.根据权利要求2所述的方法,其特征在于,所述基于所述链接数据的数据类型对所述链接数据进行解析,得到待搜索文本数据,包括:

7.根据权利要求2所述的方法,其特征在于,所述基于所述链接数据...

【专利技术属性】
技术研发人员:徐利军
申请(专利权)人:珠海金山办公软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1