【技术实现步骤摘要】
面向轨道交通领域的信息检索方法及系统
[0001]本专利技术涉及轨道交通
,尤其涉及一种面向轨道交通领域的信息检索方法及系统。
技术介绍
[0002]随着城市轨道交通领域企业的发展,企业内部存在大量结构化与非结构化的文本数据,测试的Excel信息可能条理分明地陈列在各行和各列之中,但是其中数据却是杂乱无章。Word与PDF格式文本文档没有清晰的内部结构,PowerPoint演示文稿也是如此;企业内部的电子邮件可以由用户进行组织、建立索引和分门别类,但是其中的内容却是非结构化的,经常包含附加的文本、演示文稿或电子表格文件。具体来说,企业内部的文档数据有以下的一系列特点:
[0003]第一,文档格式多样性。企业内部的文档数据往往具有各种各样的格式,例如PDF、Word、PowerPoint、Excel、扫描件、HTML、PNG 等各种形式的数据。这些非结构化的数据通常解析与信息抽取往往需要采用专业的工具进行。
[0004]第二,文档种类多种多样。企业内部文档种类各式各样,如财报年报、各式各样的汇报的PPT以 ...
【技术保护点】
【技术特征摘要】
1.一种面向轨道交通领域的信息检索方法,其特征在于,包括:基于全文搜索引擎,从轨道交通领域中的各源文本中,获取与查询语句的相似度高于第一预设动态阈值的一个或多个第一候选文本,各所述源文本是对各原始文本进行清洗后得到的;基于向量搜索引擎,从各所述源文本中,获取与所述查询语句中的相似度高于第二预设动态阈值的一个或多个第二候选文本;根据各所述第一候选文本和各所述第二候选文本,确定所述查询语句相似度最高的目标文本。2.根据权利要求1所述的面向轨道交通领域的信息检索方法,其特征在于,所述基于全文搜索引擎,从轨道交通领域中的各源文本中,获取与查询语句的相似度高于第一预设动态阈值的一个或多个第一候选文本,包括:对所述查询语句进行预处理,获取所述查询语句中的第一文本信息;基于所述全文搜索引擎,获取各所述源文本中与所述第一文本信息的相似度高于所述第一预设动态阈值的一个或多个第二文本信息;根据所述第二文本信息的倒排索引对应的候选源文本,确定所述第一候选文本,所述倒排索引是根据所述全文搜索引擎确定的。3.根据权利要求1所述的面向轨道交通领域的信息检索方法,其特征在于,所述基于向量搜索引擎,从各所述源文本中,获取与所述查询语句中的相似度高于第二预设动态阈值的一个或多个第二候选文本,包括:对所述查询语句进行预处理,获取所述查询语句中的第一语义向量信息;基于所述向量搜索引擎,获取各所述源文本中与所述第一语义向量信息的相似度高于所述第二预设动态阈值的一个或多个第二语义向量信息;根据所述第二语义向量信息的向量索引对应的候选源文本,确定所述第二候选文本,所述向量索引是根据所述向量搜索引擎确定的。4.根据权利要求1所述的面向轨道交通领域的信息检索方法,其特征在于,所述对各原始文本进行清洗,包括:基于正则表达式匹配算法对解析出的各所述原始文本的文本内容进行清洗;基于预设文本查重算法,从各所述原始文本中,去除与任意一个所述原...
【专利技术属性】
技术研发人员:尹卓,付哲,
申请(专利权)人:交控科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。