基于社交媒体实体定位和搜索匹配的文本标记方法及装置制造方法及图纸

技术编号:38713134 阅读:9 留言:0更新日期:2023-09-08 14:55
本发明专利技术实施例中提供了一种基于社交媒体实体定位和搜索匹配的文本标记方法及装置,属于数据处理技术领域,该方法包括:通过对文本内容进行分析和处理,定位并识别其中的hashtag、url和mentions实体;基于实体的位置信息和跳转样式,将文本内容组装成第一HTML文档,使组装后的第一HTML文档在页面上展示时具有点击跳转的效果;构建支持用户指定的搜索关键词与内容匹配的第二HTML文档,所述第二HTML文档将用户指定的搜索关键词进行点亮处理;将第一HTML文档和第二HTML文档按照预定的算法定位后,进行重叠显示,用于展示分层标记指定的内容。采用本方案,能够提高文本标记的灵活性和准确性。性和准确性。性和准确性。

【技术实现步骤摘要】
基于社交媒体实体定位和搜索匹配的文本标记方法及装置


[0001]本专利技术涉及数据处理
,尤其涉及一种基于社交媒体实体定位和搜索匹配的文本标记方法、装置及电子设备。

技术介绍

[0002]社交媒体是大批网民自发贡献,提取,创造新闻资讯,然后传播的过程。社交媒体具有人数众多、自发传播的特点。社交媒体的产生依赖的是WEB2.0的发展,如果网络不赋予网民更多的主动权,社交媒体就失去了群众基础和技术支持,失去了根基。如果没有技术支撑那么多的互动模式,那么多互动的产品,网民的需求只能被压制无法释放。如果没有意识到网民对于互动的,表达自我的强烈愿望也不会催生那么多眼花缭乱的技术。社交媒体正是基于群众基础和技术支持才得以发展。
[0003]用户在使用社交媒体软件的过程中,存在如下问题:
[0004](1)对于复杂的文本内容,可能存在定位错误或遗漏的情况。
[0005](2)实体识别的歧义性:在处理hashtag、URL、domain和mentions时,存在实体歧义性的挑战。例如,某些词可能既可以作为mentions实体,也可以作为一般的文本。
[0006](3)搜索关键词匹配的准确性:将用户指定的搜索关键词与内容匹配需要遵循搜索引擎文档匹配规则。然而,这些规则可能因搜索引擎算法的复杂性而难以准确实现。对于多义词、拼写错误或同义词等情况,匹配结果可能不够精确。
[0007](4)重叠HTML内容的处理:将两层HTML内容重叠并进行样式调整可能引发布局和显示方面的问题。
专利技术内容
[0008]有鉴于此,本专利技术实施例提供一种基于社交媒体实体定位和搜索匹配的文本标记方法、装置及电子设备,至少部分解决现有技术中存在的问题。
[0009]第一方面,本专利技术实施例提供了一种基于社交媒体实体定位和搜索匹配的文本标记方法,包括:
[0010]通过对文本内容进行分析和处理,定位并识别其中的hashtag、url和mentions实体,返回hashtag、url和mentions实体的位置信息,并为每个实体添加相应的跳转链接样式;
[0011]基于实体的位置信息和跳转样式,将文本内容组装成第一HTML文档,使组装后的第一HTML文档在页面上展示时具有点击跳转的效果;
[0012]构建支持用户指定的搜索关键词与内容匹配的第二HTML文档,所述第二HTML文档将用户指定的搜索关键词进行点亮处理;
[0013]将第一HTML文档和第二HTML文档按照预定的算法定位后,进行重叠显示,用于展示分层标记指定的内容。
[0014]根据本公开实施例的一种具体实现方式,所述通过对文本内容进行分析和处理,
定位并识别其中的hashtag、url和mentions实体,包括:
[0015]根据搜索引擎文档匹配规则,确定搜索关键词在文本内容中的位置,对搜索关键词进行标亮处理,使用特定的CSS样式或HTML标签来突出显示关键词。
[0016]根据本公开实施例的一种具体实现方式,所述通过对文本内容进行分析和处理,定位并识别其中的hashtag、url和mentions实体,还包括:
[0017]检查文本是否为空或是否包含#符号,如果不满足条件,则返回一个空数组;
[0018]创建一个空数组tags,用于存储提取到的hashtag实体;
[0019]遍历所有匹配到的hashtag,获取它们的文本和位置信息;
[0020]检查hashtag之后的文本是否与其他字符相连,如果是,则跳过当前匹配项;
[0021]计算hashtag的起始位置和结束位置,并将其文本和位置信息添加到tags数组中;
[0022]返回最终的结果数组。
[0023]根据本公开实施例的一种具体实现方式,所述通过对文本内容进行分析和处理,定位并识别其中的hashtag、url和mentions实体,还包括:
[0024]通过while循环遍历文本,使用正则表达式extractUrl进行匹配;
[0025]在匹配过程中,使用正则表达式来获取匹配结果中的特定部分,包括URL之前的字符、提取的URL、协议、域名、路径;
[0026]根据提取到的URL的不同情况,进行相应的处理:
[0027]如果URL没有协议部分,即没有以"http://"或"https://"开头,根据选项设置和先前的字符匹配规则,决定是否继续处理该URL,如果允许提取没有协议的URL且满足匹配规则,则将其添加到结果数组中;
[0028]如果URL有协议部分,直接将其添加到结果数组中;
[0029]将提取到的URL及其在文本中的起始和结束位置信息添加到结果数组中,并返回最终的结果数组。
[0030]根据本公开实施例的一种具体实现方式,所述通过对文本内容进行分析和处理,定位并识别其中的hashtag、url和mentions实体,还包括:
[0031]检查文本是否为空或是否包含@符号,如果不满足条件,则返回一个空数组;
[0032]创建一个空数组possibleNames,用于存储提取到的可能的@提及实体;
[0033]遍历所有匹配到的@提及实体,获取其相关的用户名以及位置信息;
[0034]检查@提及实体之后的文本是否与其他字符相连,如果是,则跳过当前匹配项;
[0035]将用户名和位置信息添加到possibleNames数组中;
[0036]返回最终的possibleNames数组,其中包含了提取到的@提及实体及其位置信息。
[0037]根据本公开实施例的一种具体实现方式,所述基于实体的位置信息和跳转样式,将文本内容组装成第一HTML文档,包括:
[0038]将实体的位置信息规整排序后,定位实体的位置,hashtag和menstions根据社交平台和实体类型,拼接对应实体的跳转url。
[0039]根据本公开实施例的一种具体实现方式,所述构建支持用户指定的搜索关键词与内容匹配的第二HTML文档,包括:
[0040]将提取的关键词的位置进行规整排序后,定位关键词位置,为关键词包装标亮样式,并拼接html片段。
[0041]根据本公开实施例的一种具体实现方式,所述将第一HTML文档和第二HTML文档按照预定的算法定位后,进行重叠显示,用于展示分层标记指定的内容,包括:
[0042]获取用于展示社交媒体内容的实体信息的第一HTML文档和用于标亮用户指定的搜索关键词第二HTML文档;
[0043]使用CSS中的定位属性将第一HTML文档和第二HTML文档叠加在一起;
[0044]使用CSS中的层叠顺序属性来控制第一HTML文档和第二HTML文档的显示顺序,确保搜索关键词的标亮效果在社交媒体内容之上。
[0045]第二方面,本专利技术实施例提供了一种基于社交媒体实体定位和搜索匹配的文本标记装置,包括:
[0046]识别模块,用于通本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于社交媒体实体定位和搜索匹配的文本标记方法,其特征在于,包括:通过对文本内容进行分析和处理,定位并识别其中的hashtag、url和mentions实体,返回hashtag、url和mentions实体的位置信息,并为每个实体添加相应的跳转链接样式;基于实体的位置信息和跳转样式,将文本内容组装成第一HTML文档,使组装后的第一HTML文档在页面上展示时具有点击跳转的效果;构建支持用户指定的搜索关键词与内容匹配的第二HTML文档,所述第二HTML文档将用户指定的搜索关键词进行点亮处理;将第一HTML文档和第二HTML文档按照预定的算法定位后,进行重叠显示,用于展示分层标记指定的内容。2.根据权利要求1所述的方法,其特征在于,所述通过对文本内容进行分析和处理,定位并识别其中的hashtag、url和mentions实体,包括:根据搜索引擎文档匹配规则,确定搜索关键词在文本内容中的位置,对搜索关键词进行标亮处理,使用特定的CSS样式或HTML标签来突出显示关键词。3.根据权利要求2所述的方法,其特征在于,所述通过对文本内容进行分析和处理,定位并识别其中的hashtag、url和mentions实体,还包括:检查文本是否为空或是否包含#符号,如果不满足条件,则返回一个空数组;创建一个空数组tags,用于存储提取到的hashtag实体;遍历所有匹配到的hashtag,获取它们的文本和位置信息;检查hashtag之后的文本是否与其他字符相连,如果是,则跳过当前匹配项;计算hashtag的起始位置和结束位置,并将其文本和位置信息添加到tags数组中;返回最终的结果数组。4.根据权利要求3所述的方法,其特征在于,所述通过对文本内容进行分析和处理,定位并识别其中的hashtag、url和mentions实体,还包括:通过while循环遍历文本,使用正则表达式extractUrl进行匹配;在匹配过程中,使用正则表达式来获取匹配结果中的特定部分,包括URL之前的字符、提取的URL、协议、域名、路径;根据提取到的URL的不同情况,进行相应的处理:如果URL没有协议部分,即没有以"http://"或"https://"开头,根据选项设置和先前的字符匹配规则,决定是否继续处理该URL,如果允许提取没有协议的URL且满足匹配规则,则将其添加到结果数组中;如果URL有协议部分,直接将其添加到结果数组中;将提取到的URL及其在文本中的起始和结束位置信息添加到结果数组中,并返回最终的结果数组。5.根据权利要求4所述的方法,其特征在于,所述通过对文本内容进行分析和处理,定位并识别其中的hashtag、url和mentions实体,还包括:检查文本是否为空或是否包含@符号,如...

【专利技术属性】
技术研发人员:李蕾寇振芳张江华彭浩
申请(专利权)人:一网互通北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1