【技术实现步骤摘要】
嵌套HTML实体解码方法、装置、计算机设备和存储介质
[0001]本专利技术属于文本处理
,尤其涉及一种嵌套HTML实体解码方法、装置、计算机设备和存储介质。
技术介绍
[0002]丰富多彩的网页是由HTML(Hyper Text Markup Language,超文本标记语言)文本经过网页浏览器渲染而来的,因此互联网上存在海量的HTML文本。HTML文本是用规定的纯文本标签与展示内容文本按照标记语言规范定义的文本,由于标签文本字符串与展示内容文本字符串存在冲突等原因,使得一部分特殊展示内容字符不可用原字符直接写入HTML文本,而需要HTML规范规定对应关系写入编码后的字符串,这些特殊展示内容字符称为HTML实体。同时,由于HTML实体编码字符串中本身存在特殊字符,且HTML文本或其中的实体编码字符串可能会成为某种网页程序的输入,这使得编码HTML实体的特殊字符会在后者程序中成为实体从而形成了嵌套HTML实体。
[0003]因此,当网页浏览器渲染或计算机自动处理程序处理HTML文本时,需要通过HTML实体解码或 ...
【技术保护点】
【技术特征摘要】
1.一种嵌套HTML实体解码方法,其特征在于,包括:获取HTML文本,得到待解码字符串;将所述待解码字符串输入确定有限状态转译器;按照所述待解码字符串中各字符的顺序以及对应前一个字符的状态位置,分别匹配各字符所满足的转移条件,根据所述转移条件对应的转换方式将各所述字符在所述确定有限状态转译器中进行状态转移;当状态转移到所述确定有限状态转译器的最终状态集时,输出状态转移后的待解码字符串,得到解码字符串。2.根据权利要求1所述的方法,其特征在于,所述按照所述待解码字符串中各字符的顺序以及对应前一个字符的状态位置,分别匹配各字符所满足的转移条件,包括:在当前字符为所述待解码字符串中的首个字符时,从初始状态对应的转移条件中匹配所述首个字符满足的转移条件;在当前字符为所述待解码字符串中的非首个字符时,确定所述非首个字符对应的前一个字符状态转移后的状态位置;从所述状态位置对应的转移条件中匹配所述非首个字符满足的转移条件。3.根据权利要求1所述的方法,其特征在于,所述根据所述转移条件对应的转换方式将各所述字符在所述确定有限状态转译器中进行状态转移,包括:当所述转移条件附带序列坍缩转换标识时,在所述确定有限状态转译器中利用序列坍缩转换将所述字符从当前的状态转移到所述转移条件指向的状态;当所述转移条件未附带序列坍缩转换标识时,在所述确定有限状态转译器中利用等变转换将所述字符从当前的状态转移到所述转移条件指向的状态。4.根据权利要求1
‑
3任一项所述的方法,其特征在于,所述确定有限状态转译器的状态包括初始状态、第一状态、第二状态、第三状态和最终状态集;所述初始状态转移到所述第一状态、所述第一状态转移到所述第一状态,以及所述第二状态转移到所述第一状态的转移条件均为第一转移条件;所述初始状态、所述第一状态以及所述第二状态转移到所述最终状态集的转移条件均为第二转移条件;所述初始状态转移到所述初始状态的转移条件为第三转移条件;所述第一状态、所述第二状态转移到所述初始状态的转移条件均为第四转移条件,所述第三状态转移所述初始状态的转移条件为附带序列坍缩转换标识的第四转移条件;所述第一状态转移到所述第二状态的转译条件为第五转移条件;所述第二状态转移到所述第二状态的转移条件为第六转移条件,所述第二状态转移到所述第三状态的转移条件为第七转移条件;所述第三状态转移到所述第一状态的转移条件为附带序列坍缩转换标识的第一转移条件,所述第三状态转移到所述第二状态的转移条件为附带序列坍缩转换标识的第八转移条件,所述第三状态转移到所述第三状态的转移条件为附带序列坍缩转换标识的第九转移条件。5.根据权利要求4所述的方法,其特征在于,所述第一转移条件为所述字符是&...
【专利技术属性】
技术研发人员:段炼,周忠诚,黄九鸣,张圣栋,
申请(专利权)人:湖南四方天箭信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。