html-lex

来自「这是我们参加06年全国开源软件的竞赛作品」· 代码 · 共 132 行

TXT

132 行

(* html-lex * * COPYRIGHT (c) 1995 AT&T Bell Laboratories. * COPYRIGHT (c) 1996 AT&T Research. * * A scanner for HTML. * * TODO: *    Recognize the DOCTYPE element *	<!DOCTYPE HTML PUBLIC "..."> *    Clean-up the scanning of start tags (do we need Err?). *    Whitespace in PRE elements should be preserved, but how? *)structure T = Tokensstructure Elems = HTMLElementsFn (  structure Tokens = Tokens  structure Err = Err  structure HTMLAttrs = HTMLAttrs)type pos = inttype svalue = T.svaluetype arg = (((string * int * int) -> unit) * string option)type ('a, 'b) token = ('a, 'b) T.tokentype lexresult= (svalue, pos) tokenfun eof _ = Tokens.EOF(0, 0)(* a buffer for collecting a string piecewise *)val buffer = ref ([] : string list)fun addStr s = (buffer := s :: !buffer)fun getStr () = (String.concat(List.rev(! buffer)) before (buffer := []))%%%s COM1 COM2 STAG;%header (functor HTMLLexFn (  structure Tokens : HTML_TOKENS  structure Err : HTML_ERROR  structure HTMLAttrs : HTML_ATTRS));%arg (errorFn, file);%full%countalpha=[A-Za-z];digit=[0-9];namechar=[-A-Za-z0-9.];tag=({alpha}{namechar}*);ws = [\ \t];%%<INITIAL>"<"{tag}	=> (addStr yytext; YYBEGIN STAG; continue());<STAG>">"	=> (addStr yytext;	    YYBEGIN INITIAL;	    case Elems.startTag file (getStr(), !yylineno, !yylineno)	     of NONE => continue()	      | (SOME tag) => tag	    (* end case *));<STAG>\n	=> (addStr " "; continue());<STAG>{ws}+	=> (addStr yytext; continue());<STAG>{namechar}+	=> (addStr yytext; continue());<STAG>"="	=> (addStr yytext; continue());<STAG>"\""[^\"\n]*"\""	=> (addStr yytext; continue());<STAG>"'"[^'\n]*"'"	=> (addStr yytext; continue());<STAG>.	=> (addStr yytext; continue());<INITIAL>"</"{tag}{ws}*">"	=> (case Elems.endTag file (yytext, !yylineno, !yylineno)	     of NONE => continue()	      | (SOME tag) => tag	    (* end case *));<INITIAL>"<!--"	=> (YYBEGIN COM1; continue());<COM1>"--"	=> (YYBEGIN COM2; continue());<COM1>\n	=> (continue());<COM1>.	=> (continue());<COM2>"--"	=> (YYBEGIN COM1; continue());<COM2>">"	=> (YYBEGIN INITIAL; continue());<COM2>\n	=> (continue());<COM2>{ws}	=> (continue());<COM2>.	=> (errorFn("bad comment syntax", !yylineno, !yylineno+1);	    YYBEGIN INITIAL;	    continue());<INITIAL>"&#"[A-Za-z]+";"	=> ((** At some point, we should support &#SPACE; and &#TAB; **)	    continue());<INITIAL>"&#"[0-9]+";"	=> (T.CHAR_REF(yytext, !yylineno, !yylineno));<INITIAL>"&"{tag}";"	=> (T.ENTITY_REF(yytext, !yylineno, !yylineno));<INITIAL>"\n"	=> (continue());<INITIAL>{ws}	=> (continue());<INITIAL>[^<]+	=> (T.PCDATA(yytext, !yylineno, !yylineno));<INITIAL>.	=> (errorFn(concat[		"bogus character #\"", Char.toString(String.sub(yytext, 0)),		"\" in PCDATA\n"	      ], !yylineno, !yylineno+1);	    continue());

html-lex - 源码说明

本页面展示了「这是我们参加06年全国开源软件的竞赛作品」中的 html-lex 源码文件，采用编程语言编写，共 132 行代码。您可以在线阅读完整代码内容，也可以返回资源详情页下载完整源码包进行本地学习和开发。

虫虫下载站收录了大量与开源软件相关的技术资源，包括源代码、技术文档、电路图等，是电子工程师和嵌入式开发者的专业学习平台。

⌨️ 快捷键说明

复制代码Ctrl + C

搜索代码Ctrl + F

全屏模式F11

增大字号Ctrl + =

减小字号Ctrl + -

显示快捷键?