新建 文本文档.txt

来自「提取HTML代码中文字的C#函数在做一些网站(特别是bbs之类)时」· 文本 代码 · 共 71 行

TXT
71
字号
提取HTML代码中文字的C#函数 
评论(0)发表时间:2006年12月21日 14时3分  
  
[%repeat_0 match="/data/option"%] [%=@title%] [%=@count%]票 [[%=@percent%]%]  
[%_repeat_0%]  
  
  
提取HTML代码中文字的C#函数  
-------------------------------------------------------------------------------- 
  
  /// <summary> 
  /// 去除HTML标记 
  /// </summary> 
  /// <param name="strHtml">包括HTML的源码 </param> 
  /// <returns>已经去除后的文字</returns> 
  public static string StripHTML(string strHtml) 
  { 
   string [] aryReg ={ 
          @"<script[^>]*?>.*?</script>", 

          @"<(\/\s*)?!?((\w+:)?\w+)(\w+(\s*=?\s*(([""'])(\\[""'tbnr]|[^\7])*?\7|\w+)|.{0})|\s)*?(\/\s*)?>", 
          @"([\r\n])[\s]+", 
          @"&(quot|#34);", 
          @"&(amp|#38);", 
          @"&(lt|#60);", 
          @"&(gt|#62);",  
          @"&(nbsp|#160);",  
          @"&(iexcl|#161);", 
          @"&(cent|#162);", 
          @"&(pound|#163);", 
          @"&(copy|#169);", 
          @"&#(\d+);", 
          @"-->", 
          @"<!--.*\n" 
          
         }; 

   string [] aryRep = { 
           "", 
           "", 
           "", 
           "\"", 
           "&", 
           "<", 
           ">", 
           " ", 
           "\xa1",//chr(161), 
           "\xa2",//chr(162), 
           "\xa3",//chr(163), 
           "\xa9",//chr(169), 
           "", 
           "\r\n", 
           "" 
          }; 

   string newReg =aryReg[0]; 
   string strOutput=strHtml; 
   for(int i = 0;i<aryReg.Length;i++) 
   { 
    Regex regex = new Regex(aryReg[i],RegexOptions.IgnoreCase ); 
    strOutput = regex.Replace(strOutput,aryRep[i]); 
   } 

   strOutput.Replace("<",""); 
   strOutput.Replace(">",""); 
   strOutput.Replace("\r\n",""); 


   return strOutput; 
  } 

⌨️ 快捷键说明

复制代码Ctrl + C
搜索代码Ctrl + F
全屏模式F11
增大字号Ctrl + =
减小字号Ctrl + -
显示快捷键?