⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 新建 文本文档.txt

📁 提取HTML代码中文字的C#函数在做一些网站(特别是bbs之类)时
💻 TXT
字号:
提取HTML代码中文字的C#函数 
评论(0)发表时间:2006年12月21日 14时3分  
  
[%repeat_0 match="/data/option"%] [%=@title%] [%=@count%]票 [[%=@percent%]%]  
[%_repeat_0%]  
  
  
提取HTML代码中文字的C#函数  
-------------------------------------------------------------------------------- 
  
  /// <summary> 
  /// 去除HTML标记 
  /// </summary> 
  /// <param name="strHtml">包括HTML的源码 </param> 
  /// <returns>已经去除后的文字</returns> 
  public static string StripHTML(string strHtml) 
  { 
   string [] aryReg ={ 
          @"<script[^>]*?>.*?</script>", 

          @"<(\/\s*)?!?((\w+:)?\w+)(\w+(\s*=?\s*(([""'])(\\[""'tbnr]|[^\7])*?\7|\w+)|.{0})|\s)*?(\/\s*)?>", 
          @"([\r\n])[\s]+", 
          @"&(quot|#34);", 
          @"&(amp|#38);", 
          @"&(lt|#60);", 
          @"&(gt|#62);",  
          @"&(nbsp|#160);",  
          @"&(iexcl|#161);", 
          @"&(cent|#162);", 
          @"&(pound|#163);", 
          @"&(copy|#169);", 
          @"&#(\d+);", 
          @"-->", 
          @"<!--.*\n" 
          
         }; 

   string [] aryRep = { 
           "", 
           "", 
           "", 
           "\"", 
           "&", 
           "<", 
           ">", 
           " ", 
           "\xa1",//chr(161), 
           "\xa2",//chr(162), 
           "\xa3",//chr(163), 
           "\xa9",//chr(169), 
           "", 
           "\r\n", 
           "" 
          }; 

   string newReg =aryReg[0]; 
   string strOutput=strHtml; 
   for(int i = 0;i<aryReg.Length;i++) 
   { 
    Regex regex = new Regex(aryReg[i],RegexOptions.IgnoreCase ); 
    strOutput = regex.Replace(strOutput,aryRep[i]); 
   } 

   strOutput.Replace("<",""); 
   strOutput.Replace(">",""); 
   strOutput.Replace("\r\n",""); 


   return strOutput; 
  } 

⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -