⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 uconst.pas

📁 这是一个从指定网页格式分离单词的小程序
💻 PAS
字号:
{-----------------------------------------------------------------------------
 Unit Name: uConst
 Author:    Piao
 Date:      2005-3-12 14:45:18
 Purpose:   常量单元
 History:   2005-3-14 4:05:12 增加程序需要正则表达式

-----------------------------------------------------------------------------}
unit uConst;

interface

uses Messages;

const
  WM_RefreshWordClassData = WM_USER + 321;    //刷新WordClass数据消息

  WM_SendErrorMsg = WM_USER + 322;            //发送错误消息
  {LParam返回状态信息,  WParam表示TaskID}

  WM_CheckTmpURLList = WM_USER + 323;         //检查抓取页面列表,保证新搜索到的页面得到更新

  WM_TaskICOForParser = WM_USER + 324;        //任务栏消息
const
  {Access连接字符窜}
  SConnectionString = 'Provider=Microsoft.Jet.OLEDB.4.0;Data Source=' +
    '%s' + ';Persist Security Info=False';

  {Access数据库名称}
  SAccessDBName = 'EnWordData.mdb';

  {数据库相对路径}
  SNowPath = 'Data\';

  {以下是正则表达式}

  {解析词汇类型链接,即<A ...> ... </A>部分}
  SRegExWordA = '<\s*[Aa][^<]*[Hh][Rr][Ee][Ff]\s*=.*[aA]' +
    '[rR][tT][iI][cC][lL][eE]_[vV][iI][eE][wW]\.[aA][sS][pP].*<\s*\/[aA]\s*>';

  {解析<A ...> ... </A>中的Href部分,结果:href=... (注:要去掉href)}
  SRegExWordAURL = '[Hh][Rr][Ee][Ff]=[^\s]*(?=\s)';

  {解析<A ...> ... </A>中的> ... <部分,结果: > ... (注:要去掉>)}
  SRegExWordAName = '>[^<>]*(?=<\s*\/[aA]\s*>)';

  {解析Page链接的<A ...> ... </A>部分}
  SRegExPageA = '<\s*[Aa][^<]*[Hh][Rr][Ee][Ff]\s*=[^<>]*[pP]' +
    '[aA][gG][eE]=(\d|\d\d|\d\d\d)[^/]*<\s*\/[aA]\s*>';

  {2解析词汇类型链接,即<A ...> ... </A>部分}
  SRegExWordB = '<\s*[Aa][^<]*[Hh][Rr][Ee][Ff]\s*=[^<>]*' +
    '[aA][rR][tT][iI][cC][lL][eE]_[lL][iI][sS][tT]\.[aA]' +
    '[sS][pP]\x3F[cC]_[iI][dD]\x3D[1][^<]*<\s*\/[aA]\s*>';

  {解析<A ...> ... </A>中的Href部分,结果:href=... (注:要去掉href)}
  SRegExWordBURL = '[Hh][Rr][Ee][Ff]=[^\s]*(?=[''"])';


  {类型1 Test04.html类型“Barina ||  巴里纳(澳大利亚通用-霍尔登公司)”}
  SRegExOne_One = '[\w\s]+\s*\|{2,2}\s*[^<>]*';{分析中英文}

  SRegExOne_Two = '[^\w\s\|]*(?=\s)';{分析中文}

  SRegExOne_Three = '[\w\s]+(?=\|{2,2})';{分析英文}
  
  {类型2Test03.html类型“1. 棉织物:COTTON FABRIC ”}
  SRegExTwo_One = '[\d]+\.[^<>]*(?=<[bB][rR]>)';

  SRegExTwo_Two = '[^\s]+(?=\xA3\xBA)';  //中文

  SRegExTwo_Three ='\xA3\xBA[^\s]*';  //去掉前两个字符:英文

  {New001.html类型“烤漆区     Coating Area”}
  SRegExThree_One = '([\xA1-\xFE][\xA1-\xFE])+\s*[\w\s]+<\s*[bB][rR]\s*>';

  SRegExThree_Two = '([\xA1-\xFE][\xA1-\xFE])+[^<>\w]*';

  SRegExThree_Three = '\w[^\xA1-\xFE]+(?=<\s*[bB][rR]\s*>)';

  {New002.html类型“to pay 付款,支付,偿还 ”}

  SRegExFour_One = '<\s*[bB][rR]\s*>(\w)+\s*[^<>]+<\s*[bB][rR]\s*>';

  SRegExFour_Two = '[\xA1-\xFE]+[^<>]*(?=<\s*[bB][rR]\s*>)';

  SRegExFour_Three = '\w+[^<>\xA1-\xFE]*(?=[\xA1-\xFE])';
  
  


implementation

end.

⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -