uconst.pas

来自「这是一个从指定网页格式分离单词的小程序」· PAS 代码 · 共 95 行

PAS

95 行

{-----------------------------------------------------------------------------
 Unit Name: uConst
 Author:    Piao
 Date:      2005-3-12 14:45:18
 Purpose:   常量单元
 History:   2005-3-14 4:05:12 增加程序需要正则表达式

-----------------------------------------------------------------------------}
unit uConst;

interface

uses Messages;

const
  WM_RefreshWordClassData = WM_USER + 321;    //刷新WordClass数据消息

  WM_SendErrorMsg = WM_USER + 322;            //发送错误消息
  {LParam返回状态信息,  WParam表示TaskID}

  WM_CheckTmpURLList = WM_USER + 323;         //检查抓取页面列表，保证新搜索到的页面得到更新

  WM_TaskICOForParser = WM_USER + 324;        //任务栏消息
const
  {Access连接字符窜}
  SConnectionString = 'Provider=Microsoft.Jet.OLEDB.4.0;Data Source=' +
    '%s' + ';Persist Security Info=False';

  {Access数据库名称}
  SAccessDBName = 'EnWordData.mdb';

  {数据库相对路径}
  SNowPath = 'Data\';

  {以下是正则表达式}

  {解析词汇类型链接,即<A ...> ... </A>部分}
  SRegExWordA = '<\s*[Aa][^<]*[Hh][Rr][Ee][Ff]\s*=.*[aA]' +
    '[rR][tT][iI][cC][lL][eE]_[vV][iI][eE][wW]\.[aA][sS][pP].*<\s*\/[aA]\s*>';

  {解析<A ...> ... </A>中的Href部分，结果：href=... (注:要去掉href)}
  SRegExWordAURL = '[Hh][Rr][Ee][Ff]=[^\s]*(?=\s)';

  {解析<A ...> ... </A>中的> ... <部分，结果: > ... (注：要去掉>)}
  SRegExWordAName = '>[^<>]*(?=<\s*\/[aA]\s*>)';

  {解析Page链接的<A ...> ... </A>部分}
  SRegExPageA = '<\s*[Aa][^<]*[Hh][Rr][Ee][Ff]\s*=[^<>]*[pP]' +
    '[aA][gG][eE]=(\d|\d\d|\d\d\d)[^/]*<\s*\/[aA]\s*>';

  {2解析词汇类型链接,即<A ...> ... </A>部分}
  SRegExWordB = '<\s*[Aa][^<]*[Hh][Rr][Ee][Ff]\s*=[^<>]*' +
    '[aA][rR][tT][iI][cC][lL][eE]_[lL][iI][sS][tT]\.[aA]' +
    '[sS][pP]\x3F[cC]_[iI][dD]\x3D[1][^<]*<\s*\/[aA]\s*>';

  {解析<A ...> ... </A>中的Href部分，结果：href=... (注:要去掉href)}
  SRegExWordBURL = '[Hh][Rr][Ee][Ff]=[^\s]*(?=[''"])';


  {类型1 Test04.html类型“Barina ||  巴里纳(澳大利亚通用-霍尔登公司)”}
  SRegExOne_One = '[\w\s]+\s*\|{2,2}\s*[^<>]*';{分析中英文}

  SRegExOne_Two = '[^\w\s\|]*(?=\s)';{分析中文}

  SRegExOne_Three = '[\w\s]+(?=\|{2,2})';{分析英文}
  
  {类型２Test03.html类型“1. 棉织物：COTTON FABRIC ”}
  SRegExTwo_One = '[\d]+\.[^<>]*(?=<[bB][rR]>)';

  SRegExTwo_Two = '[^\s]+(?=\xA3\xBA)';  //中文

  SRegExTwo_Three ='\xA3\xBA[^\s]*';  //去掉前两个字符：英文

  {New001.html类型“烤漆区     Coating Area”}
  SRegExThree_One = '([\xA1-\xFE][\xA1-\xFE])+\s*[\w\s]+<\s*[bB][rR]\s*>';

  SRegExThree_Two = '([\xA1-\xFE][\xA1-\xFE])+[^<>\w]*';

  SRegExThree_Three = '\w[^\xA1-\xFE]+(?=<\s*[bB][rR]\s*>)';

  {New002.html类型“to pay 付款，支付，偿还 ”}

  SRegExFour_One = '<\s*[bB][rR]\s*>(\w)+\s*[^<>]+<\s*[bB][rR]\s*>';

  SRegExFour_Two = '[\xA1-\xFE]+[^<>]*(?=<\s*[bB][rR]\s*>)';

  SRegExFour_Three = '\w+[^<>\xA1-\xFE]*(?=[\xA1-\xFE])';
  
  


implementation

end.

uconst.pas - 源码说明

本页面展示了「这是一个从指定网页格式分离单词的小程序」中的 uconst.pas 源码文件，采用 PAS 编程语言编写，共 95 行代码。您可以在线阅读完整代码内容，也可以返回资源详情页下载完整源码包进行本地学习和开发。

虫虫下载站收录了大量与页相关的技术资源，包括源代码、技术文档、电路图等，是电子工程师和嵌入式开发者的专业学习平台。

⌨️ 快捷键说明

复制代码Ctrl + C

搜索代码Ctrl + F

全屏模式F11

增大字号Ctrl + =

减小字号Ctrl + -

显示快捷键?