📄 uconst.pas
字号:
{-----------------------------------------------------------------------------
Unit Name: uConst
Author: Piao
Date: 2005-3-12 14:45:18
Purpose: 常量单元
History: 2005-3-14 4:05:12 增加程序需要正则表达式
-----------------------------------------------------------------------------}
unit uConst;
interface
uses Messages;
const
WM_RefreshWordClassData = WM_USER + 321; //刷新WordClass数据消息
WM_SendErrorMsg = WM_USER + 322; //发送错误消息
{LParam返回状态信息, WParam表示TaskID}
WM_CheckTmpURLList = WM_USER + 323; //检查抓取页面列表,保证新搜索到的页面得到更新
WM_TaskICOForParser = WM_USER + 324; //任务栏消息
const
{Access连接字符窜}
SConnectionString = 'Provider=Microsoft.Jet.OLEDB.4.0;Data Source=' +
'%s' + ';Persist Security Info=False';
{Access数据库名称}
SAccessDBName = 'EnWordData.mdb';
{数据库相对路径}
SNowPath = 'Data\';
{以下是正则表达式}
{解析词汇类型链接,即<A ...> ... </A>部分}
SRegExWordA = '<\s*[Aa][^<]*[Hh][Rr][Ee][Ff]\s*=.*[aA]' +
'[rR][tT][iI][cC][lL][eE]_[vV][iI][eE][wW]\.[aA][sS][pP].*<\s*\/[aA]\s*>';
{解析<A ...> ... </A>中的Href部分,结果:href=... (注:要去掉href)}
SRegExWordAURL = '[Hh][Rr][Ee][Ff]=[^\s]*(?=\s)';
{解析<A ...> ... </A>中的> ... <部分,结果: > ... (注:要去掉>)}
SRegExWordAName = '>[^<>]*(?=<\s*\/[aA]\s*>)';
{解析Page链接的<A ...> ... </A>部分}
SRegExPageA = '<\s*[Aa][^<]*[Hh][Rr][Ee][Ff]\s*=[^<>]*[pP]' +
'[aA][gG][eE]=(\d|\d\d|\d\d\d)[^/]*<\s*\/[aA]\s*>';
{2解析词汇类型链接,即<A ...> ... </A>部分}
SRegExWordB = '<\s*[Aa][^<]*[Hh][Rr][Ee][Ff]\s*=[^<>]*' +
'[aA][rR][tT][iI][cC][lL][eE]_[lL][iI][sS][tT]\.[aA]' +
'[sS][pP]\x3F[cC]_[iI][dD]\x3D[1][^<]*<\s*\/[aA]\s*>';
{解析<A ...> ... </A>中的Href部分,结果:href=... (注:要去掉href)}
SRegExWordBURL = '[Hh][Rr][Ee][Ff]=[^\s]*(?=[''"])';
{类型1 Test04.html类型“Barina || 巴里纳(澳大利亚通用-霍尔登公司)”}
SRegExOne_One = '[\w\s]+\s*\|{2,2}\s*[^<>]*';{分析中英文}
SRegExOne_Two = '[^\w\s\|]*(?=\s)';{分析中文}
SRegExOne_Three = '[\w\s]+(?=\|{2,2})';{分析英文}
{类型2Test03.html类型“1. 棉织物:COTTON FABRIC ”}
SRegExTwo_One = '[\d]+\.[^<>]*(?=<[bB][rR]>)';
SRegExTwo_Two = '[^\s]+(?=\xA3\xBA)'; //中文
SRegExTwo_Three ='\xA3\xBA[^\s]*'; //去掉前两个字符:英文
{New001.html类型“烤漆区 Coating Area”}
SRegExThree_One = '([\xA1-\xFE][\xA1-\xFE])+\s*[\w\s]+<\s*[bB][rR]\s*>';
SRegExThree_Two = '([\xA1-\xFE][\xA1-\xFE])+[^<>\w]*';
SRegExThree_Three = '\w[^\xA1-\xFE]+(?=<\s*[bB][rR]\s*>)';
{New002.html类型“to pay 付款,支付,偿还 ”}
SRegExFour_One = '<\s*[bB][rR]\s*>(\w)+\s*[^<>]+<\s*[bB][rR]\s*>';
SRegExFour_Two = '[\xA1-\xFE]+[^<>]*(?=<\s*[bB][rR]\s*>)';
SRegExFour_Three = '\w+[^<>\xA1-\xFE]*(?=[\xA1-\xFE])';
implementation
end.
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -