⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 常用正则表达式.txt

📁 这是一个从指定网页格式分离单词的小程序
💻 TXT
字号:
Html相关
过滤大部分链接<a href ... > ... </a>
表达式:<\s*[Aa][^<]*[Hh][Rr][Ee][Ff]\s*=[^\/]*<\s*\/[aA]\s*>

所有中文(不包括标点):
([\xB0-\xF7][\xA1-\xFE])+
所有GB2312-80编码
([\xA1-\xFE][\xA1-\xFE])+
所有中文空格
(\xA1\xA1)+

英文标点:[\x20-\x2F\x3A-\x40\x5B-\x60\x7B-\x7E]


Test04.html类型“Barina ||  巴里纳(澳大利亚通用-霍尔登公司)”
1分析中英:[\w\s]+\s*\|{2,2}\s*[^<>]*
2中文:[^\w\s\|]*(?=\s)
3对应英文:[\w\s]+(?=\|{2,2})



Test03.html类型“1. 棉织物:COTTON FABRIC ”
1分析中英:[\d]+\.[^<>]*(?=<[bB][rR]>)
2中文:[^\s]+(?=\xA3\xBA)
3对应英文第一个字符为冒号:\xA3\xBA[^\s]*



Test05.html类型“按可比口径 on comparable basis”
1分析中英:>([\xA1-\xFE][\xA1-\xFE])+[^<>]*\s*\w(?=<[bB][rR]>)
2中文:([\xA1-\xFE][\xA1-\xFE])+[^<>](?=\w)
3英文:




New001.html类型“烤漆区     Coating Area”
中英:([\xA1-\xFE][\xA1-\xFE])+\s*[\w\s]+<\s*[bB][rR]\s*>
中文:([\xA1-\xFE][\xA1-\xFE])+[^<>\w]*
英文:\w[^\xA1-\xFE]+(?=<\s*[bB][rR]\s*>)


New001.html类型“烤漆区     Coating Area”  网页中用&nbsp分隔的情况
中英:<\s*[bB][rR]\s*>([\xA1-\xFE][\xA1-\xFE])+\s*[^<>]+<\s*[bB][rR]\s*>
中文:([\xA1-\xFE][\xA1-\xFE])+[^<>]*(?=&[nN][bB][sS][pP])
英文:&[nN][bB][sS][pP][^<>]*(?=<\s*[bB][rR]\s*>)



New002.html类型“to pay 付款,支付,偿还 ”
中英:<\s*[bB][rR]\s*>(\w)+\s*[^<>]+<\s*[bB][rR]\s*>
中文:[\xA1-\xFE]+[^<>]*(?=<\s*[bB][rR]\s*>)
英文:\w+[^<>\xA1-\xFE]*(?=[\xA1-\xFE])

⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -