readme.txt

来自「这是一个从指定网页格式分离单词的小程序」· 文本代码 · 共 24 行

TXT

24 行

ParserEn说明

这是一个从指定网页格式分离单词的小程序，自动从http://www.fane.cn/article_list.asp?c_id=1&s_id=1
链接抓取分析其它可用链接，然后对所有链接进行分析找到可用页面然后分离中英文单词，并进行分类。

使用了多线程处理，遇到了很有趣的多个不同功能的许多线程相互协调工作的问题，由于采用主线程进行消
息处理安排线和工作流程所以会产生主程序窗口被堵死情况，特别是在开的线程很多的时候。

优化方案：
1.应再写个控制线程，让一个单独的线程去管理其它工作线程协调问题，防止主程无响应，主程通过定时刷
新共享区数据获取运行状况。

2.多线程情况下效率问题没有做过多考虑，特别是ADO产生多线程锁冲突时使程序效率更低下，应考虑先将抓
取的数据先放到缓冲区中，开适当的线程数来将数据插入数据库中。

3.没有测试其它正则表达式控件的效率问题（对正则表达式的算法没有做过仔细研究）

使用TPerlRegEx正则表达式控件分离.htm中所需要数据

该程序没有经过严格测试难免有很多bug，主要精力用于提高抓取速度、精度和解决主程无响应问题上，希望
这些简陋的代码能给正在学习使用多线程的朋友们一定的参考。

readme.txt - 源码说明

本页面展示了「这是一个从指定网页格式分离单词的小程序」中的 readme.txt 源码文件，采用文本编程语言编写，共 24 行代码。您可以在线阅读完整代码内容，也可以返回资源详情页下载完整源码包进行本地学习和开发。

虫虫下载站收录了大量与页相关的技术资源，包括源代码、技术文档、电路图等，是电子工程师和嵌入式开发者的专业学习平台。

⌨️ 快捷键说明

复制代码Ctrl + C

搜索代码Ctrl + F

全屏模式F11

增大字号Ctrl + =

减小字号Ctrl + -

显示快捷键?