📄 readme.txt
字号:
ParserEn说明
这是一个从指定网页格式分离单词的小程序,自动从http://www.fane.cn/article_list.asp?c_id=1&s_id=1
链接抓取分析其它可用链接,然后对所有链接进行分析找到可用页面然后分离中英文单词,并进行分类。
使用了多线程处理,遇到了很有趣的多个不同功能的许多线程相互协调工作的问题,由于采用主线程进行消
息处理安排线和工作流程所以会产生主程序窗口被堵死情况,特别是在开的线程很多的时候。
优化方案:
1.应再写个控制线程,让一个单独的线程去管理其它工作线程协调问题,防止主程无响应,主程通过定时刷
新共享区数据获取运行状况。
2.多线程情况下效率问题没有做过多考虑,特别是ADO产生多线程锁冲突时使程序效率更低下,应考虑先将抓
取的数据先放到缓冲区中,开适当的线程数来将数据插入数据库中。
3.没有测试其它正则表达式控件的效率问题(对正则表达式的算法没有做过仔细研究)
使用TPerlRegEx正则表达式控件分离.htm中所需要数据
该程序没有经过严格测试难免有很多bug,主要精力用于提高抓取速度、精度和解决主程无响应问题上,希望
这些简陋的代码能给正在学习使用多线程的朋友们一定的参考。
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -