⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 readme.txt

📁 这是一个从指定网页格式分离单词的小程序
💻 TXT
字号:
ParserEn说明

这是一个从指定网页格式分离单词的小程序,自动从http://www.fane.cn/article_list.asp?c_id=1&s_id=1
链接抓取分析其它可用链接,然后对所有链接进行分析找到可用页面然后分离中英文单词,并进行分类。

使用了多线程处理,遇到了很有趣的多个不同功能的许多线程相互协调工作的问题,由于采用主线程进行消
息处理安排线和工作流程所以会产生主程序窗口被堵死情况,特别是在开的线程很多的时候。

优化方案:
1.应再写个控制线程,让一个单独的线程去管理其它工作线程协调问题,防止主程无响应,主程通过定时刷
新共享区数据获取运行状况。

2.多线程情况下效率问题没有做过多考虑,特别是ADO产生多线程锁冲突时使程序效率更低下,应考虑先将抓
取的数据先放到缓冲区中,开适当的线程数来将数据插入数据库中。

3.没有测试其它正则表达式控件的效率问题(对正则表达式的算法没有做过仔细研究)

使用TPerlRegEx正则表达式控件分离.htm中所需要数据

该程序没有经过严格测试难免有很多bug,主要精力用于提高抓取速度、精度和解决主程无响应问题上,希望
这些简陋的代码能给正在学习使用多线程的朋友们一定的参考。

   
                                             

⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -