📄 bbs采集功能使用范例.txt
字号:
小蜜蜂采集器---BBS采集功能使用范例
您可能需要参考的资料:
采集规则制作范例:http://bc.downreg.com/help/cjfw1.html
过滤功能范例:http://bc.downreg.com/help/511511gggl.html
高级过滤范例:http://bbs.downreg.com/thread-899-1-1.html
BBS采集规则制作方法其实和文章采集是一样的,只是因为BBS对比文章来说有一些特别之处:
1、比如发帖内容和回帖内容都是一样的显示模版,如果用普通文章采集办法去做这样就会出现规则重复,所以采集BBS就有要采楼层之说;您想采集第一帖,还是第N帖可以自己控制。
2、BBS栏目索引页上的标题链接很多特殊符号,比如精华I、精华II、精华III、置顶、有带附件的标准、有分页的符号等等,而文章标题链接全部都一样,相对就简单多了。
下面我们以discuz官方论坛的一个栏目为目标做个采集范例,部分忽略不讲的内容若不懂,请看文章采集范例:
目标URL:http://www.discuz.net/forum-2-1.html
1、URL规则设计:忽略不讲
2、标题链接分析:目标URL上面,标题的前缀标志很多,有图片、置顶 III、置顶 II、置顶 I等等,而且大部分帖还带着分页的标志(后缀),,设计链接的原则就是要针对每个不同前缀/后缀标题设计对应的规则,所以BBS采集这里,允许设置多个链接规则,各规则中间用符号“|”分开即可。
供参考的规则,注意各单个规则中间的间隔符号:
<a href="[link]" style="[variable]">[title]</a>|<img src="images/default/firstnew.gif" border="0" align="absmiddle"></a>[variable]<a href="[link]">[title]</a>|<tr><td>[variable]<a href="[link]">[title]</a>|<tr><td>[variable]<img src="images/attachicons/common.gif">[variable]<a href="[link]">[title]</a>
各单个规则定义原理如果不明白,也请看文章采集范例。
3、标题规则设计与文章采集一样,略过。
4、内容规则设计:设计思路依然与文章采集一样,也允许多规则定义,各规则用符号"|"分隔。内容规则定义比较特殊的就是要定义楼层,楼层意思就是论坛每个帖的几楼几楼,楼层定义错了或者采集不到内容,或者内容错误采集。规则定义思路是您想采哪一层就定义哪一层的内容规则,另外楼层数字代表是想采第几楼,而不是如果定义6,就是从发帖开始一直采集到第6个回帖。
5、作者、来源定义略过。
6、过滤规则定义 基本的过滤方法与文章系统一样,若对基本过滤功能定义不清楚请看过滤范例;针对BBS采集的特点,专门新增“区域过滤”标签,该功能可以实现大范围过滤;比如过滤签名档。
供参考的规则,过滤签名档:
<td valign="bottom" style="height: 20em">[filtraterang]</td></tr></table>[variable]</td></tr>
7、COOKIE 如果遇见论坛需要登录才能访问,就需要设置cookie参数;discuz、phpwind论坛cookie获取及设置方法请参考软件包导库模版的论坛导库文件说明;其他论坛在线获取cookie程序逐步测试提供。您也可以用第三方cookie工具查找cookie值。
8、REFERER 某些论坛要验证引用来源,这种目标一般通过设置论坛目标栏目URL地址。
9、UTF8 略过
10、图片保存目录 用法与文章采集一样,略过。
总结:BBS采集难点主要是分析栏目索引页上多规则的标题链连,以及内容规则;建议用BBS采集功能之前先熟悉文章采集功能,了解基本用法。
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -