📄 小蜜蜂采集器广告过滤功能范例讲解.txt
字号:
采集操作演示动画:http://bc.downreg.com/help/swf/caiji_setup.htm
最近有些站长朋友采集时候比较困惑目标站带的广告代码,不知道如何使用过滤功能才能完整的过滤掉广告代码;下面我们结合一个站长的实际需求,给大伙讲解一下如何使用小蜜蜂的过滤功能。
本文为无图片,图文版请浏览:http://bc.downreg.com/help/511511gggl.html
目标网站名称:康易网
频道名称:美容-彩妆
频道地址URL:http://health.511511.com/lady/titivatelist.shtml
范例地址:http://health.511511.com/lady/20064/titivate34131.shtml
1、先看看范例地址文件带的广告,如下图;
图中大幅广告是一个FLASH,下面是两排文字广告;整个广告区域是个独立的大表格。我们过滤的目标是完整的去除2组广告以及外面的大表格,避免采集出来的内容会显示空白区域。
这组广告的代码:
--------------------------
<TABLE cellSpacing=0 cellPadding=2 width=300 align=left border=0>
<TBODY>
<TR><TD><table width="300" height="250">
<tr><td height="250">
<object classid="clsid:D27CDB6E-AE6D-11cf-96B8-444553540000" codebase="http://download.macromedia.com/pub/shockwave/cabs/flash/swflash.cab#version=6,0,29,0" width="300" height="250">
<param name="movie" value="/public/ad/images/300X250-flash.swf">
<param name="quality" value="high">
<embed src="/public/ad/images/300X250-flash.swf" quality="high" pluginspage="http://www.macromedia.com/go/getflashplayer" type="application/x-shockwave-flash" width="300" height="250"></embed></object>
</td>
</tr></table>
<!--画中画广告--></TD>
</TR>
<TR>
<TD><table width="300" align="center">
<tr>
<td height="14" align="left" bgcolor="#DFFFFF">·<a href="http://www.daoyi.com/guanggao/511-1.htm" target="_blank" style="color:#FF6600">葡萄籽可口服 化妆品</a></td> <td height="14" align="left" bgcolor="#DFFFFF">·<a href="http://www.511511.com" target="_blank" style="color:#FF6600">康易网新版上线</a></td>
</tr>
<tr>
<td height="14" align="left" bgcolor="#0000FF">·<a href="http://www.baoketu.com/chanpin/yetigai.asp?form=onlinenews170440" target="_blank" style="color:#ffffff">天然液体钙,吸收更加快</a></td>
<td height="14" align="left" bgcolor="#0000FF">·<a href="http://store.511511.com/" target="_blank" style="color:#ffffff">祝贺康易商城改版成功</a></td>
</tr>
</table>
<!--画中画广告下文字链--></TD></TR>
</TBODY>
</TABLE>
--------------------------
分析一下代码,2组广告分别属于一个小表格中;采集新手按以下步骤设置过滤。
2、过滤设置步骤
1)先过滤FLASH
原始代码
-----------------------
<table width="300" height="250">
<tr><td height="250">
<object classid="clsid:D27CDB6E-AE6D-11cf-96B8-444553540000" codebase="http://download.macromedia.com/pub/shockwave/cabs/flash/swflash.cab#version=6,0,29,0" width="300" height="250">
<param name="movie" value="/public/ad/images/300X250-flash.swf">
<param name="quality" value="high">
<embed src="/public/ad/images/300X250-flash.swf" quality="high" pluginspage="http://www.macromedia.com/go/getflashplayer" type="application/x-shockwave-flash" width="300" height="250"></embed></object>
</td>
</tr></table>
----------------------
过滤代码:
----------------------
<table width="300" height="250">
<tr><td height="250">
<object classid="[variable]" codebase="[variable]" width="300" height="250">
<param name="movie" value="[variable]">
<param name="quality" value="high">
<embed src="[variable]" quality="high" pluginspage="[variable]" width="300" height="250"></embed></object>
</td>
</tr></table>
----------------------
请注意过滤代码中的变量标签[variable]的使用,原则上只要是链接形式代码都建议用变量标签代替掉;设置以后看看测试效果:恩,现在只剩下文字广告了,继续。
2)过滤文字广告
原始代码
-----------------------
<table width="300" align="center">
<tr>
<td height="14" align="left" bgcolor="#DFFFFF">·<a href="http://www.daoyi.com/guanggao/511-1.htm" target="_blank" style="color:#FF6600">葡萄籽可口服 化妆品</a></td> <td height="14" align="left" bgcolor="#DFFFFF">·<a href="http://www.511511.com" target="_blank" style="color:#FF6600">康易网新版上线</a></td>
</tr>
<tr>
<td height="14" align="left" bgcolor="#0000FF">·<a href="http://www.baoketu.com/chanpin/yetigai.asp?form=onlinenews170440" target="_blank" style="color:#ffffff">天然液体钙,吸收更加快</a></td>
<td height="14" align="left" bgcolor="#0000FF">·<a href="http://store.511511.com/" target="_blank" style="color:#ffffff">祝贺康易商城改版成功</a></td>
</tr>
</table>
----------------------
过滤代码:
----------------------
<table width="300" align="center">
<tr>
<td height="14" align="left" bgcolor="#DFFFFF">[variable]<a href="[variable]" target="_blank" style="color:#FF6600">葡萄籽可口服 化妆品</a></td> <td height="14" align="left" bgcolor="#DFFFFF">[variable]<a href="[variable]" target="_blank" style="color:#FF6600">康易网新版上线</a></td>
</tr>
<tr>
<td height="14" align="left" bgcolor="#0000FF">[variable]<a href="[variable]" target="_blank" style="color:#ffffff">天然液体钙,吸收更加快</a></td>
<td height="14" align="left" bgcolor="#0000FF">[variable]<a href="[variable]" target="_blank" style="color:#ffffff">祝贺康易商城改版成功</a></td>
</tr>
</table>
----------------------
同样请注意过滤代码中的变量标签[variable]的使用,除了链接信息,这里我们把符号“·”也用变量标签代替了;设置以后再看看测试效果:OK,看来单独过滤文字广告设置也对了。
特别说明:V1.508及以后版本小蜜蜂已经支持规则包含特殊字符,上述文字广告过滤代码可以直接拷贝HTML源代码进行过滤。如果直接使用源代码过滤不成功时,可以再参考上述变量替换方式设置过滤代码。
下面我们要组合起来过滤。
3)组合过滤
----------------------
<table width="300" height="250">
<tr><td height="250">
<object classid="[variable]" codebase="[variable]" width="300" height="250">
<param name="movie" value="[variable]">
<param name="quality" value="high">
<embed src="[variable]" quality="high" pluginspage="[variable]" width="300" height="250"></embed></object>
</td>
</tr></table>[filtrate]<table width="300" align="center">
<tr>
<td height="14" align="left" bgcolor="#DFFFFF">[variable]<a href="[variable]" target="_blank" style="color:#FF6600">葡萄籽可口服 化妆品</a></td> <td height="14" align="left" bgcolor="#DFFFFF">[variable]<a href="[variable]" target="_blank" style="color:#FF6600">康易网新版上线</a></td>
</tr>
<tr>
<td height="14" align="left" bgcolor="#0000FF">[variable]<a href="[variable]" target="_blank" style="color:#ffffff">天然液体钙,吸收更加快</a></td>
<td height="14" align="left" bgcolor="#0000FF">[variable]<a href="[variable]" target="_blank" style="color:#ffffff">祝贺康易商城改版成功</a></td>
</tr>
</table>
----------------------
注意以上组合过滤代码中的[filtrate],如果您有多个对象需要过滤就要使用这个标签。现在看看组合过滤效果:看见“新手上路”前面的空格区域没有,这个就是还有大表格代码存在影响的效果。下面我们继续努力,把这个空白区域干掉。
4)完整过滤
这里我们把2段过滤代码分别替换原始代码中的对应部分,别忘记2段过滤代码中间有[filtrate]标签。
----------------------
<TABLE cellSpacing=0 cellPadding=2 width=300 align=left border=0>
<TBODY>
<TR><TD><table width="300" height="250">
<tr><td height="250">
<object classid="[variable]" codebase="[variable]" width="300" height="250">
<param name="movie" value="[variable]">
<param name="quality" value="high">
<embed src="[variable]" quality="high" pluginspage="[variable]" width="300" height="250"></embed></object>
</td>
</tr></table>
<!--画中画广告--></TD>
</TR>
<TR>
<TD>[filtrate]<table width="300" align="center">
<tr>
<td height="14" align="left" bgcolor="#DFFFFF">[variable]<a href="[variable]" target="_blank" style="color:#FF6600">葡萄籽可口服 化妆品</a></td> <td height="14" align="left" bgcolor="#DFFFFF">[variable]<a href="[variable]" target="_blank" style="color:#FF6600">康易网新版上线</a></td>
</tr>
<tr>
<td height="14" align="left" bgcolor="#0000FF">[variable]<a href="[variable]" target="_blank" style="color:#ffffff">天然液体钙,吸收更加快</a></td>
<td height="14" align="left" bgcolor="#0000FF">[variable]<a href="[variable]" target="_blank" style="color:#ffffff">祝贺康易商城改版成功</a></td>
</tr>
</table>
<!--画中画广告下文字链--></TD></TR>
</TBODY>
</TABLE>
----------------------
设置以后测试看看效果,大功告成,哈哈!
怎么样,各位站长朋友,过滤功能还是很好用的吧,设置也很简单;诀窍就在于灵活的用好[variable]和[filtrate]标签。
高级过滤范例2请浏览:http://bbs.downreg.com/thread-899-1-1.html
-----------------------------
安装过程中如有疑问或使用疑惑,敬请访问“小蜜蜂采集器”官方技术支持论坛:http://bbs.downreg.com/index.php?gid=19
感谢您选用“小蜜蜂采集器”,为了让更多的朋友知道小蜜蜂、使用小蜜蜂,请给小蜜蜂做一个文字链接,谢谢您的支持。
链接信息;小蜜蜂采集器
链接URL: http://bc.downreg.com
-----------------------------
安装/使用前言:
BC是DownReg.COM全职团队开发的产品,非兼职行为产品;
BC开发团队目前已扩展到7人,能为您提供免费的:远程安装支持、采集规则配置支持、内容导库配置支持;若需获取支持请至官方论坛留言。
-----------------------------
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -