sk_collect_help.asp
来自「1.支持文章」· ASP 代码 · 共 170 行
ASP
170 行
<html>
<head>
<title>新闻采集系统</title>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
<link href="css/Admin_Style.css" rel="stylesheet" type="text/css">
</head>
<body leftmargin="0" topmargin="0" marginwidth="0" marginheight="0">
<table width="100%" border="0" align="center" cellpadding="0" cellspacing="1" class="tableBorder" >
<tr>
<td height="22" align="center" colspan="2" class="topbg" ><b><a name="#top"> </a>新闻采集系统使用帮助</b></td>
</tr>
</table>
<table width="100%" border="0" align="center" cellpadding="0" cellspacing="1" class="tableBorder">
<tr>
<td height="40" align="center" class="tdbg"> <strong> 因本系统占服务器资源比较大,如果您要
进行长时间的采集,推荐在本机采集后,将数据库上传到服务器进行导入操作。</strong><p>
</td>
</tr>
<tr>
<td height="40" align="left" class="tdbg"><br>
<strong>(Sk采集系统)v1.0 版 </strong><br>
网 站:<a href="http://www.skxiu.com" target="_blank">http://www.skxiu.com</a><br>
系统演示:<a href="http://www.skxiu.com/cj" target="_blank">http://www.skxiu.com/cj</a><br>
最新版本下载:<a href="http://www.skxiu.com/Sk采集系统v1.0 单机版.rar" target="_blank">http://www.skxiu.com/Sk采集系统v1.0 单机版.rar</a> <br>
<a href="http://www.skxiu.com/(Sk采集系统)v1.0+CMS 整合版.rar" target="_blank">http://www.skxiu.com/(Sk采集系统)v1.0+CMS 整合版.rar</a><br>
技术论坛:<a href="http://www.skxiu.com/BBS" target="_blank">http://www.skxiu.com/BBS</a><br>
声 明: <br>
本系统免费程序,给个人免费使用。<br>
付费版提供与其他系统整合服务和一年技术支持服务。<br>
功能介绍:<br>
1.支持文章,论坛,图片,flash,音乐,BT..等采集.<br>
2.增加自定文件采集.用户可采集网页中的所有文件.<br>
3.采集内容替换功能,用户可设置替换规则进行替换.<br>
4.支持所有文件远程保存到本地.<br>
5.断点续采功能.不受意外关闭影响,重新启动后可继续采集 不重复. <br>
6.支持多种CMS导库,本程序 与(科汛网站管理系统V2.2)整合在一起.<br>
7.增加2级分类采集。适应各种网站采集. <br>
8.缓存机制,在缓存中保存数据,操作常见动作,大量减少对数据库的增加,删除频繁的操作。<br>
<br> </td>
</tr>
<tr>
<td height="25" class="topbg"><strong>一、使用指南-----属性设置</strong></td>
</tr>
<tr>
<td height="40" align="left" class="tdbg"><b><br>
</b>
<p> </p> </td>
</tr>
<tr>
<td height="25" class="topbg"><strong>二、使用指南-----项目管理</strong></td>
</tr>
<tr>
<td height="40" align="left" class="tdbg"><b><img src="images/help-1.gif" width="500" height="58"><br>
<img src="images/help-2.gif" width="500" height="244"><br>
1、添加项目:</b>
<p>
(1)基本设置</p>
<p> 1.
项目名称:起个看一眼就明白的名称,如:IT世界-业界新闻(来自IT世界的业界新闻)。</p>
<p>
2.所属栏目:采集的新闻属于哪个栏目。
</p>
<p>
3.所属专题:采集的新闻属于哪个专题。</p>
<p>
4.目标文档编码:采集目录网页所用的编码。</p>
<p>
5.远程列表URl:采集网页的网址。</p>
<p> 6.是否列表分页采集: </p>
<p>
书一般都有目录吧?列表就像一本书的目录,目录可以有一页,也可以有很多页,列表也一样。<br>
(1)批量生成<br>
如有些列表是这种形式:<br>
第一页<a href="http://www.it.com.cn/news/cyxw/yejie/index_1.html">http://www.it.com.cn/news/cyxw/yejie/index_1.html</a><br>
第二页<a href="http://www.it.com.cn/news/cyxw/yejie/index_2.html">http://www.it.com.cn/news/cyxw/yejie/index_</a><a href="http://www.it.com.cn/news/cyxw/yejie/index_2.html">2.html</a><br>
第三页<a href="http://www.it.com.cn/news/cyxw/yejie/index_3.html">http://www.it.com.cn/news/cyxw/yejie/index_</a><a href="http://www.it.com.cn/news/cyxw/yejie/index_3.html">3.html</a>
<p>
那么可以这设置:{$ID}是必须的<p>
原字符串:<a href="http://www.it.com.cn/news/cyxw/yejie/index_{$ID}.html">http://www.it.com.cn/news/cyxw/yejie/index_{$ID}.html</a><p>
生成范围:1--3<p>
结果程序会生成:<a href="http://www.it.com.cn/news/cyxw/yejie/index_1.html">http://www.it.com.cn/news/cyxw/yejie/index_1.html</a><p>
<a href="http://www.it.com.cn/news/cyxw/yejie/index_1.html"> http://www.it.com.cn/news/cyxw/yejie/index_2.html</a><p>
<a href="http://www.it.com.cn/news/cyxw/yejie/index_3.html"> http://www.it.com.cn/news/cyxw/yejie/index_3.html</a><p>
这样的几个列表页面
<p>
(2)手动添加
<p>
输入一页网址后按回车再输入另一页,如此反复可以输入多个网址。
<p> 7.采集图片保存地址:
图片保存到本地的目录地址 <font color="#FF0000">后面必须带"/"符号</font>
<p> 8、新闻设置: <br>
立即发布:自动审核采集数据。<br>
图片保存:选中的话,如果采集的新闻正文中有图片,图片保存到本地。<br>
倒序采集:选中的话,如果采集的新闻时从最尾页开始采集。
<p> 7.标签过滤:
<p> 这里是常见的要过滤的html标签。<br>
广告过滤:如果没有选择,那么过滤设置中的过滤将不起作用,下一版中将去掉。<br>
IFRAME:如--<IFRAME SRC="广告地址">,比较常见的广告代码。<br>
OBJECT:如--<Object 代码>代码</Object>,注意--有些正文中有Flash动画、又有这个广告代码,此时推荐使用过滤功能。<br>
SCRIPT :如--<SCRIPT LANGUAGE="JavaScript1.1" SRC="广告地址"></SCRIPT>,常见的广告代码。<br>
FONT :如--<font
style="font-size:12px;line-height:150%;">,常用于去掉文字的大小、颜色等属性。<br>
A :如--<a href="http://pic.scuta.net">查看更多图片</a>,常用于去掉文字、图片上的链接,但不会去掉“查看更多图片”。 </p>
<p><b>2、 <A href="?action=s1&ItemID=181">第一步</A> :</b> <br>
<img src="images/help-3.gif" width="500" height="334">
<p> 1.列表开始/结束标记:
<p> 平面上的两点确定一条直线,学过几何吧?用在这里是一样的道理,开始/结束标记可以确定你要采集的新闻,有的这里没有设置好结果采集到其它新闻去了。<br>
比如这是某一列表页面的主要部分代码:<br>
<font color="#FF0000"><table width="98%" border="0" cellspacing="0" cellpadding="3"></font><font color="#FF0000"><br>
<tr> <br>
<td align="left" valign="top"><br></font><br>
<a href="News.asp?id=1" target=_blank>新闻标题</a><br> <br>
<a href="News.asp?id=2" target=_blank>新闻标题</a><br><br>
....省略<br>
<a href="News.asp?id=50" target=_blank>新闻标题</a><br>
<font color="#FF0000"></td></font><font color="#FF0000"><br>
</tr><br>
</table></font><br>
<font color="#FF0000"> </font>红色部分就是我们要的列表开始标记和结束标记,是不是把你想要的新闻夹在中间了?按照这样的取法可以选择好多对开始标记和结束标记,也就是说它们并不是唯一的。但是它们又是相对唯一的,这里的唯一是指,开始标记在第一条新闻以上的代码中唯一,结束标记在开始标记到结束标记之间的是唯一的。
<br>
2.链接开始/结束标记:
<br>
<font color="#FF0000"><a href="</font>News.asp?id=1<font color="#FF0000">"</font> target=_blank>新闻标题</a><br> <br>
<b>2、 <A href="?action=s1&ItemID=181">第二步</A> :</b><br>
<img src="images/help-4.gif" width="500" height="311">
<p>
1.正文设置
<p>
标题、正文、作者、来源、是否正文分类设置、关键字及正文分页设置同上,不想重复,这里就不说了。
<p> 2.采样测试
<p>
正确采样后完成添加操作。
<p>
</td>
</tr>
<tr>
<td height="25" class="topbg"><strong>三、使用指南-----</strong><b>历史记录</b></td>
</tr>
<tr>
<td height="40" align="left" class="tdbg">
历史记录,记录的是所采集过的新闻网址,保留着该新闻的采集状态,也是判断一条新闻是否重复采集的重要依据。<p>
成功记录:成功采集并保存到动易的数据库中。</p>
<p>
失败记录:采集失败,但动易数据库中没有相关新闻。</p>
<p>
失效记录:动易的数据库中已删除该新闻(不包括失败记录)</td>
</tr>
<tr>
<td height="25" class="topbg"><strong>四、使用指南-----数据库管理</strong></td>
</tr>
<tr>
<td height="40" align="left" class="tdbg">
见<a href="sk_ItemDatabase.asp"><u>数据库管理</u></a>首页</td>
</tr>
</table>
<!--#include file="Admin_ItemFoot.asp"-->
</body>
</html>
⌨️ 快捷键说明
复制代码Ctrl + C
搜索代码Ctrl + F
全屏模式F11
增大字号Ctrl + =
减小字号Ctrl + -
显示快捷键?