sk_collect_help.asp

来自「1.支持文章」· ASP 代码 · 共 170 行

ASP
170
字号

<html>
<head>
<title>新闻采集系统</title>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
<link href="css/Admin_Style.css" rel="stylesheet" type="text/css">
</head>
<body leftmargin="0" topmargin="0" marginwidth="0" marginheight="0">
  <table width="100%" border="0" align="center" cellpadding="0" cellspacing="1" class="tableBorder" >
    <tr>       
    <td height="22" align="center" colspan="2" class="topbg" ><b><a name="#top">&nbsp;</a>新闻采集系统使用帮助</b></td>
    </tr>
</table>
<table width="100%" border="0" align="center" cellpadding="0" cellspacing="1" class="tableBorder">
  <tr> 
    <td height="40" align="center" class="tdbg"> <strong>&nbsp;&nbsp;&nbsp;&nbsp;因本系统占服务器资源比较大,如果您要
	进行长时间的采集,推荐在本机采集后,将数据库上传到服务器进行导入操作。</strong><p> 
    </td>
  </tr>
  <tr> 
    <td  height="40" align="left" class="tdbg"><br>
      <strong>(Sk采集系统)v1.0 版 </strong><br>
      网 站:<a href="http://www.skxiu.com" target="_blank">http://www.skxiu.com</a><br>
      系统演示:<a href="http://www.skxiu.com/cj" target="_blank">http://www.skxiu.com/cj</a><br>
      最新版本下载:<a href="http://www.skxiu.com/Sk采集系统v1.0 单机版.rar" target="_blank">http://www.skxiu.com/Sk采集系统v1.0 单机版.rar</a> <br>
      <a href="http://www.skxiu.com/(Sk采集系统)v1.0+CMS 整合版.rar" target="_blank">http://www.skxiu.com/(Sk采集系统)v1.0+CMS 整合版.rar</a><br>
技术论坛:<a href="http://www.skxiu.com/BBS" target="_blank">http://www.skxiu.com/BBS</a><br>
声 明: <br>
本系统免费程序,给个人免费使用。<br>
付费版提供与其他系统整合服务和一年技术支持服务。<br>
功能介绍:<br>
1.支持文章,论坛,图片,flash,音乐,BT..等采集.<br>
2.增加自定文件采集.用户可采集网页中的所有文件.<br>
3.采集内容替换功能,用户可设置替换规则进行替换.<br>
4.支持所有文件远程保存到本地.<br>
5.断点续采功能.不受意外关闭影响,重新启动后可继续采集 不重复. <br>
6.支持多种CMS导库,本程序 与(科汛网站管理系统V2.2)整合在一起.<br>
7.增加2级分类采集。适应各种网站采集. <br>
8.缓存机制,在缓存中保存数据,操作常见动作,大量减少对数据库的增加,删除频繁的操作。<br>
    <br>    </td>
  </tr>
  <tr> 
    <td height="25" class="topbg"><strong>一、使用指南-----属性设置</strong></td>
  </tr>
  <tr> 
    <td  height="40" align="left" class="tdbg"><b><br>
    </b>
      <p>&nbsp;</p>	</td>
  </tr>
  <tr> 
    <td height="25" class="topbg"><strong>二、使用指南-----项目管理</strong></td>
  </tr>
<tr> 
    <td  height="40" align="left" class="tdbg"><b><img src="images/help-1.gif" width="500" height="58"><br>
      <img src="images/help-2.gif" width="500" height="244"><br>
      1、添加项目:</b>
      <p>
	(1)基本设置</p>
	<p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;1. 
	项目名称:起个看一眼就明白的名称,如:IT世界-业界新闻(来自IT世界的业界新闻)。</p>
	<p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 
	2.所属栏目:采集的新闻属于哪个栏目。&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 
&nbsp;&nbsp;&nbsp;&nbsp;      </p>
	<p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 
	3.所属专题:采集的新闻属于哪个专题。</p>
	<p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 
	4.目标文档编码:采集目录网页所用的编码。</p>
	<p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 
	5.远程列表URl:采集网页的网址。</p>
	<p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;  6.是否列表分页采集:	  </p>
	<p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
	&nbsp;书一般都有目录吧?列表就像一本书的目录,目录可以有一页,也可以有很多页,列表也一样。<br>
	&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 
	 (1)批量生成<br>
	    如有些列表是这种形式:<br>
	    第一页<a href="http://www.it.com.cn/news/cyxw/yejie/index_1.html">http://www.it.com.cn/news/cyxw/yejie/index_1.html</a><br>
	    第二页<a href="http://www.it.com.cn/news/cyxw/yejie/index_2.html">http://www.it.com.cn/news/cyxw/yejie/index_</a><a href="http://www.it.com.cn/news/cyxw/yejie/index_2.html">2.html</a><br>
	    第三页<a href="http://www.it.com.cn/news/cyxw/yejie/index_3.html">http://www.it.com.cn/news/cyxw/yejie/index_</a><a href="http://www.it.com.cn/news/cyxw/yejie/index_3.html">3.html</a>
	<p>
	    那么可以这设置:{$ID}是必须的<p>
	    原字符串:<a href="http://www.it.com.cn/news/cyxw/yejie/index_{$ID}.html">http://www.it.com.cn/news/cyxw/yejie/index_{$ID}.html</a><p>
	    生成范围:1--3<p>
	    结果程序会生成:<a href="http://www.it.com.cn/news/cyxw/yejie/index_1.html">http://www.it.com.cn/news/cyxw/yejie/index_1.html</a><p>
	   <a href="http://www.it.com.cn/news/cyxw/yejie/index_1.html"> http://www.it.com.cn/news/cyxw/yejie/index_2.html</a><p>
	   <a href="http://www.it.com.cn/news/cyxw/yejie/index_3.html"> http://www.it.com.cn/news/cyxw/yejie/index_3.html</a><p>
	    这样的几个列表页面
	<p>
	    (2)手动添加
	<p>
	     输入一页网址后按回车再输入另一页,如此反复可以输入多个网址。
	<p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;  7.采集图片保存地址:
	图片保存到本地的目录地址 <font color="#FF0000">后面必须带"/"符号</font>    
	<p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;8、新闻设置: <br>
  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; &nbsp;&nbsp;&nbsp;  立即发布:自动审核采集数据。<br>
  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; &nbsp;&nbsp;&nbsp;  图片保存:选中的话,如果采集的新闻正文中有图片,图片保存到本地。<br>
  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; &nbsp;&nbsp;&nbsp;  倒序采集:选中的话,如果采集的新闻时从最尾页开始采集。
	  <p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;7.标签过滤:
	<p> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;  &nbsp;&nbsp;&nbsp; 这里是常见的要过滤的html标签。<br>
	  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;  &nbsp;&nbsp;&nbsp; 广告过滤:如果没有选择,那么过滤设置中的过滤将不起作用,下一版中将去掉。<br>
      &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;  &nbsp;&nbsp;&nbsp;  IFRAME:如--&lt;IFRAME SRC=&quot;广告地址&quot;&gt;,比较常见的广告代码。<br>
      &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;  &nbsp;&nbsp;&nbsp;  OBJECT:如--&lt;Object 代码&gt;代码&lt;/Object&gt;,注意--有些正文中有Flash动画、又有这个广告代码,此时推荐使用过滤功能。<br>
      &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;  &nbsp;&nbsp;&nbsp;  SCRIPT :如--&lt;SCRIPT LANGUAGE=&quot;JavaScript1.1&quot; SRC=&quot;广告地址&quot;&gt;&lt;/SCRIPT&gt;,常见的广告代码。<br>
      &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;  &nbsp;&nbsp;&nbsp;  FONT &nbsp; &nbsp;:如--&lt;font 
	  style=&quot;font-size:12px;line-height:150%;&quot;&gt;,常用于去掉文字的大小、颜色等属性。<br>
	  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;  &nbsp;&nbsp;&nbsp;  A&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; :如--&lt;a href=&quot;http://pic.scuta.net&quot;&gt;查看更多图片&lt;/a&gt;,常用于去掉文字、图片上的链接,但不会去掉“查看更多图片”。	</p>
	<p><b>2、 <A href="?action=s1&ItemID=181">第一步</A> :</b>    <br>
	  <img src="images/help-3.gif" width="500" height="334">
	<p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;1.列表开始/结束标记:
	  <p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 平面上的两点确定一条直线,学过几何吧?用在这里是一样的道理,开始/结束标记可以确定你要采集的新闻,有的这里没有设置好结果采集到其它新闻去了。<br>
	  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 比如这是某一列表页面的主要部分代码:<br>
	  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <font color="#FF0000">&lt;table width=&quot;98%&quot; border=&quot;0&quot; cellspacing=&quot;0&quot; cellpadding=&quot;3&quot;&gt;</font><font color="#FF0000"><br>
  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 
	    &lt;tr&gt; <br>
  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 
	    &lt;td align=&quot;left&quot; valign=&quot;top&quot;&gt;&lt;br&gt;</font><br>
	    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 
	    &lt;a href=&quot;News.asp?id=1&quot; target=_blank&gt;新闻标题&lt;/a&gt;&lt;br&gt; <br>
	  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 
	    &lt;a href=&quot;News.asp?id=2&quot; target=_blank&gt;新闻标题&lt;/a&gt;&lt;br&gt;<br>
	  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; ....省略<br>
      &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 
        &lt;a href=&quot;News.asp?id=50&quot; target=_blank&gt;新闻标题&lt;/a&gt;<br>
	  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <font color="#FF0000">&lt;/td&gt;</font><font color="#FF0000"><br>
	    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 
	    &lt;/tr&gt;<br>
	    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 
	    &lt;/table&gt;</font><br>
	  <font color="#FF0000">   &nbsp; </font>红色部分就是我们要的列表开始标记和结束标记,是不是把你想要的新闻夹在中间了?按照这样的取法可以选择好多对开始标记和结束标记,也就是说它们并不是唯一的。但是它们又是相对唯一的,这里的唯一是指,开始标记在第一条新闻以上的代码中唯一,结束标记在开始标记到结束标记之间的是唯一的。      
      <br>	  
      &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;2.链接开始/结束标记:
        <br>
	    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 
	    <font color="#FF0000">&lt;a href=&quot;</font>News.asp?id=1<font color="#FF0000">&quot;</font> target=_blank&gt;新闻标题&lt;/a&gt;&lt;br&gt; <br>
	    <b>2、 <A href="?action=s1&ItemID=181">第二步</A> :</b><br>
	    <img src="images/help-4.gif" width="500" height="311">
      <p>
      &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;1.正文设置
      <p>
	    标题、正文、作者、来源、是否正文分类设置、关键字及正文分页设置同上,不想重复,这里就不说了。
      <p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;2.采样测试
	  <p>
	    正确采样后完成添加操作。   
	<p>
	   </td>
  </tr>
  
  <tr> 
    <td height="25" class="topbg"><strong>三、使用指南-----</strong><b>历史记录</b></td>
  </tr>
  <tr> 
    <td  height="40" align="left" class="tdbg">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 
	历史记录,记录的是所采集过的新闻网址,保留着该新闻的采集状态,也是判断一条新闻是否重复采集的重要依据。<p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
	成功记录:成功采集并保存到动易的数据库中。</p>
	<p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 
	失败记录:采集失败,但动易数据库中没有相关新闻。</p>
	<p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 
	失效记录:动易的数据库中已删除该新闻(不包括失败记录)</td>
  </tr>
  <tr> 
    <td height="25" class="topbg"><strong>四、使用指南-----数据库管理</strong></td>
  </tr>
   <tr> 
    <td  height="40" align="left" class="tdbg">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
	见<a href="sk_ItemDatabase.asp"><u>数据库管理</u></a>首页</td>
  </tr>
  </table>
  <!--#include file="Admin_ItemFoot.asp"-->
</body>
</html>

⌨️ 快捷键说明

复制代码Ctrl + C
搜索代码Ctrl + F
全屏模式F11
增大字号Ctrl + =
减小字号Ctrl + -
显示快捷键?