⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 main.java

📁 本程序可从网上利用百度搜索引擎下载和输入关键词有关的网页
💻 JAVA
📖 第 1 页 / 共 2 页
字号:
									  MyPageOperate.setMyFileNumber(fileNumber);//设置网页数
									  MyPageOperate.setFileName();//此处用了私有变量myHtml	设置保存网页的文件名		  
									 // MyPageOperate.saveHtmlToFile();//把myHtml保存成指定的文件 //用到了上面定义的myFileName 和 myAddress					 
								      String updateSql="update urls set zhen=1 where ID="+j;
								      std.updateUrlsTable(updateSql);
								      System.out.println("表单中含有,书名,出版社,等字样,是图书接口");

								     System.out.println("##################3保存复杂接口");
								      //抽取接口信息,生成xml文档
								   //   Form Form=foperator.getForm();//传递form表单
								   //   Form.setUrl(myUrl);//传递url地址
								   //   Form.setUrlID(j);//在数据库中的ID号
								   //   Form.makeFormMessage();//制作form类中的各种信息
								      
								      
								    //  FileOperate foe=new FileOperate(Form);
								     // foe.createFlie();
								     // foe.makeFile();
								      
								  }
								  else
								  {
									  System.out.println("表单中含有,书名,出版社,等字样,但网页中没有购物车,支付等,可能不是图书接口");
								  }
								  											      
							  }
							  else//如果表单中没有书名,出版社,等关键字,则判定是否可能是搜索接口
							  {
								   sqlSelect="select * from searchinterfacekeyword";//取出表中的关键字,如search,搜等
								   foperator.setKeyWordInForm(std.selectOneForm(sqlSelect));
								   if(foperator.isDeepWebSearchInteface())////判断form中是否有搜索,检索,search等关键字,如果有则可能是搜索接口
									  {

											   sqlSelect="select * from keywordinpage";//取出表中的关键字
											  //foperator=new FOperator(MyPageOperate.getHtml(),std.selectOneForm(sqlSelect));
											   foperator.setKeyWordInForm(std.selectOneForm(sqlSelect));						  
											  if(foperator.isPagehasbook())//在是搜索接口的情况下,判断页面中是否有图书,书店等关键字的
				                              {
												   sqlSelect="select * from serviceinpage";//取出表中的关键字								  
												   foperator.setKeyWordInForm(std.selectOneForm(sqlSelect));
												  if(foperator.isPagehasbook())//在是搜索接口,及页面中有图书,书店等关键字的的情况下,判断页面中是否有服务信息,购物车
												  {
													  String address="E:\\test\\xiyouji2_keneng_page4\\xuan\\";//保存文件的地址 有搜索接口下面就改变保存地址,没有就用这个地址
													  MyPageOperate.setMyAddress(address); //设置保存网页的文件地址
													  MyPageOperate.setMyFileNumber(fileNumber);//设置网页数
													  MyPageOperate.setFileName();//此处用了私有变量myHtml	设置保存网页的文件名		  
													  //MyPageOperate.saveHtmlToFile();//把myHtml保存成指定的文件 //用到了上面定义的myFileName 和 myAddress					 
												      
													  String updateSql="update urls set xun=1 where ID="+j;
												      std.updateUrlsTable(updateSql);					     
													  System.out.println("网页中有表单,且是搜索框,网页中含有图书,购物车,等关键字,可能是图书接口");  
													  
													  
												     //抽取接口信息,生成xml文档
													  System.out.println("##################3保存单文本框");
													//  Form Form=foperator.getForm();//传递form表单
												    //  Form.setUrl(myUrl);//传递url地址
												    //  Form.setUrlID(j);//在数据库中的ID号
												    //  Form.makeFormMessage();//制作form类中的各种信息
												      
												    //  FileOperate foe=new FileOperate(Form);
												    //  foe.createFlie();
												    //  foe.makeFile();
												  }
												  else
												  {
													  System.out.println("网页中有表单,且是搜索框,且网页中含有图书,等关键字,但是,页面中没有服务信息,购物车,可能不是图书接口");
												  }
													  
												
				                              }								   
											  else
										      {
										    	  System.out.println("网页中有表单,且是搜索框,但网页中不含有图书,购物车等关键字,可能不是图书接口");
										      }						    	 
									      

									  }
								   else
								   {
									   System.out.println("表单中没有图书接口,可能是注册接口");
								   }
							  }
							  
						  }
						  else//如果网页中没有表单,则查看网页中是否有文本框和搜索字样
						  {
							  if(MyPageOperate.hasTextAndSearch())//网页中有文本框和搜索字样
							  {
							      
								  String sqlSelect="select * from keywordinpage";//取出表中的关键字
								  foperator=new FOperator(MyPageOperate.getHtml(),std.selectOneForm(sqlSelect));
								  //foperator.setKeyWordInForm(std.selectOneForm(sqlSelect));						  
								  if(foperator.isPagehasbook())
	                              {
									  sqlSelect="select * from serviceinpage";//取出表中的关键字								  
									   foperator.setKeyWordInForm(std.selectOneForm(sqlSelect));
									  if(foperator.isPagehasbook())//在是搜索接口,及页面中有图书,书店等关键字的的情况下,判断页面中是否有服务信息,购物车
									  {
										  String address="E:\\test\\xiyouji2_keneng_page4\\xuan\\";//保存文件的地址 有搜索接口下面就改变保存地址,没有就用这个地址
										  MyPageOperate.setMyAddress(address); //设置保存网页的文件地址
										  MyPageOperate.setMyFileNumber(fileNumber);//设置网页数
										  MyPageOperate.setFileName();//此处用了私有变量myHtml	设置保存网页的文件名		  
										  //MyPageOperate.saveHtmlToFile();//把myHtml保存成指定的文件 //用到了上面定义的myFileName 和 myAddress					 
									      String updateSql="update urls set xun=1 where ID="+j;
									      std.updateUrlsTable(updateSql);					     
										  System.out.println("网页中没有表单但有文本框和搜索字样,并且网页中含有,书店,购物,支付等字样,可能是图书接口");  
		                              
									  }
									  else
									  {
										  System.out.println("网页中没有表单但有文本框和搜索字样,并且网页中含有,书店,等字样,但没有购物,支付,运送等信息,可能不是图书接口");
									  }
								  }
	                              else
	                              {
	                            	  System.out.println("网页中没有表单但有文本框和搜索字样,但网页中不含有,书店,等字样,可能不是图书接口");  
	                              }
								 
							  }
							  else
							  {
								  System.out.println("网页中没有表单以及文本框和搜索字样");
							  }
							 
						  }

						  
						  System.out.println("操作完第"+j+"个网页");
						  System.out.println("---------------------------");
					  }
					  else
					  {
						  System.out.println("------被决策树排除-----"+myUrl); 
					  }

				 }
			   catch(Exception e) 
				{ 
				   System.out.println("循环异常结束");
				   e.printStackTrace();
				}
			//}
		System.out.println("总共有个"+count+"页面含有表单");

	//end 操作urls表,从表中提取一个url地址,连接地址,并分析网页,查看是否有表单,有则保存网页到指定的文件中,		
		
  }//while
 System.out.println("----------操作完成");
	
	
		
	
		
		

	}
}








⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -