📄 main.java
字号:
MyPageOperate.setMyFileNumber(fileNumber);//设置网页数
MyPageOperate.setFileName();//此处用了私有变量myHtml 设置保存网页的文件名
// MyPageOperate.saveHtmlToFile();//把myHtml保存成指定的文件 //用到了上面定义的myFileName 和 myAddress
String updateSql="update urls set zhen=1 where ID="+j;
std.updateUrlsTable(updateSql);
System.out.println("表单中含有,书名,出版社,等字样,是图书接口");
System.out.println("##################3保存复杂接口");
//抽取接口信息,生成xml文档
// Form Form=foperator.getForm();//传递form表单
// Form.setUrl(myUrl);//传递url地址
// Form.setUrlID(j);//在数据库中的ID号
// Form.makeFormMessage();//制作form类中的各种信息
// FileOperate foe=new FileOperate(Form);
// foe.createFlie();
// foe.makeFile();
}
else
{
System.out.println("表单中含有,书名,出版社,等字样,但网页中没有购物车,支付等,可能不是图书接口");
}
}
else//如果表单中没有书名,出版社,等关键字,则判定是否可能是搜索接口
{
sqlSelect="select * from searchinterfacekeyword";//取出表中的关键字,如search,搜等
foperator.setKeyWordInForm(std.selectOneForm(sqlSelect));
if(foperator.isDeepWebSearchInteface())////判断form中是否有搜索,检索,search等关键字,如果有则可能是搜索接口
{
sqlSelect="select * from keywordinpage";//取出表中的关键字
//foperator=new FOperator(MyPageOperate.getHtml(),std.selectOneForm(sqlSelect));
foperator.setKeyWordInForm(std.selectOneForm(sqlSelect));
if(foperator.isPagehasbook())//在是搜索接口的情况下,判断页面中是否有图书,书店等关键字的
{
sqlSelect="select * from serviceinpage";//取出表中的关键字
foperator.setKeyWordInForm(std.selectOneForm(sqlSelect));
if(foperator.isPagehasbook())//在是搜索接口,及页面中有图书,书店等关键字的的情况下,判断页面中是否有服务信息,购物车
{
String address="E:\\test\\xiyouji2_keneng_page4\\xuan\\";//保存文件的地址 有搜索接口下面就改变保存地址,没有就用这个地址
MyPageOperate.setMyAddress(address); //设置保存网页的文件地址
MyPageOperate.setMyFileNumber(fileNumber);//设置网页数
MyPageOperate.setFileName();//此处用了私有变量myHtml 设置保存网页的文件名
//MyPageOperate.saveHtmlToFile();//把myHtml保存成指定的文件 //用到了上面定义的myFileName 和 myAddress
String updateSql="update urls set xun=1 where ID="+j;
std.updateUrlsTable(updateSql);
System.out.println("网页中有表单,且是搜索框,网页中含有图书,购物车,等关键字,可能是图书接口");
//抽取接口信息,生成xml文档
System.out.println("##################3保存单文本框");
// Form Form=foperator.getForm();//传递form表单
// Form.setUrl(myUrl);//传递url地址
// Form.setUrlID(j);//在数据库中的ID号
// Form.makeFormMessage();//制作form类中的各种信息
// FileOperate foe=new FileOperate(Form);
// foe.createFlie();
// foe.makeFile();
}
else
{
System.out.println("网页中有表单,且是搜索框,且网页中含有图书,等关键字,但是,页面中没有服务信息,购物车,可能不是图书接口");
}
}
else
{
System.out.println("网页中有表单,且是搜索框,但网页中不含有图书,购物车等关键字,可能不是图书接口");
}
}
else
{
System.out.println("表单中没有图书接口,可能是注册接口");
}
}
}
else//如果网页中没有表单,则查看网页中是否有文本框和搜索字样
{
if(MyPageOperate.hasTextAndSearch())//网页中有文本框和搜索字样
{
String sqlSelect="select * from keywordinpage";//取出表中的关键字
foperator=new FOperator(MyPageOperate.getHtml(),std.selectOneForm(sqlSelect));
//foperator.setKeyWordInForm(std.selectOneForm(sqlSelect));
if(foperator.isPagehasbook())
{
sqlSelect="select * from serviceinpage";//取出表中的关键字
foperator.setKeyWordInForm(std.selectOneForm(sqlSelect));
if(foperator.isPagehasbook())//在是搜索接口,及页面中有图书,书店等关键字的的情况下,判断页面中是否有服务信息,购物车
{
String address="E:\\test\\xiyouji2_keneng_page4\\xuan\\";//保存文件的地址 有搜索接口下面就改变保存地址,没有就用这个地址
MyPageOperate.setMyAddress(address); //设置保存网页的文件地址
MyPageOperate.setMyFileNumber(fileNumber);//设置网页数
MyPageOperate.setFileName();//此处用了私有变量myHtml 设置保存网页的文件名
//MyPageOperate.saveHtmlToFile();//把myHtml保存成指定的文件 //用到了上面定义的myFileName 和 myAddress
String updateSql="update urls set xun=1 where ID="+j;
std.updateUrlsTable(updateSql);
System.out.println("网页中没有表单但有文本框和搜索字样,并且网页中含有,书店,购物,支付等字样,可能是图书接口");
}
else
{
System.out.println("网页中没有表单但有文本框和搜索字样,并且网页中含有,书店,等字样,但没有购物,支付,运送等信息,可能不是图书接口");
}
}
else
{
System.out.println("网页中没有表单但有文本框和搜索字样,但网页中不含有,书店,等字样,可能不是图书接口");
}
}
else
{
System.out.println("网页中没有表单以及文本框和搜索字样");
}
}
System.out.println("操作完第"+j+"个网页");
System.out.println("---------------------------");
}
else
{
System.out.println("------被决策树排除-----"+myUrl);
}
}
catch(Exception e)
{
System.out.println("循环异常结束");
e.printStackTrace();
}
//}
System.out.println("总共有个"+count+"页面含有表单");
//end 操作urls表,从表中提取一个url地址,连接地址,并分析网页,查看是否有表单,有则保存网页到指定的文件中,
}//while
System.out.println("----------操作完成");
}
}
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -