Linux中国 Linux中国门户站!
设为主页 设为主页
收藏本站 收藏本站
 
当前位置 :首页 ->Linux技术 ->系统管理 ->正文

jsp“抓”网页代码的程序

来源:Linux-cn.com 作者:Webmaster 时间:2007-05-05 点击: [收藏] [投稿]

  作者:东方一蛇

  网站“我的家”(http://www.wodejia.net)


<%@ page contentType="text/html;charset=gb2312"%> 
<% 

String sCurrentLine; 

String sTotalString; 

sCurrentLine=""; 

sTotalString=""; 

java.io.InputStream l_urlStream; 

java.net.URL l_url = new java.net.URL("http://www.163.net/"); 

java.net.HttpURLConnection l_connection = (java.net.HttpURLConnection) 
l_url.openConnection();

l_connection.connect(); 

l_urlStream = l_connection.getInputStream(); 

java.io.BufferedReader l_reader = 
new java.io.BufferedReader(new java.io.InputStreamReader(l_urlStream)); 

while ((sCurrentLine = l_reader.readLine()) != null) 

{ 

sTotalString+=sCurrentLine; 

} 

out.println(sTotalString); 

%> 

后记

  虽然代码比较简单,但是,我认为根据这个,可以实现“网络爬虫”的功能,比如从页面找href连接,然后再得到那个连接,然后再“抓”,不停止地(当然可以限定层数),这样,可以实现“网页搜索”功能。

  东方一蛇,如要转载,请注名原文作者和网站“我的家”(http://www.wodejia.net)。




 如果您对本文有任何疑问或者建议,请到讨论区发表您的意见: >> 论坛入口 <<



上一篇:用Servlet技术实现Web数据库查询   下一篇:Jsp分页实例代码

文章评论】 【收藏本文】 【推荐好友】 【打印本文】 【我要投稿】 【论坛讨论
更多相关文章
Power by linux-cn.com 粤ICP备05006655号