Java+MySQL实现网络爬虫程序

        网络爬虫,也叫网络蜘蛛,有的项目也把它称作“walker”。维基百科所给的定义是“一种系统地扫描互联网,以获取索引为目的的网络程序”。网络上有很多关于网络爬虫的开源项目,其中比较有名的是HeritrixApache Nutch

        有时需要在网上搜集信息,如果需要搜集的是获取方法单一而人工搜集费时费力的信息,比如统计一个网站每个月发了多少篇文章、用了哪些标签,为自然语言处理项目搜集语料,或者为模式识别项目搜集图片等等,就需要爬虫程序来完成这样的任务。而且搜索引擎必不可少的组件之一也是网络爬虫。

        很多网络爬虫都是用Python,Java或C#实现的。我这里给出的是Java版本的爬虫程序。为了节省时间和空间,我把程序限制在只扫描本博客地址下的网页(也就是http://johnhan.net/但不包括http://johnhany.net/wp-content/下的内容),并从网址中统计出所用的所有标签。只要稍作修改,去掉代码里的限制条件就能作为扫描整个网络的程序使用。或者对输出格式稍作修改,可以作为生成博客sitemap的工具。

        代码也可以在这里下载:johnhany/WPCrawler


环境需求

        我的开发环境是Windows7 + Eclipse

        需要XAMPP提供通过url访问MySQL数据库的端口。

        还要用到三个开源的Java类库:

        Apache HttpComponents 4.3 提供HTTP接口,用来向目标网址提交HTTP请求,以获取网页的内容;

        HTML Parser 2.0 用来解析网页,从DOM节点中提取网址链接;

        MySQL Connector/J 5.1.27 连接Java程序和MySQL,然后就可以用Java代码操作数据库。


代码

        代码位于三个文件中,分别是:crawler.java,httpGet.java和parsePage.java。包名为net.johnhany.wpcrawler。

crawler.java

httpGet.java

parsePage.java


程序原理

        所谓“互联网”,是网状结构,任意两个节点间都有可能存在路径。爬虫程序对互联网的扫描,在图论角度来讲,就是对有向图的遍历(链接是从一个网页指向另一个网页,所以是有向的)。常见的遍历方法有深度优先和广度优先两种。相关理论知识可以参考树的遍历:这里这里。我的程序采用的是广度优先方式。

        程序从crawler.java的main()开始运行。

        首先,调用DriverManager连接MySQL服务。这里使用的是XAMPP的默认MySQL端口3306,端口值可以在XAMPP主界面看到:

xampp

        Apache和MySQL都启动之后,在浏览器地址栏输入“http://localhost/phpmyadmin/”就可以看到数据库了。等程序运行完之后可以在这里检查一下运行是否正确。

localhost-phpmyadmin

 

        连接好数据库后,建立一个名为“crawler”的数据库,在库里建两个表,一个叫“record”,包含字段“recordID”,“URL”和“crawled”,分别记录地址编号、链接地址和地址是否被扫描过;另一个叫“tags”,包含字段“tagnum”和“tagname”,分别记录标签编号和标签名。

 

        接着在一个while循环内依次处理表record内的每个地址。每次处理时,把地址url传递给httpGet.getByString(),然后在表record中把crawled改为true,表明这个地址已经处理过。然后寻找下一个crawled为false的地址,继续处理,直到处理到表尾。

        这里需要注意的细节是,执行executeQuery()后,得到了一个ResultSet结构rs,rs包含SQL查询返回的所有行和一个指针,指针指向结果中第一行之前的位置,需要执行一次rs.next()才能让rs的指针指向第一个结果,同时返回true,之后每次执行rs.next()都会把指针移到下一个结果上并返回true,直至再也没有结果时,rs.next()的返回值变成了false。

        还有一个细节,在执行建库建表、INSERT、UPDATE时,需要用executeUpdate();在执行SELECT时,需要使用executeQuery()。executeQuery()总是返回一个ResultSet,executeUpdate()返回符合查询的行数。

 

        httpGet.java的getByString()类负责向所给的网址发送请求,然后下载网页内容。

        这段代码是HTTPComponents的HTTP Client组件中给出的样例,在很多情况下可以直接使用。这部分代码获得了一个字符串responseBody,里面保存着网页中的全部字符。

        接着,就需要把responseBody传递给parsePage.java的parseFromString类提取链接。

        在HTML文件中,链接一般都在a标签的href属性中,所以需要创建一个属性过滤器。NodeList保存着这个HTML文件中的所有DOM节点,通过在for循环中依次处理每个节点寻找符合要求的标签,可以把网页中的所有链接提取出来。

        然后通过nextlink.startsWith()进一步筛选,只处理以“http://johnhany.net/”开头的链接并跳过以“http://johnhany.net/wp-content/”开头的链接。

        在表record中查找是否已经存在这个链接,如果存在(rs.next()==true),不做任何处理;如果不存在(rs.next()==false),在表中插入这个地址并把crawled置为false。因为之前recordID设为AUTO_INCREMENT,所以要用 Statement.RETURN_GENERATED_KEYS获取适当的编号。

        去掉链接开头的“http://johnhany.net/”几个字符,提高字符比较的速度。如果含有“tag/”说明其后的字符是一个标签的名字,把这给名字提取出来,用UTF-8编码,保证汉字的正常显示,然后存入表tags。类似地还可以加入判断“article/”,“author/”,或“2013/11/”等对其他链接进行归类。


结果

这是两张数据库的截图,显示了程序的部分结果:

result-record

result-tags

        在这里可以获得全部输出结果。可以与本博客的sitemap比较一下,看看如果想在其基础上实现sitemap生成工具,还要做哪些修改。

共有84条评论

  1. John哥,问下,我用win10、sdk1.8和Intellij idea貌似运行不了程序,是什么原因啊?

  2. 请问这段代码这样写的意义是什么?如果不用这种形式来写,该如何修改代码?还有就是这种形式的代码要如何称呼?

                ResponseHandler<String> responseHandler = new ResponseHandler<String>() {

                    public String handleResponse(final HttpResponse response) throws ClientProtocolException, IOException {
                        int status = response.getStatusLine().getStatusCode();
                        if (status >= 200 && status < 300) {
                            HttpEntity entity = response.getEntity();
                            return entity != null ? EntityUtils.toString(entity) : null;
                        } else {
                            throw new ClientProtocolException("Unexpected response status: " + status);
                        }
                    }
                };

    1. 我想问一下,我用myeclipse ,tomcat ,mysql 可以实现么?然后我想要获取新闻的热搜排行,可以用你这个么

  3. Exception in thread "main" org.apache.http.conn.HttpHostConnectException: Connect to johnhany.net:80 [johnhany.net/198.252.107.79] failed: Connection timed out: connect

    1. 你好,不知道是不是我jar包导入的版本是不是不对,博主的链接下载不下来。这个报错说我连接不上

  4. 写爬虫的童鞋可以试试神箭手云爬虫,自带JS渲染、代理ip、验证码识别等功能,还可以发布和导出爬取的数据,生成图表等,都在云端进行,不需要安装开发环境。

     

  5. 您好,看了您写的这个爬虫,我很受教,但是请问一下现在很多网页都在用JS或者AJAX的方法动态生成网站,比如这种 <a href = list.jsp, onclock = "function(2xxxx)">, 需要"用户点击"这种触发事件然后根据2xxxx这种东西从数据库找到被list.jsp覆盖的绝对地址然后将用户直接导航到那个页面,这种情况下要如何处理呢

    我试过selenium和webdriver的无头测试,但是这两个货太依赖浏览器了,而且效率奇低无比,博主有什么好方法吗,我的邮箱是 leon.wang@utas.edu.au

    如果博主有什么好方法可以赐教一下吗,非常感谢

  6. 大神,您好,已经成功搭好环境和下载代码,准备开始大干一场。

    同时能你这个eclipse的配色方案比较感兴趣,能分享一下吗。

  7. 很想学习这段代码,但发现有关文件无法下载,能否帮忙将所有源代码文件及相关的jar包发送至:xml6401@sina.com

    谢!

  8. 我想问下,我想用来爬某个官方网站的通知,可以吗。。只怕标题  类容

  9. john哥你好:

    最近在做毕业设计,题目是网络搜索引擎的设计与实现,自己也进行过一些学习,看到你写的爬虫代码觉得很受用。学到了很多东西。

    下一步还得学习网页预处理部分跟如何实现查询服务,大致的了解了一下处理的方式是通过lucene框架来实现中文的分词,然后就不知该怎么做,能不能请你再大致指点一下,非常感谢!

    1. 很抱歉,对搜索引擎的详细原理还不够了解。按我的了解,分词之后应该是关键词提取和分类,然后建立索引库。对搜索结果的排序算法我只了解过PageRank,其他的实在不敢乱说^_^

    1. 如果用Chrome或FireFox浏览器的话,在网页里你想获取的栏目上右键->查看元素(或检查),看一下文章的标签是什么类型和属性,以此修改parsePage.java中的HasAttributeFilter filter。

  10. NodeList list = parser.parse(filter);这里怎么会提示The method parse(String) in the type Parser is not applicable for the arguments (HasAttributeFilter)这个错误呢?

    String nextlink = (link).extractLink();这里也提示The method extractLink() is undefined for the type LinkTag  这是怎么回事,求指教

  11. 想问一下,这个XAMPP 和sql developer是不是一样的?直接用你的文件就可以还是说要用spring框架啊

    1. 不好意思,sql developer没了解过。其实只要能提供一个本地的服务器环境,让java程序可以通过localhost来访问sql数据库,应该都是可以的。

    2. 终于等到你……。我是新手,我已经在用sql developer连接oracle数据库,在java程序中把用户名和密码都加上后,能连接到数据库,但后面创建crawler数据库就不能执行了,这怎么办呢

      1. 抱歉,忙起来就顾不上及时回复。可以在sql developer的官方文档里查一下如何用SQL命令创建和访问数据库。我只用过xampp,对sql developer的情况确实不了解,不知道它提供了什么样的功能,能完成什么样的操作。

        1. 我刚想了个办法,简化了你的程序,直接在数据库建那两个表,把你程序的建表那块都删除,然后就成功了。能留个联系方式,以后还望多多指教

          1. 楼主,可以把网上的资源爬到自己指定的文件夹,然后数据库里面存放的是在自己文件夹里面的路径,比如说爬图片、PDF文档,然后数据库里面写图片的路径,这样的话具体要怎么修改呢

  12. 博主好,我在用用这段代码读取编码为gb2312 html文件时中文总会会出现乱码,即便我设置格式accept gb2312,请教下博主这个问题怎么解决?

  13. 前辈您好,我是一名刚入门的菜鸟,我再eclipse导入了您的工程发现有很多报错,不知道是不是环境配置的不一样,不知道的jre和jdk用的都是什么版本呢

    1. 我当时用的jdk版本应该是7.51左右。不过版本的影响应该不大,只要新建一个项目,然后把代码文件和lib文件夹里面的库拷贝过去,再添加一下库就可以了。

        1. 我现在已经不用Eclipse了,我记得步骤应该是在项目属性中的Java Build Path | Libraries | Add JARs,然后选择lib路径下的那几个jar包

  14. Java中类名首字母不是要大写么?我看你的代码没有大写,但却能运行,能给我解释一下吗?谢谢

        1. 工程本身只是用Eclipse建立的最普通的Java Project。只需要保证在程序运行的时候XAMPP已经打开,Apache和MySQL都保持运行状态,而且端口都是默认的就可以了。

  15. 关于图算法这个网页有详细的介绍http://lippiouyangonline.info/algorithm/2013/11/29/graph.html

  16. John哥想问个低级问题,如果换一个网站爬点title和文章内容要怎么改一改啊~自己改了几次都失败了~

    1. 由于原本的程序用filter = new HasAttributeFilter(“href”)if(node instanceof LinkTag)限制住只处理链接节点,所以对这一部分改动只能获得标题。如果想获取文章内容,可能就需要去掉开头的filter声明,与if(node instanceof LinkTag)并列加个if单独处理div id=”content”标签(要看网站内是怎么命名的了)之间的p标签间的文本了。

        1. 请参考一下htmlparser官方文档http://htmlparser.sourceforge.net/javadoc/index.html中关于Node和HasAttributeFilter的介绍。

          网页的内容保存在了responseBody中。

  17. 你写程序的算不算用到广义优先遍历算法,感觉有点像,但是为什么没有用到队列

    1. 算的,爬遍单个页面内所有链接后再爬下一个页面,算作广度优先。因为链接本身保存在数据库里,为了节省内存,也是直接在数据库里检查链接的重复性,所以遍历算法是逻辑上的,而不是从数据结构体现的

    1. 这可能是网址中子域名的变化引起的。新浪每个板块都有不同的子域名。如果把crawler.main中的frontpage设为www.sina.com.cn,把parsePage.parseFromString中的mainurl改成news.sina.com.cn,就会反复爬首页。这是因为parsePage会根据地址是否以news.sina.com.cn开头决定是否存入数据库,所以首页没有保存,而且数据库仍然是空的,url没有得到更新,所以会反复爬首页。

      在初始化数据库时就把首页insert到数据库应该会解决这个问题。我把GitHub中的代码更新了,可以参考一下。如果需要爬多个板块,或许用正则表达式会更好些?

       

      1. 前几周我们老师布置的课程设计是写一个搜索引擎,然后我就边学java边写,写了一点,抓取url了的代码,只用到URL类,Apache HttpComponents 4.3  HTML Parser 2.0 MySQL Connector/J 5.1.27 这些开源类库都没有用过,正则表达式会一点……楼主还会opencv?我们下学期估计要开类似视频编码图像处理的课,估计要用到opencv,能加个微博,或者其他什么的,请教请教?

        1. OpenCV会一点,不过仅限于图像处理部分,机器学习模块还在摸索。都是学习阶段,只是先学后学的问题,谈不上请教:)微博很久没用,账号基本废掉了。如果方便的话,可以用邮件联系我:johnhany@163.com,我检查邮箱很频繁的

发表评论

电子邮件地址不会被公开。 必填项已用*标注