Apache-Nutch-1.10 爬虫的安装与使用

Nutch 简介

作为当前最为流行的开源爬虫被大量广泛的使用，其优秀的插件模式让开发者更方便的制定网页的抓取策略，并且能够在本地单机与分布式下运行。

Nutch 存在两个独立维护的大版本：1.x 和 2.x。它们之间存在最大的差别在于，1.x 是基于 hadoop 的 HDFS 的文件系统，而 2.x 则是将数据的存储抽象出来保存在 Hbase、MySQL 等独立数据库中。

Nutch 1.2 之前的版本都是作为完整的搜索引擎发布的，但从 1.3 开始，Nutch 就保留了爬虫功能，如果想对抓取的数据建立索引并搜索，还需要引入 Solr 全文检索服务器。

如果抓取少量的网站，建立索引，使用 1.x 和 2.x 都可以。但如果要抓取大量网站，那么最好选择1.x，并且采用分布式，因为1.x是基于 hadoop 文件系统的，而 hadoop 又是专门为处理大数据而生。若抓取大量网站时采用 2.x，可能会遇到一些性能问题，要是使用 MySQL 来存储数据，网页数据上百亿时，性能与维护难以保证。

Nutch 仅支持在 Linux 环境下工作，若要在 Windows 操作系统中使用 Nutch ，需要安装 Cygwin。Cygwin 是在 Windows 下模拟 Linux 操作系统的软件，它并非一个实际的操作系统。

Nutch 需要 JDK 运行环境，若需要配置分布式运行环境，还需要下载配置 hadoop。

软件安装与配置

安装 JDK

检查是否安装了 JDK，输入 java --version，如果有版本号则已经安装好了，跳过以下步骤。

在 https://www.123pan.com/s/94VA-NREVv 下载JDK，，解压JDK包：

tar zxvf jdk-8u45-linux-x64.tar.gz

解压后得到jdk1.8.0_45这个文件夹，在 /usr/lib/ 路径下新建一个 jvm 文件夹：

mkdir /usr/lib/jvm

将当前解压得到的jdk1.8.0_45复制到/usr/lib/jvm中：

sudo mv jdk1.8.0_45 /usr/lib/jvm

打开 sudo vim /etc/profile 在末尾设置环境变量：

export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_45
export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin

然后使用以下命令使得环境变量生效：

source /etc/profile

安装 Ant

通过 apt 直接安装：

sudo apt install ant

查看是否安装好了;

ant -version

安装 Nutch-1.10

在官网中下载 apache-nutch-1.10.zip，并解压：

unzip apache-nutch-1.10.zip

进入local文件夹，再进入bin文件夹。这里包含两个脚本文件，一个是nutch，另一个是crawl。其中，nutch包含了所需的全部命令，而crawl主要用于一站式抓取。

Solr安装与配置

https://cwiki.apache.org/confluence/display/NUTCH/NutchTutorial#NutchTutorial-SetupSolrforsearch

参考：Link

目录CONTENT