History Nutch dikutip dari wikipedia:
- Pada bulan Juni 2003, 100 juta halaman sukses sistem demonstrasi dikembangkan. Untuk memenuhi kebutuhan pengolahan multimesin dari merangkak dan indeks tugas, proyek Nutch juga telah menerapkan fasilitas MapReduce dan sistem berkas terdistribusi. Kedua fasilitas telah berputar keluar ke proyek mereka sendiri, yang disebut Hadoop.
- Pada bulan Januari 2005, Nutch bergabung dengan Apache Incubator, dari mana ia lulus menjadi proyek dari Lucene pada bulan Juni tahun yang sama. Sejak April 2010, Nutch telah dianggap sebagai proyek tingkat atas independen dari Apache Software Foundation.
Berikut aplikasi yang dibutuhkan:
- Langkah pertama install Cygwin yang telah didownload sebelumnya. Proses penginstalan membutuhkan koneksi internet. Setelah berhasil kemudian jalankan Cygwin.
Cygwin - Install Java JDK 7. Lewati langkah ini jika sebelumnya telah menginstall Java JDK. Untuk cara install Java tidak saya bahas dalam artikel ini.
- Install Apache Tomcat 7. Pilih semua komponen saat melakukan penginstalan atau dengan memilih "Full" pada "Select the type of install".
- Kemudian klik Next dan isi username & password pada langkah selanjutnya. Kemudian jalankan dengan klik Start.
- Buka http://localhost:8080/ di browser, maka akan muncul apache tomcat seperti gambar dibawah ini.
Apache Tomcat 7
- Ektraks file nutch-0.9.rar dan letakkan di direktori \home dimana Cygwin diinstall. Untuk kasus ini lokasi direktori home saya C:\cygwin\home. Sesuaikan pada lokasi direktori Anda.
Setting Nutch untuk melakukan crawling:
- Jalankan Cygwin yang telah diinstall. Kemudian set JAVA HOME dengan cara masuk terlebih dahulu kedalam direktori nutch-0.9. Ketik perintah berikut untuk masuk ke dalam direktori nutch melalui terminal.
- Ketik perintah export JAVA_HOME diterminal untuk set JAVA_HOME nya.
- Buat sebuah folder dengan nama urls dengan cara ketik perintah berikut di terminal
- Kemudian edit file crawl-urlfilter.txt yang berada di directori C:\cygwin\home\nutch-
- Kemudian edit file nutch-site.xml yang berada di direktori C:\cygwin\home\nutch-0.9\conf. Ganti semua isi file tersebut dengan kode dibawah ini :
- Langkah terakhir adalah melakukan crawling dengan perintah :
- crawl : nama folder hasil crawling
- -depth 3 : kedalaman link akar yang dicrawling
- -topN 10 : jumlah maksimal link yang akan dicrawling
cd /home/nutch-0.9/
export JAVA_HOME='/cygdrive/c/program files/java/jdk1.7.0_09/'
![]() |
Export JAVA_HOME |
mkdir urls
Ubah +^http://([a-z0-9]*\.)*apache.org/ menjadi link yang akan dicrawling sesuai dengan isi link.txt yang berada di direktori urls yang sebelumnya telah di set.
<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <!-- Put site-specific property overrides in this file. --> <configuration> <property> <name>http.agent.name</name> <value>Tony</value> <description>Tony </description> </property> <property> <name>http.agent.description</name> <value>Nutch spiderman</value> <description> Nutch spiderman </description> </property> <property> <name>http.agent.url</name> <value>http://hydriet.blogspot.com</value> <description>http://hydriet.blogspot.com </description> </property> <property> <name>http.agent.email</name> <value>MyEmail</value> <description>email@gmail.com </description> </property> </configuration>
bin/nutch crawl urls -dir crawl -depth 3 -topN 10
Keterangan:
Proses crawling akan berjalan dan melakukan crawling terhadap link yang telah setting sebelumnya. Berikut tampilannya :
![]() |
Proses crawling |
Note: untuk melakukan proses crawling membutuhkan koneksi internet
Untuk kasus ini jika hasil crawling seperti gambar diatas berarti proses crawling berhasil. Dan jika hasil crawling muncul pesan "Job Failed" berarti proses crawling gagal, biasanya karena koneksi internet gagal.
Demikianlah pembahasan tutorial cara install nutch dan melakukan crawling di Windows. Semoga bermanfaat.
permisi gan, kunjungan balik dari dualplatform :D
ReplyDeleteartikelnya mantap bener, sukses ya bloggingnya :D