Cara Install Nutch dan Crawling di Windows (Step by step)

Nutch merupakan salah satu aplikasi mesin pencari (search engine) dalam konteks internet yang berbasis open source. Search engine merupakan perangkat pencari informasi dari dokumen-dokumen yang tersedia. Nutch berasal Doug Cutting, pencipta baik Lucene dan Hadoop, dan Mike Cafarella.

Nutch

History Nutch dikutip dari wikipedia:

Pada bulan Juni 2003, 100 juta halaman sukses sistem demonstrasi dikembangkan. Untuk memenuhi kebutuhan pengolahan multimesin dari merangkak dan indeks tugas, proyek Nutch juga telah menerapkan fasilitas MapReduce dan sistem berkas terdistribusi. Kedua fasilitas telah berputar keluar ke proyek mereka sendiri, yang disebut Hadoop.

Pada bulan Januari 2005, Nutch bergabung dengan Apache Incubator, dari mana ia lulus menjadi proyek dari Lucene pada bulan Juni tahun yang sama. Sejak April 2010, Nutch telah dianggap sebagai proyek tingkat atas independen dari Apache Software Foundation.

Tutorial ini membahas langkah-langkah (step by step) cara install nutch dan melakukan crawling di windows.

Berikut aplikasi yang dibutuhkan:

Install satu persatu aplikasi:

Langkah pertama install Cygwin yang telah didownload sebelumnya. Proses penginstalan membutuhkan koneksi internet. Setelah berhasil kemudian jalankan Cygwin.

Cygwin

Install Java JDK 7. Lewati langkah ini jika sebelumnya telah menginstall Java JDK. Untuk cara install Java tidak saya bahas dalam artikel ini.

Install Apache Tomcat 7. Pilih semua komponen saat melakukan penginstalan atau dengan memilih "Full" pada "Select the type of install".
Kemudian klik Next dan isi username & password pada langkah selanjutnya. Kemudian jalankan dengan klik Start.

Buka http://localhost:8080/ di browser, maka akan muncul apache tomcat seperti gambar dibawah ini.

Apache Tomcat 7
Ektraks file nutch-0.9.rar dan letakkan di direktori \home dimana Cygwin diinstall. Untuk kasus ini lokasi direktori home saya C:\cygwin\home. Sesuaikan pada lokasi direktori Anda.

Setting Nutch untuk melakukan crawling:

Jalankan Cygwin yang telah diinstall. Kemudian set JAVA HOME dengan cara masuk terlebih dahulu kedalam direktori nutch-0.9. Ketik perintah berikut untuk masuk ke dalam direktori nutch melalui terminal.

cd /home/nutch-0.9/

Ketik perintah export JAVA_HOME diterminal untuk set JAVA_HOME nya.

export JAVA_HOME='/cygdrive/c/program files/java/jdk1.7.0_09/'

Export JAVA_HOME

Buat sebuah folder dengan nama urls dengan cara ketik perintah berikut di terminal

mkdir urls

Kemudian buat sebuah file format txt dengan teks editor yang Anda suka, isi file tersebut adalah link-link yang akan dicrawling di dalam direktori urls yang telah dibuat sebelumnya. Untuk lebih jelas lihat gambar dibawah ini.

Kemudian edit file crawl-urlfilter.txt yang berada di directori C:\cygwin\home\nutch-

0.9\conf. Kemudian cari kata seperti gambar dibawah ini.

+^http://([a-z0-9]*\.)*apache.org/

menjadi link yang akan dicrawling sesuai dengan isi link.txt yang berada di direktori urls yang sebelumnya telah di set.

Kemudian edit file nutch-site.xml yang berada di direktori C:\cygwin\home\nutch-0.9\conf. Ganti semua isi file tersebut dengan kode dibawah ini :

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
 
<!-- Put site-specific property overrides in this file. -->
 
<configuration>
 
<property>
  <name>http.agent.name</name>
  <value>Tony</value>
  <description>Tony
  </description>
</property>
 
<property>
  <name>http.agent.description</name>
  <value>Nutch spiderman</value>
  <description> Nutch spiderman
  </description>
</property>
 
<property>
  <name>http.agent.url</name>
  <value>http://hydriet.blogspot.com</value>
  <description>http://hydriet.blogspot.com
  </description>
</property>
 
<property>
  <name>http.agent.email</name>
  <value>MyEmail</value>
  <description>email@gmail.com
  </description>
</property>
 
</configuration>

Langkah terakhir adalah melakukan crawling dengan perintah :

bin/nutch crawl urls -dir crawl -depth 3 -topN 10

Keterangan:

crawl : nama folder hasil crawling
-depth 3 : kedalaman link akar yang dicrawling
-topN 10 : jumlah maksimal link yang akan dicrawling

Proses crawling

Note: untuk melakukan proses crawling membutuhkan koneksi internet

Untuk kasus ini jika hasil crawling seperti gambar diatas berarti proses crawling berhasil. Dan jika hasil crawling muncul pesan "Job Failed" berarti proses crawling gagal, biasanya karena koneksi internet gagal.

Demikianlah pembahasan tutorial cara install nutch dan melakukan crawling di Windows. Semoga bermanfaat.

1 Response to "Cara Install Nutch dan Crawling di Windows (Step by step)"

AdminApril 15, 2014 at 12:48:00 PM GMT+7
permisi gan, kunjungan balik dari dualplatform :D
artikelnya mantap bener, sukses ya bloggingnya :D

Komentar Anda sangat berharga untuk kemajuan blog ini.
Silahkan berkomentar sesuai postingan blog & berkomentarlah dengan sopan.
- Dilarang menaruh live link di komentar.
- Komentar SPAM atau jualan mohon maaf akan dihapus.

Cara Install Nutch dan Crawling di Windows (Step by step)

1 Response to "Cara Install Nutch dan Crawling di Windows (Step by step)"

Artikel Top

Arsip Blog

Cara Install Nutch dan Crawling di Windows (Step by step)

Artikel Lainnya:

1 Response to "Cara Install Nutch dan Crawling di Windows (Step by step)"