Menu
News
EkBis
New Economy
Kabar Finansial
Sport & Lifestyle
Government
Video
Indeks
About Us
Social Media

Apa Itu Apache Hadoop?

Apa Itu Apache Hadoop? Kredit Foto: Unsplash/Markus Spiske
Warta Ekonomi, Jakarta -

Apache Hadoop merupakan open source software program yang dikembangkan untuk dapat bekerja dengan sejumlah besar data. Ini dilakukan dengan berbagi bagian data di banyak komputer, kemudian mereplikasi banyak data untuk keperluan redundansi. Software ini dan model komputasinya membuat penanganan sejumlah besar data lebih cepat dibandingkan dengan mainframe atau superkomputer tradisional.

Software framework milik Apache Hadoop mampu mencapai hal ini melalui penyimpanan dan pemrosesan yang terdistribusi melalui beberapa cluster commodity hardware, komputer yang umumnya tersedia untuk kita semua.

Baca Juga: Apa Itu Data Manipulation Language?

Setiap cluster unit hardware dapat dilihat sebagai satu unit. Setiap cluster terdiri dari beberapa unit pemrosesan dan penyimpanan di satu lokasi. Cluster yang berbeda berada di lokasi yang berbeda pula. Misalnya, tempat kerja Anda mungkin memiliki cluster atau kumpulan lima komputer, lokasi di kota atau kabupaten yang berbeda mungkin memiliki cluster empat, dan seterusnya. Hal ini memungkinkan ribuan komputer untuk dapat terlibat.

Software ini mengasumsikan tingkat kegagalan hardware yang tinggi dan menangani potensi masalah dengan mereplikasi data di berbagai node atau komputer dalam cluster yang sama dan berbeda. Ketika Hadoop menemukan adanya permasalahan, biasanya alat ini akan menggandakan informasi dalam dua kali proses pada node di cluster lokal dan sekali pada node di lokasi cluster yang berbeda.

Sejarah Terciptanya Apache Hadoop

Apache Hadoop lahir dari kebutuhan untuk memproses pertumbuhan big data dalam volume besar dan memberikan hasil web yang lebih cepat karena mesin pencarian start-up seperti Yahoo dan Google mulai beroperasi.

Doug Cutting dan Mike Cafarella memulai Hadoop pada tahun 2002 saat mengerjakan proyek Apache Nutch yang terinspirasi oleh Google MapReduce, model pemrograman yang membagi aplikasi menjadi pecahan kecil untuk dijalankan pada node yang berbeda.

Menurut artikel dari New York Times, nama Hadoop terinspirasi dari nama gajah mainan milik anaknya Doug. Beberapa tahun kemudian, Hadoop dipisahkan dari Nutch. Nutch berfokus pada elemen web crawler, dan Hadoop menjadi bagian komputasi dan pemrosesan yang terdistribusi. Dua tahun setelah Cutting bergabung dengan Yahoo, Yahoo merilis Hadoop sebagai proyek open source pada tahun 2008. Apache Software Foundation (ASF) membuat Hadoop tersedia untuk umum pada November 2012 sebagai Apache Hadoop.

Komponen Dan Ekosistem Hadoop

Hadoop framework yang dibangun oleh Apache Software Foundation, meliputi:

1. Hadoop Common: Utilitas dan pustaka umum yang mendukung modul Hadoop lainnya. Alat ini juga dikenal sebagai Hadoop Core.

2. Hadoop HDFS (Hadoop Distributed File System): Alat ini merupakan sistem file terdistribusi untuk menyimpan data aplikasi pada commodity hardware. Ini juga menyediakan akses throughput tinggi ke data dan toleransi kesalahan yang tinggi. Arsitektur HDFS memiliki NameNode untuk mengelola namespace sistem file dan akses file, serta beberapa DataNode untuk mengelola penyimpanan data.

3. Hadoop YARN: Alat ini merupakan framework untuk mengelola sumber daya cluster dan penjadwalan. YARN adalah singkatan dari Yet Another Resource Negotiator. Ini mendukung lebih banyak beban kerja, seperti SQL interaktif, pemodelan tingkat lanjut, dan streaming secara real-time.

4. Hadoop MapReduce: Alat ini merupakan sistem berbasis YARN untuk melakukan pemrosesan paralel kumpulan data besar.

5. Hadoop Ozone: Penyimpanan objek yang dapat diskalakan, redundan, dan terdistribusi yang dirancang untuk aplikasi big data.

Bagaimana Cara Kerja Hadoop?

Hadoop bekerja melalui dua sistem utama, HDFS dan MapReduce. HDFS memiliki lima layanan seperti berikut ini:

- HDFS menyimpan data yang digunakan oleh program Hadoop. Ini terdiri dari name node (master node) yang melacak file, mengelola sistem file, dan berisi metadata dan semua data di dalamnya.

- Data Node menyimpan data dalam blok di HDFS dan merupakan node slave ke master.

- Name Node sekunder menangani pos pemeriksaan metadata dari sistem file.

- Job Tracker menerima permintaan untuk pemrosesan MapReduce dari pengguna.

- Task Tracker berfungsi sebagai node slave ke job tracker. Dibutuhkan pekerjaan dan kode terkait, kemudian menerapkannya ke file yang relevan.

Job Tracker dan Task Tracker membentuk mesin MapReduce. Setiap mesin MapReduce berisi satu Job Tracker yang menerima permintaan pekerjaan MapReduce dari pengguna dan mengirimkannya ke Task Tracker yang sesuai. Tujuannya adalah untuk menjaga tugas pada node yang paling dekat dengan data in process.

Selanjutnya, pada Hadoop v.2 sudah mengimplementasikan YARN antara HDFS dan MapReduce. Pada ubahan yang terbaru, Hadoop v.3 mengimplementasikan beberapa name node, serta memecahkan adanya potensi masalah atau kegagalan.

Mau Berita Terbaru Lainnya dari Warta Ekonomi? Yuk Follow Kami di Google News dengan Klik Simbol Bintang.

Penulis: Patrick Trusto Jati Wibowo
Editor: Alfi Dinilhaq

Bagikan Artikel: