Рубрики

Введение в Hadoop

Что такое Hadoop?

Hadoop — это программная среда с открытым исходным кодом для хранения большого количества данных и выполнения вычислений. Его фреймворк основан на Java-программировании с некоторым собственным кодом на языке C и сценариями оболочки.

История Hadoop

Apache Software Foundation является разработчиком Hadoop, а его соучредителями являются Дуг Каттинг и Майк Кафарелла .
Это соучредитель Дуг Каттинг назвал его на игрушечном слоне своего сына. В октябре 2003 года первым бумажным выпуском была Google File System. В январе 2006 года началась разработка MapReduce на Apache Nutch, который состоял из около 6000 строк, кодирующих его, и около 5000 строк, кодирующих для HDFS. В апреле 2006 года был выпущен Hadoop 0.1.0.

Распределенная файловая система Hadoop

Он имеет распределенную файловую систему, известную как HDFS, и эта HDFS разбивает файлы на блоки и отправляет их через различные узлы в виде больших кластеров. Также в случае сбоя узла система работает, и передача данных происходит между узлами, что облегчается HDFS.

Преимущества HDFS:
Это недорогой, неизменный по своей природе, надежно хранит данные, способный переносить сбои, масштабируемый, структурированный, может обрабатывать большое количество данных одновременно и многое другое.

Недостатки HDFS:
Это самый большой недостаток в том, что он не подходит для небольших объемов данных. Кроме того, у него есть проблемы, связанные с потенциальной стабильностью, ограничительной и грубой по своей природе.

Hadoop также поддерживает широкий спектр программных пакетов, таких как Apache Flumes, Apache Oozie, Apache HBase, Apache Sqoop, Apache Spark, Apache Storm, Apache Pig, Apache Hive, Apache Phoenix, Cloudera Impala.

Некоторые общие рамки Hadoop

  1. Hive — использует HiveQl для структурирования данных и написания сложных MapReduce в HDFS.
  2. Детализация — состоит из пользовательских функций и используется для исследования данных.
  3. Storm — позволяет в реальном времени обрабатывать и передавать данные.
  4. Spark — содержит библиотеку машинного обучения (MLlib) для обеспечения улучшенного машинного обучения и широко используется для обработки данных. Он также поддерживает Java, Python и Scala.
  5. Pig — имеет Pig Latin, SQL-подобный язык и выполняет преобразование данных неструктурированных данных.
  6. Tez — снижает сложность Hive и Pig и помогает быстрее запускать их коды.

Платформа Hadoop состоит из следующих модулей:

  1. Hadoop MapReduce — модель программирования MapReduce для обработки и обработки больших данных.
  2. Распределенная файловая система Hadoop — распределенные файлы в кластерах по узлам.
  3. Hadoop YARN — платформа, управляющая вычислительными ресурсами.
  4. Hadoop Common — содержит пакеты и библиотеки, которые используются для других модулей.

Преимущества и недостатки Hadoop

Преимущества:

  • Возможность хранения большого количества данных.
  • Высокая гибкость
  • Экономически эффективным.
  • Высокая вычислительная мощность.
  • Задачи независимы.
  • Линейное масштабирование.

Недостатки:

  • Не очень эффективно для небольших данных.
  • Управление жесткими кластерами.
  • Имеет проблемы со стабильностью.
  • Проблемы безопасности.

Рекомендуемые посты:

Введение в Hadoop

0.00 (0%) 0 votes