Рубрики

Hadoop


  • Мир больших данных

    «Никакая сила на земле не может остановить идею, время которой пришло» — Виктор Гюго Большие данные — одна из таких замечательных идей. В современном социально активном мире данные растут огромными […]

  • Введение в науку о данных: необходимые навыки

    Наука о данных — это междисциплинарная область научных методов, процессов, алгоритмов и систем для извлечения знаний или знаний из данных в различных формах, структурированных или неструктурированных, аналогичных интеллектуальному анализу данных. […]

  • Введение в Hadoop

    Что такое Hadoop? Hadoop — это программная среда с открытым исходным кодом для хранения большого количества данных и выполнения вычислений. Его фреймворк основан на Java-программировании с некоторым собственным кодом на […]

  • Hadoop | История или Эволюция

    Hadoop — это платформа с открытым исходным кодом, контролируемая Apache Software Foundation, написанная на Java для хранения и обработки огромных наборов данных с кластером стандартного оборудования. Есть в основном две […]

  • Apache Hive

    Предварительные условия — Введение в Hadoop , вычислительные платформы и технологии Apache Hive — это хранилище данных и инструмент ETL, который обеспечивает SQL-подобный интерфейс между пользователем и распределенной файловой системой […]

  • Архитектура и работа улья

    Обязательное условие — введение в Hadoop , Apache Hive Основные компоненты Hive и его взаимодействие с Hadoop показаны на рисунке ниже, и все компоненты описаны далее: Пользовательский интерфейс (UI) — […]

  • Архитектура HBase

    Предпосылки — Введение в Hadoop , Apache HBase Архитектура HBase имеет 3 основных компонента: HMaster, Region Server, Zookeeper. Рисунок — Архитектура HBase Все 3 компонента описаны ниже: HMaster — Реализация […]

  • Hadoop YARN Архитектура

    YARN расшифровывается как « Еще один переговорщик по ресурсам ». Он был введен в Hadoop 2.0 для устранения узких мест в Job Tracker, который присутствовал в Hadoop 1.0. YARN был […]

  • Экосистема Hadoop

    Обзор: Apache Hadoop — это платформа с открытым исходным кодом, предназначенная для облегчения взаимодействия с большими данными. Однако для тех, кто не знаком с этой технологией, возникает вопрос: что такое […]

  • Hadoop — Введение

    Определение сильного человека изменилось в этом мире. Мощным является тот, кто имеет доступ к данным. Это потому, что данные растут с огромной скоростью. Предположим, мы живем в мире данных 100%. […]

  • Карта Уменьшить в Hadoop

    Одним из трех компонентов Hadoop является Map Reduce. Первый компонент Hadoop — распределенная файловая система Hadoop (HDFS) — отвечает за хранение файла. Второй компонент, Map Reduce, отвечает за обработку файла. […]

  • Введение в распределенную файловую систему Hadoop (HDFS)

    С ростом скорости передачи данных размер данных легко превышает предел хранения машины. Решением было бы хранить данные в сети компьютеров. Такие файловые системы называются распределенными файловыми системами . Поскольку данные […]

  • Введение в Apache Pig

    Свинья — это высокоуровневая платформа или инструмент, который используется для обработки больших наборов данных. Он обеспечивает высокий уровень абстракции для обработки поверх MapReduce. Он предоставляет язык сценариев высокого уровня, известный […]

  • Как найти топ-N записей с помощью MapReduce

    Поиск лучших 10 или 20 записей из большого набора данных является сердцем многих систем рекомендаций, а также важным атрибутом для анализа данных. Здесь мы обсудим два метода для поиска топ-N […]

  • Команды HDFS

    HDFS является основным или основным компонентом экосистемы Hadoop, который отвечает за хранение больших наборов данных структурированных или неструктурированных данных на различных узлах и, таким образом, поддерживает метаданные в форме файлов […]

  • Разница между Hadoop 1 и Hadoop 2

    Hadoop — это программная среда с открытым исходным кодом для хранения большого количества данных и выполнения вычислений. Его фреймворк основан на Java-программировании с некоторым собственным кодом на языке C и […]

  • Сумма четных и нечетных чисел в MapReduce с использованием Cloudera Distribution Hadoop (CDH)

    Пререквизиты: Hadoop и MapReduce Подсчет количества четных и нечетных и нахождение их суммы на любом языке является простым делом, как в C, C ++, Python, Java и т. Д. MapReduce […]

  • Как выполнить программу WordCount в MapReduce с помощью Cloudera Distribution Hadoop (CDH)

    Пререквизиты: Hadoop и MapReduce Подсчет количества слов в любом языке является простым делом, как в C, C ++, Python, Java и т. Д. MapReduce также использует Java, но это очень […]

  • Распределенный кэш в Hadoop MapReduce

    Инфраструктура Hadoop MapReduce предоставляет возможность кэшировать небольшие и средние файлы только для чтения, такие как текстовые файлы, zip-файлы, файлы jar и т. Д., И транслировать их на все датододы (рабочие […]

  • RDMS против Hadoop

    По какой причине мы не сможем использовать базы данных с кучей кругов для проведения масштабных исследований? По какой причине требуется Hadoop? Ответ на эти запросы происходит от другой модели в […]