Рубрики

Большой мир данных: большой, большой и самый большой

Коллекция больших и сложных наборов данных, которые трудно хранить и обрабатывать с использованием традиционных баз данных и инструментов обработки данных, рассматривается как большие данные. Большие данные собираются из традиционных и цифровых источников, которые при правильном уточнении могут использоваться для исследований и анализа. Со временем организации растут, и данные, полученные из этих организаций, также растут в геометрической прогрессии. Задача состоит в том, чтобы иметь платформу, которая может обеспечить единое согласованное представление полных данных. Другая задача состоит в том, чтобы организовать эти данные так, чтобы они имели смысл и могли быть использованы в качестве полезной информации. Все вокруг нас постоянно генерирует большие данные . Сайты социальных сетей и цифровые источники несут ответственность за создание такого огромного количества данных. Как передается этот огромный объем данных — датчики, мобильные телефоны и системы — вот ответ.

Откуда приходят эти большие данные?

  • Социальные сети: такие крупные компании, как Facebook и Google, получают данные о наших действиях. Другими примерами являются YouTube, Twitter, LinkedIn, блоги, слайд-шоу, Instagram, болтовня, WordPress, Jive и т. Д.
  • Общедоступная сеть: сюда входят данные из Википедии, служб здравоохранения, Всемирного банка, правительства, погоды, трафика и т. Д.
  • Архивы: Сюда входят архивы любых данных, таких как медицинские записи, переписка с клиентами, страховые формы, отсканированные документы и т. Д.
  • Документы. Документация любого формата, включая HTML, CSV, PDF, XLS, Word, XML и т. Д., Является источником больших данных.
  • Медиа: изображения, видео, аудио, прямой эфир, подкаст и т. Д.
  • Хранение данных. Источником больших данных служат различные базы данных и файловые системы, которые используются для хранения данных.
  • Данные машинного журнала: данные, поступающие с сервера, журналы приложений, журналы аудита, подробные записи вызовов CDR, различные мобильные приложения, мобильные местоположения и т. Д.
  • Данные датчиков: данные от датчиков, подключенных к медицинским устройствам, дорожным камерам, спутникам, устройствам наблюдения за дорожным движением, видеоиграм, бытовой технике, кондиционерам, офисным зданиям и т. Д.

Три против больших данных

Есть 3 В, которые определяют большие скорости передачи данных, разнообразие и объем

  1. Разнообразие: Есть несколько форматов для хранения данных, например, база данных, MS-Access, MS-Excel, текст и многое другое. Это также может быть в виде PDF, видео или SMS. Таким образом, задача состоит в том, чтобы упорядочить эти данные, чтобы они были значимыми, и было бы легче, если бы данные были в одном и том же формате.
  1. Объем: объем данных, поступающих из нескольких источников, огромен. При таком увеличении объема данных для организаций важно переоценить свою архитектуру и приложения.
  1. Скорость: Скорость относится к скорости обработки данных. Раньше вчерашние данные считались недавними данными, но теперь эта вещь действительна только в газетах. Отдых, все обновляется даже менее чем за доли секунды. Канал новостей, радио, твиты, посты в Facebook и комментарии — все обновляется настолько быстро, что данные, которые обновляются несколько минут назад, считаются бесполезными и старыми.

Большие данные представляют собой смесь неструктурированных, структурированных и многоструктурных данных.

  1. Структурированные данные: данные, которые имеют определенный формат и организованы в предварительно определенной схеме, называются структурированными данными. Данные, поступающие из традиционных баз данных и репозиториев, таких как мейнфреймы, SQL-сервер, Oracle, DB2, Sybase, Access, Excel, txt и Teradata, рассматриваются в качестве примеров структурированных данных. Система управления реляционными базами данных работает только с такими данными.
  1. Неструктурированные данные. Данные, которые неорганизованы, и их нелегко интерпретировать с использованием традиционных баз данных или моделей данных, называют неструктурированными данными. Данные поступают из социальных сетей, таких как Chatter, текстовая аналитика, блоги, твиты, комментарии, клики, теги и т. Д.
  1. Многоструктурные данные: Многоструктурные данные не моделируются, их необходимо организовать, хотя может существовать схема, но она игнорируется. Это может быть получено из взаимодействий между человеком и машинами. К ним относятся данные о развивающихся рынках, электронная коммерция и другие данные третьих сторон, такие как погода, конвертация валюты, демографические данные, панель и т. Д.

Об авторе:

Вайшнави Агравал любит стремиться к совершенству посредством письма и страстно увлечен технологиями. Она успешно управляла и управляла персональными журналами и веб-сайтами. В настоящее время она пишет для Intellipaat . Она базируется в Бангалоре и имеет 5-летний опыт работы в области написания контента и ведения блогов. Ее работы были опубликованы на различных сайтах, связанных с Hadoop, большими данными, бизнес-аналитикой, облачными вычислениями, IT, SAP, управлением проектами и многими другими.

Рекомендуемые посты:

Большой мир данных: большой, большой и самый большой

0.00 (0%) 0 votes