Рубрики

Анализ данных и визуализация с Python

Python — отличный язык для анализа данных, в первую очередь благодаря фантастической экосистеме пакетов Python, ориентированных на данные. Pandas — один из таких пакетов, который значительно упрощает импорт и анализ данных. В этой статье я использовал Pandas для анализа данных в файле Country Data.csv из общедоступных наборов данных ООН популярного веб-сайта statweb.stanford.edu.
Проанализировав данные по индийским странам, я представил основные концепции панд, как показано ниже. Прежде чем перейти к этой статье, ознакомьтесь с основами matplotlib и csv .

Установка
Самый простой способ установить pandas — использовать pip:

pip install pandas

или, скачать его отсюда

Создание DataFrame в Pandas

Создание dataframe выполняется путем передачи нескольких Series в класс DataFrame с помощью метода pd.Series . Здесь он передается в двух объектах Series, s1 в качестве первого ряда и s2 в качестве второго ряда.
Пример:

# назначение двух серий s1 и s2

s1 = pd.Series([1,2])

s2 = pd.Series(["Ashish", "Sid"])

# кадрирование объектов серии в данные

df = pd.DataFrame([s1,s2])

# показать фрейм данных
df

  
# кадрирование данных другим способом
# получение значений индекса и столбца

dframe = pd.DataFrame([[1,2],["Ashish", "Sid"]],

        index=["r1", "r2"],

        columns=["c1", "c2"])

dframe

  
# кадрирование по-другому
# dict-подобный контейнер

dframe = pd.DataFrame({

        "c1": [1, "Ashish"],

        "c2": [2, "Sid"]})

dframe

Выход:


Импорт данных с помощью панд

Первым шагом является чтение данных. Данные хранятся в виде значений, разделенных запятыми, или CSV-файла, где каждая строка отделяется новой строкой, а каждый столбец — запятой (,). Чтобы иметь возможность работать с данными в Python, необходимо прочитать файл csv в Pandas DataFrame. DataFrame — это способ представления и работы с табличными данными. Табличные данные имеют строки и столбцы, как и этот CSV-файл (нажмите «Загрузить»).
Пример:

# Импортировать библиотеку панд, переименованную в pd

import pandas as pd

  
# Считайте IND_data.csv в DataFrame, назначенный для df

df = pd.read_csv("IND_data.csv")

  
# Печатает первые 5 строк DataFrame по умолчанию
df.head()

  
№ отпечатков строк и столбцов DataFrame
df.shape

Выход:


29,10

Индексация фреймов данных с помощью панд

Индексация возможна с помощью метода pandas.DataFrame.iloc . Метод iloc позволяет получить столько строк и столбцов по позициям.
Примеры:

# печатает первые 5 строк и каждый столбец, который копирует df.head ()

df.iloc[0:5,:]

# печатает целые строки и столбцы
df.iloc[:,:]
# печатает из 5 строк и первых 5 столбцов

df.iloc[5:,:5]

Индексация с использованием меток в Pandas

Для индексирования можно работать с метками с помощью метода pandas.DataFrame.loc , который позволяет индексировать с помощью меток вместо позиций.
Примеры:

# печатает первые пять строк, включая 5-й индекс и все столбцы df

df.loc[0:5,:]

# печатает начиная с 5-го ряда и целых столбцов

df = df.loc[5:,:]

Вышесказанное на самом деле не сильно отличается от df.iloc [0: 5 ,:]. Это потому, что, хотя метки строк могут принимать любые значения, наши метки строк точно соответствуют позициям. Но метки столбцов могут значительно облегчить работу с данными. Пример:

# Печатает первые 5 строк периода времени
# значение

df.loc[:5,"Time period"]


DataFrame Math с пандами

Вычисление фреймов данных может быть сделано с использованием статистических функций инструментов панд.
Примеры:

# вычисляет различную сводную статистику, исключая значения NaN
df.describe()
# для вычисления корреляций
df.corr()
# вычисляет числовые ранги данных
df.rank()




Pandas Plotting

Графики в этих примерах создаются с использованием стандартного соглашения для ссылки на API-интерфейс matplotlib, который предоставляет основы в пандах для простого создания достойно выглядящих графиков.
Примеры:

# импортировать нужный модуль

import matplotlib.pyplot as plt

# построить гистограмму

df['Observation Value'].hist(bins=10)

  
# показывает наличие большого количества выбросов / экстремальных значений

df.boxplot(column='Observation Value', by = 'Time period')

  
# построение точек в виде точечной диаграммы

x = df["Observation Value"]

y = df["Time period"]

plt.scatter(x, y, label= "stars", color= "m"

            marker= "*", s=30)

Метка оси X

plt.xlabel('Observation Value')

# частотная метка

plt.ylabel('Time period')

# функция показа сюжета
plt.show()




Анализ данных и визуализация с Python | Набор 2

Ссылка:

Эта статья предоставлена Afzal_Saan . Если вы как GeeksforGeeks и хотели бы внести свой вклад, вы также можете написать статью с помощью contribute.geeksforgeeks.org или по почте статьи contribute@geeksforgeeks.org. Смотрите свою статью, появляющуюся на главной странице GeeksforGeeks, и помогите другим вундеркиндам.

Пожалуйста, пишите комментарии, если вы обнаружите что-то неправильное или вы хотите поделиться дополнительной информацией по обсуждаемой выше теме.

Рекомендуемые посты:

Анализ данных и визуализация с Python

0.00 (0%) 0 votes