У сучасному світі робота з даними стала важливою навичкою як для розробників, так і для аналітиків. Однією з потужних бібліотек, яка допомагає виконувати аналіз даних, є панди, яка побудована на основі мови програмування Python. У цій статті ми розглянемо, як встановити pandas на Python за допомогою Git, зрозуміти роботу бібліотеки та дослідити різні функції, які допоможуть нам виконувати завдання аналізу даних. Отже, давайте зануримося безпосередньо в це.
Встановлення панд за допомогою Git
Щоб установити pandas за допомогою Git, вам спочатку потрібно клонувати репозиторій pandas з GitHub на вашу локальну машину. Отримавши копію сховища, ви можете виконати наведені нижче кроки, щоб правильно налаштувати все.
git clone git://github.com/pandas-dev/pandas.git cd pandas python -m venv venv source venv/bin/activate # On Windows use `venvScriptsactivate` pip install -e .
Наведений вище код робить наступне:
- Клонує репозиторій pandas.
- Змінює поточний каталог на папку pandas.
- Створює віртуальне середовище під назвою «venv».
- Активує віртуальне середовище.
- Встановлює pandas у режимі редагування, що дозволить вам безпосередньо змінювати вихідний код.
Тепер, коли ми встановили pandas через Git, ми можемо почати працювати з нею на Python.
Початок роботи з пандами
Щоб почати використовувати pandas, вам потрібно буде імпортувати бібліотеку у свій код Python. Ви можете зробити це за допомогою такої команди:
import pandas as pd
З імпортованими пандами ви можете почати працювати з наборами даних у різних форматах, як-от бази даних CSV, Excel або SQL. Pandas використовує дві ключові структури даних для обробки даних: DataFrame та Серія.
DataFrame — це двовимірна таблиця з позначеними осями, тоді як Series — це одновимірний позначений масив. Ці структури даних дозволяють виконувати різноманітні операції та аналіз ваших даних.
Завантаження та дослідження даних
Щоб продемонструвати, як використовувати pandas, давайте розглянемо зразок набору даних – файл CSV з деталями про різні продукти, їхні категорії та ціни. Ви можете завантажити файл і створити DataFrame так:
data = pd.read_csv('products.csv')
Щоб переглянути вміст DataFrame, скористайтеся такою командою:
print(data.head())
Команда керівник() функція повертає перші п’ять рядків DataFrame. Ви також можете виконувати інші операції, такі як обчислення статистики, фільтрація даних і маніпулювання стовпцями за допомогою функцій pandas.
Висновок
Завдяки цій статті ми дізналися, як встановити pandas на Python за допомогою Git і досліджували основні концепції бібліотеки, такі як DataFrames і Series. Крім того, ми дізналися про завантаження та дослідження даних за допомогою функцій pandas. З цими фундаментальними поняттями тепер ви маєте знання, необхідні для виконання завдань аналізу даних у своїх проектах. Продовжуючи працювати з pandas, обов’язково вивчіть широкий спектр функцій і методів, які може запропонувати ця потужна бібліотека – у світі даних завжди є чому навчитися!