При анализе данных из Excel в Python с использованием ноутбуков Jupiter Notebook, важно корректное их оформление с использованием нескольких базовых принципов, о которых мы поговорим ниже. Эти принципы позволят вам структурировать работу, быстрее возвращаться к ней после перерыва, повысят общую эффективность деятельности.
Перед тем, как мы рассмотрим основные правила, хотел бы обратить ваше внимание на то, что структура файлов в проекте также должна быть правильно организована. Об этом есть отдельная статья на портале: "Как правильно создать структуру файлов проекта при анализе данных из Excel в Python", если вы ее еще не читали, настоятельно рекомендую ознакомиться.
Принцип 1. Название ноутбука Jupiter Notebook должно описывать проект
Никогда не сохраняйте ноутбуки с названиями по умолчанию, вам потом будет очень сложно разобраться что же храниться в этом файле не открывая его. Давайте осмысленные названия, постарайтесь в два-три слова описать что именно вы будет делать в этом ноутбуке, например если вы анализируете закупки, то файл можно назвать purchases_data_analysis.
Принцип 2. В начале файла опишите, что вы хотите сделать.
Описание должно содержать как общую характеристику предстоящей работы, так и перечень источников, откуда вы получили данные для анализа. К примеру в случае отчета по закупкам вы можете написать, что это анализ закупок для отдела поставок, который они запросили, а источником информации является выгрузка из бухгалтерской базы.
Принцип 3. Ведите лог изменений вашего проекта
Лог изменений поможет вам понять что, когда и зачем вы делали. К примеру если вы только создали файл, напишите текущую дату и то, что вы начали работу над проектом.
Принцип 4. Импорт библиотек
В первую ячейку проекта пропишите импорт всех нужных вам для работы библиотек, это позволит не отвлекаться на эту подзадачу потом, а также избежать путаницы в названии переменных импорта. К примеру мы хотим импортировать Pandas и Numpy, как одни из основных библиотек для анализа данных, а также pathlib для определения адресов файлов.
import pandas as pd
import numpy as np
from pathlib import Path
Принцип 5. Определение переменных для исходных и итоговых файлов
В следующей ячейке пропишите, какие файлы у вас будут в качестве источников. Напомню, что они должны быть расположены в подпапке raw. Файл с результатами должен быть расположен в папке reports. Присвоив имена в этой ячейке вы сможете во время всего проекта обращаться к ним по присвоенным именам, не вспоминая как же на самом деле называются файлы, а названия бывают временами сложные. Также вы можете сразу прочитать данные из Excel файла в Dataframe.
src_file=Path.cwd()/'data'/'raw'/'purchase_data.xlsx'
report_file=Path.cwd()/'reports'/'purchase_report.xlsx'
df=pd.read_excel(src_file)
Принцип 6. Сохраняйте результат вашего проекта в конце ноутбука
После того как вы проделали какие либо манипуляции с данными при помощи Pandas, Numpy и других библиотек Python, сохраните итоговый результат в отчетный файл, адрес которого мы определили в предыдущем этапе. Для примера просто скопируем исходный датафрейм в итоговый датафрейм и сохраним результат
df_out=dfСупер. Это все основные принципы, о которых я хотел рассказать вам сегодня. Если вы будете их придерживаться, то тогда ваша работа будет более понятной, структурированной и эффективной. Спасибо за внимание.
df_out.to_excel(report_file)
0 comments:
Отправить комментарий
Спасибо за комментарий.