суббота, 24 апреля 2021 г.

Как правильно создать структуру файлов проекта при анализе данных из Excel в Python

В этой статье мы поговорим о том, как правильно организовать структуру файлов в проекте, посвященному анализу данных из Excel в Python. Корректное расположение файлов позволит вам более эффективно работать с задачей, понимать где находятся какие данные, а также при возвращению к проекту через некоторое время вы сможете быстро вспомнить, что где расположено и продолжить работе не теряя лишнего времени. 

Как правильно создать структуру файлов проекта при анализе данных из Excel в Python

Первый этап. Создание общей папки проекта.

Создайте для проекта новую папку и назовите ее на английском языке так, что бы вам было понятно о чем проект. В этой папке должны быть расположены все документы, которые относятся к проекту, как то ноутбуки Jupyter Notebook, исходные файлы с данными (Excel, csv и т.п.), промежуточные рабочие файлы, а также итоговый отчет. 

Важно, что бы все файлы проекта были сосредоточены в одной папке, иначе это может привести к тому, что часть данных со временем может быть утрачена (случайно удалена, перемещена в другое место, переименована и т.п.).

Второй этап. Создание ноутбука Jupyter Notebook

В корне папки, созданной на первом этапе, размещайте ваши ноутбуки. Обязательно давайте им осмысленные названия на английском языке. Никогда не называйте и не сохраняйте файлы с названиями на подобии Notebook1, Untitled и т.п. Через некоторое время вы можете забыть, что именно расположено в этом файле и на его поиск у вас уйдет гораздо больше времени, чем вам хотелось бы.

О том, как правильно оформлять ноутбуки на сайте есть отдельная статья: "Как правильно оформить ноутбук в Jupiter Notebook при анализе данных из Excel", с которой настоятельно рекомендую ознакомиться.

Третий этап. Папка data

В корневой папку проекта создайте папку data. В ней мы будем хранить наши исходные данные, а также уже обработанные Python. 
 
В этой директории создайте теперь две поддиректории: processed и raw. В папке raw должны храниться исходные файлы с данными. Никогда не изменяйте оригинальные файлы! Если вам необходимо программно их изменить, то измененные файлы сохраняйте в папке processed. Используя такую структуру, у вас не будет проблем с тем, что вы случайно затерли исходные файлы и не можете их восстановить для работы. 
 

Четвертый этап. Папка reports

В корневой папке проекта создайте директорию reports. После того как вы закончили работу и подготовили итоговый отчет для вашего руководства либо для демонстрации публике, то сохраняйте его в этой папке.

Организация такой структуры данных при работе с проектами по анализу данных из Excel в Python позволит избежать многих ошибок, а также значительно ускорит вашу работу и следовательно повысит эффективность деятельности.

На этом на сегодня все. Спасибо за внимание. Ожидаю ваших комментариев.

Комментариев нет:

Отправить комментарий

Спасибо за комментарий.