Appearance
Настройка GitHub
- Зарегистрироваться на
https://github.com/
с тем же почтовым ящиком - Создать новый репозиторий (заполнить имя, краткое описание, выбрать: приватный или публичный будет репозиторий, нажать создать проект)
- В локальной папке создать файл
README.md
и добавить его в гит:
sh
git add README.md
git commit -m "комментарий"
git branch -M main
git remote add origin https://github.com/вашеИмя/НазваниеПроекта.git
git push -u origin main
- Проверить на
https://github.com/вашеИмя/НазваниеПроекта.git
наличие вашего проекта
Основные отличия Git от других систем контроля версий
Git
является бесплатным программным обеспечением с открытым исходным кодом.
Вы можете использовать его без каких-либо ограничений по лицензии как для личных, так и для коммерческих проектов.
В отношении хранения данных, Git
сам по себе не ограничивает объем данных, который вы можете хранить в репозитории. Однако практические ограничения определяются производительностью и возможностями используемых оборудования и файловых систем. Репозитории с очень большим количеством файлов или с огромными файлами могут работать медленнее, особенно при выполнении операций, требующих пересчета больших объемов данных (например, слияние веток).
Хранит полную историю и информацию о состоянии файлов на момент каждого коммита, что позволяет легко восстанавливать предыдущие версии и понимать историю проекта.
Бесплатно GitHub
позволяет хранить репозитории до 500 MB каждый, хотя рекомендуется, чтобы репозитории не превышали 1 GB. Также есть ограничение на размер файлов — до 100 MB. Альтернатива GitLab. По умолчанию GitLab позволяет репозиториям быть размером до 10 GB бесплатно.
Основные Команды Git
git init
инициализирует новыйGit
репозиторий. Эта команда создаёт новую папку.git
, которая содержит все необходимые файлы репозитория.git clone [url]
клонирует репозиторий из существующего URL. Это обычный способ получить копию существующего репозитория.git add [file]
добавляет файлы в индекс для следующего коммита. Можно использоватьgit add .
для добавления всех изменённых файлов.git commit -m "сообщение"
фиксирует изменения в репозитории с определённым сообщением. Сообщение коммита должно кратко описывать произведённые изменения.git status
показывает состояние рабочего каталога и индекса. Это может включать изменённые, добавленные, удалённые или не отслеживаемые файлы.git push [remote] [branch]
отправляет изменения из локальной ветки в удалённый репозиторий.[remote]
обычно является origin, а[branch]
- названием ветки.git pull [remote]
получает изменения с удалённого репозитория и автоматически сливает их с текущей веткой.git branch [branch-name]
создаёт новую ветку.git checkout [branch-name]
переключается на указанную ветку.git merge [branch]
сливает указанную ветку с текущей веткой.
Рабочий процесс Git
Рабочий процесс в Git
из локального репозитория на сервер обычно включает следующие шаги:
- Инициализация:
git init
или клонирование репозитория:git clone [url]
- Работа над изменениями с файлами в вашем локальном рабочем каталоге.
- Индексация изменений с помощью
git add .
- Коммит изменений. Фиксация изменений в репозитории с помощью
git commit -m "сообщение"
. - Отправка изменений в удалённый репозиторий с помощью
git push
.
Рабочий процесс в Git
с сервера в локальный репозиторий обычно включает следующие шаги:
- Проверка текущего состояния сервера
git status
- Получение изменений
git pull
Понимание этих основ и команд Git
является ключевым для эффективного управления версиями и совместной работы в проектах программного обеспечения.
Применение Git в Data Science
Инструмент мощный, универсальный и позволяет управлять версиями кода и изменениями в проекте.
- Data Science часто требует совместной работы множества специалистов, включая аналитиков данных, инженеров по данным и разработчиков.
Git
позволяет всем участникам проекта работать совместно над кодом, документацией и экспериментами, обеспечивая при этом целостность и историю всех изменений. - С помощью
Git
можно легко возвращаться к предыдущим состояниям проекта, что значительно упрощает процесс отладки и исследования причин проблем. Если модель внезапно перестает работать должным образом, можно использоватьGit
для сравнения текущей версии с работающими версиями. - Документация — критически важный элемент любого Data Science проекта.
Git
позволяет управлять документацией так же, как и кодом, обеспечивая её актуальность и доступность для всех членов команды. - Continuous
Integration (CI)
иContinuous Deployment (CD)
— практики, которые могут автоматизировать тестирование и развертывание моделей и кода.Git
является центральным компонентом вCI/CD
, так как изменения в репозитории могут автоматически запускать процессы тестирования и развертывания.
Внедрение Git
в рабочий процесс Data Science
может значительно повысить эффективность проектов, упростить коллаборацию и обеспечить надежное управление версиями проектов.
Упражнения
- Настроить гит репозиторий;
- В файл README.md добавить описание задания;
- Разместить там первое дз;
- Ссылку скинуть в вайбер/телеграм.