Skip to content

Настройка GitHub

  • Зарегистрироваться на https://github.com/ с тем же почтовым ящиком
  • Создать новый репозиторий (заполнить имя, краткое описание, выбрать: приватный или публичный будет репозиторий, нажать создать проект)
  • В локальной папке создать файл README.md и добавить его в гит:
sh
git add README.md
git commit -m "комментарий"
git branch -M main
git remote add origin https://github.com/вашеИмя/НазваниеПроекта.git
git push -u origin main
  • Проверить на https://github.com/вашеИмя/НазваниеПроекта.git наличие вашего проекта

Основные отличия Git от других систем контроля версий

Git является бесплатным программным обеспечением с открытым исходным кодом.

Вы можете использовать его без каких-либо ограничений по лицензии как для личных, так и для коммерческих проектов.

В отношении хранения данных, Git сам по себе не ограничивает объем данных, который вы можете хранить в репозитории. Однако практические ограничения определяются производительностью и возможностями используемых оборудования и файловых систем. Репозитории с очень большим количеством файлов или с огромными файлами могут работать медленнее, особенно при выполнении операций, требующих пересчета больших объемов данных (например, слияние веток).

Хранит полную историю и информацию о состоянии файлов на момент каждого коммита, что позволяет легко восстанавливать предыдущие версии и понимать историю проекта.

Бесплатно GitHub позволяет хранить репозитории до 500 MB каждый, хотя рекомендуется, чтобы репозитории не превышали 1 GB. Также есть ограничение на размер файлов — до 100 MB. Альтернатива GitLab. По умолчанию GitLab позволяет репозиториям быть размером до 10 GB бесплатно.

Основные Команды Git

  • git init инициализирует новый Git репозиторий. Эта команда создаёт новую папку .git, которая содержит все необходимые файлы репозитория.
  • git clone [url] клонирует репозиторий из существующего URL. Это обычный способ получить копию существующего репозитория.
  • git add [file] добавляет файлы в индекс для следующего коммита. Можно использовать git add . для добавления всех изменённых файлов.
  • git commit -m "сообщение" фиксирует изменения в репозитории с определённым сообщением. Сообщение коммита должно кратко описывать произведённые изменения.
  • git status показывает состояние рабочего каталога и индекса. Это может включать изменённые, добавленные, удалённые или не отслеживаемые файлы.
  • git push [remote] [branch] отправляет изменения из локальной ветки в удалённый репозиторий. [remote] обычно является origin, а [branch] - названием ветки.
  • git pull [remote] получает изменения с удалённого репозитория и автоматически сливает их с текущей веткой.
  • git branch [branch-name] создаёт новую ветку.
  • git checkout [branch-name] переключается на указанную ветку.
  • git merge [branch] сливает указанную ветку с текущей веткой.

Рабочий процесс Git

Рабочий процесс в Git из локального репозитория на сервер обычно включает следующие шаги:

  • Инициализация: git init или клонирование репозитория: git clone [url]
  • Работа над изменениями с файлами в вашем локальном рабочем каталоге.
  • Индексация изменений с помощью git add .
  • Коммит изменений. Фиксация изменений в репозитории с помощью git commit -m "сообщение".
  • Отправка изменений в удалённый репозиторий с помощью git push.

Рабочий процесс в Git с сервера в локальный репозиторий обычно включает следующие шаги:

  • Проверка текущего состояния сервера git status
  • Получение изменений git pull

Понимание этих основ и команд Git является ключевым для эффективного управления версиями и совместной работы в проектах программного обеспечения.

Применение Git в Data Science

Инструмент мощный, универсальный и позволяет управлять версиями кода и изменениями в проекте.

  • Data Science часто требует совместной работы множества специалистов, включая аналитиков данных, инженеров по данным и разработчиков. Git позволяет всем участникам проекта работать совместно над кодом, документацией и экспериментами, обеспечивая при этом целостность и историю всех изменений.
  • С помощью Git можно легко возвращаться к предыдущим состояниям проекта, что значительно упрощает процесс отладки и исследования причин проблем. Если модель внезапно перестает работать должным образом, можно использовать Git для сравнения текущей версии с работающими версиями.
  • Документация — критически важный элемент любого Data Science проекта. Git позволяет управлять документацией так же, как и кодом, обеспечивая её актуальность и доступность для всех членов команды.
  • Continuous Integration (CI) и Continuous Deployment (CD) — практики, которые могут автоматизировать тестирование и развертывание моделей и кода. Git является центральным компонентом в CI/CD, так как изменения в репозитории могут автоматически запускать процессы тестирования и развертывания.

Внедрение Git в рабочий процесс Data Science может значительно повысить эффективность проектов, упростить коллаборацию и обеспечить надежное управление версиями проектов.

Упражнения

  • Настроить гит репозиторий;
  • В файл README.md добавить описание задания;
  • Разместить там первое дз;
  • Ссылку скинуть в вайбер/телеграм.

Contacts: teffal@mail.ru