Это зеркальный репозиторий, синхронизируется ежедневно с исходного репозитория.
Внести вклад в разработку кода
Синхронизировать код
README.md
TabML: a Machine Learning pipeline for tabular data
Введение
Это активный проект, цель которого — создать общую структуру машинного обучения для работы с табличными данными.
Основные функции:
- Одна из самых важных задач при работе с табличными данными — это обработка извлечения признаков. TabML позволяет пользователям определять множество признаков по отдельности, не беспокоясь о других признаках. Это помогает уменьшить конфликты кодирования, если ваша команда состоит из нескольких членов, одновременно разрабатывающих разные функции. Кроме того, если один признак необходимо обновить, несвязанные признаки можно оставить нетронутыми. Таким образом, вычислительные затраты относительно невелики (по сравнению с запуском конвейера для повторного создания всех остальных признаков).
- Параметры указываются в файле конфигурации как файл конфигурации. Этот файл конфигурации автоматически сохраняется в папку эксперимента после каждого обучения в целях воспроизводимости.
- Поддержка нескольких пакетов ML для табличных данных:
- LightGBM
- XGBoost
- CatBoost
- Scikit-learn
- Keras
- Pytorch
- TabNet
- ...
Установка
Основные компоненты
На этапе ОБУЧЕНИЯ:
- Класс FeatureManager отвечает за загрузку необработанных данных и преобразование их в соответствующие признаки для обучения модели и анализа. Если требуется шаг подгонки, например, импутация, для признака, подогнанные параметры будут сохранены для последующего использования на этапе преобразования. Одно из таких применений — на этапе обслуживания, когда есть только этап преобразования. Для каждого проекта существует один файл feature_manager.py, который определяет, как вычисляется каждый признак (пример). Порядок вычислений, а также зависимости признаков указаны в файле конфигурации yaml (пример).
-
DataLoader загружает данные обучения и проверки для обучения модели и анализа. В типичном проекте tabml уже заботится об этом классе, пользователям нужно только указать конфигурацию в файле конфигурации конвейера (пример). В этом файле необходимо указать признаки и метку, используемые для обучения. Кроме того, набор логических признаков используется в качестве условий для выбора данных обучения и проверки. Выбираются только строки в наборе данных, которые соответствуют всем условиям обучения/проверки.
- Класс ModelWrapper определяет модель, способ её обучения и другие методы загрузки модели и прогнозирования.
-
ModelAnalysis анализирует модель по различным показателям в определённых пользователем измерениях.
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )