mirrors-tabml: TabML предназначен для создания универсальной платформы машинного обучения для работы с табличными данными.

TabML: a Machine Learning pipeline for tabular data

Введение

Это активный проект, цель которого — создать общую структуру машинного обучения для работы с табличными данными.

Основные функции:

Одна из самых важных задач при работе с табличными данными — это обработка извлечения признаков. TabML позволяет пользователям определять множество признаков по отдельности, не беспокоясь о других признаках. Это помогает уменьшить конфликты кодирования, если ваша команда состоит из нескольких членов, одновременно разрабатывающих разные функции. Кроме того, если один признак необходимо обновить, несвязанные признаки можно оставить нетронутыми. Таким образом, вычислительные затраты относительно невелики (по сравнению с запуском конвейера для повторного создания всех остальных признаков).
Параметры указываются в файле конфигурации как файл конфигурации. Этот файл конфигурации автоматически сохраняется в папку эксперимента после каждого обучения в целях воспроизводимости.
Поддержка нескольких пакетов ML для табличных данных:
- LightGBM
- XGBoost
- CatBoost
- Scikit-learn
- Keras
- Pytorch
- TabNet
- ...

Установка

pip install tabml

Основные компоненты

На этапе ОБУЧЕНИЯ:

Класс FeatureManager отвечает за загрузку необработанных данных и преобразование их в соответствующие признаки для обучения модели и анализа. Если требуется шаг подгонки, например, импутация, для признака, подогнанные параметры будут сохранены для последующего использования на этапе преобразования. Одно из таких применений — на этапе обслуживания, когда есть только этап преобразования. Для каждого проекта существует один файл feature_manager.py, который определяет, как вычисляется каждый признак (пример). Порядок вычислений, а также зависимости признаков указаны в файле конфигурации yaml (пример).
DataLoader загружает данные обучения и проверки для обучения модели и анализа. В типичном проекте tabml уже заботится об этом классе, пользователям нужно только указать конфигурацию в файле конфигурации конвейера (пример). В этом файле необходимо указать признаки и метку, используемые для обучения. Кроме того, набор логических признаков используется в качестве условий для выбора данных обучения и проверки. Выбираются только строки в наборе данных, которые соответствуют всем условиям обучения/проверки.
Класс ModelWrapper определяет модель, способ её обучения и другие методы загрузки модели и прогнозирования.
ModelAnalysis анализирует модель по различным показателям в определённых пользователем измерениях.

OSCHINA-MIRROR/mirrors-tabml

TabML: a Machine Learning pipeline for tabular data

Введение

Установка

Основные компоненты

Комментарии ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/mirrors-tabml .gitee-modal { min-width: 500px !important; } .gitee-modal .close { right: 0.6rem !important; }

TabML: a Machine Learning pipeline for tabular data

Введение

Установка

Основные компоненты

Комментарии ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/mirrors-tabml