1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/mirrors-tabml

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Это зеркальный репозиторий, синхронизируется ежедневно с исходного репозитория.
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

TabML: a Machine Learning pipeline for tabular data

Введение

Это активный проект, цель которого — создать общую структуру машинного обучения для работы с табличными данными.

Основные функции:

  • Одна из самых важных задач при работе с табличными данными — это обработка извлечения признаков. TabML позволяет пользователям определять множество признаков по отдельности, не беспокоясь о других признаках. Это помогает уменьшить конфликты кодирования, если ваша команда состоит из нескольких членов, одновременно разрабатывающих разные функции. Кроме того, если один признак необходимо обновить, несвязанные признаки можно оставить нетронутыми. Таким образом, вычислительные затраты относительно невелики (по сравнению с запуском конвейера для повторного создания всех остальных признаков).
  • Параметры указываются в файле конфигурации как файл конфигурации. Этот файл конфигурации автоматически сохраняется в папку эксперимента после каждого обучения в целях воспроизводимости.
  • Поддержка нескольких пакетов ML для табличных данных:
    • LightGBM
    • XGBoost
    • CatBoost
    • Scikit-learn
    • Keras
    • Pytorch
    • TabNet
    • ...

Установка

pip install tabml

Основные компоненты

На этапе ОБУЧЕНИЯ:

  1. Класс FeatureManager отвечает за загрузку необработанных данных и преобразование их в соответствующие признаки для обучения модели и анализа. Если требуется шаг подгонки, например, импутация, для признака, подогнанные параметры будут сохранены для последующего использования на этапе преобразования. Одно из таких применений — на этапе обслуживания, когда есть только этап преобразования. Для каждого проекта существует один файл feature_manager.py, который определяет, как вычисляется каждый признак (пример). Порядок вычислений, а также зависимости признаков указаны в файле конфигурации yaml (пример).
  2. DataLoader загружает данные обучения и проверки для обучения модели и анализа. В типичном проекте tabml уже заботится об этом классе, пользователям нужно только указать конфигурацию в файле конфигурации конвейера (пример). В этом файле необходимо указать признаки и метку, используемые для обучения. Кроме того, набор логических признаков используется в качестве условий для выбора данных обучения и проверки. Выбираются только строки в наборе данных, которые соответствуют всем условиям обучения/проверки.
  3. Класс ModelWrapper определяет модель, способ её обучения и другие методы загрузки модели и прогнозирования.
  4. ModelAnalysis анализирует модель по различным показателям в определённых пользователем измерениях.

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

TabML предназначен для создания универсальной платформы машинного обучения для работы с табличными данными. Расширить Свернуть
Apache-2.0
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://gitlife.ru/oschina-mirror/mirrors-tabml.git
git@gitlife.ru:oschina-mirror/mirrors-tabml.git
oschina-mirror
mirrors-tabml
mirrors-tabml
master