1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/modelee-dino-vitb16

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Это зеркальный репозиторий, синхронизируется ежедневно с исходного репозитория.
В этом репозитории не указан файл с открытой лицензией (LICENSE). При использовании обратитесь к конкретному описанию проекта и его зависимостям в коде.
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

Трансформатор видения (модель базового размера, размер патча 16) обучен с использованием DINO

Модель трансформатора видения (ViT), обученная с использованием метода DINO. Она была представлена в статье «Появляющиеся свойства самоконтролируемых трансформаторов видения» (Emerging Properties in Self-Supervised Vision Transformers) Матильды Карон, Уго Туврона, Ишана Мисры, Эрве Жегу, Жюльена Майраля, Пьера Бояновски, Арманда Жулена и впервые выпущена в этом репозитории (https://github.com/facebookresearch/dino).

Отказ от ответственности: команда, выпустившая DINO, не писала карточку модели для этой модели, поэтому эта карточка модели была написана командой Hugging Face.

Описание модели

Трансформатор видения (ViT) — это модель кодировщика трансформатора (похожа на BERT), предварительно обученная на большой коллекции изображений в режиме самоконтроля, а именно ImageNet-1k, с разрешением 224x224 пикселя.

Изображения представляются модели в виде последовательности фиксированных по размеру патчей (разрешение 16x16), которые линейно встраиваются. Также к началу последовательности добавляется токен [CLS] для использования в задачах классификации. Перед подачей последовательности на слои кодировщика Transformer также добавляются абсолютные позиционные вложения.

Обратите внимание, что эта модель не включает какие-либо точно настроенные головы.

Предварительно обучив модель, она изучает внутреннее представление изображений, которое затем можно использовать для извлечения функций, полезных для последующих задач: если у вас есть набор данных помеченных изображений, например, вы можете обучить стандартный классификатор, разместив линейный слой поверх предварительно обученного кодировщика. Обычно линейный слой размещается поверх токена [CLS], так как последнее скрытое состояние этого токена можно рассматривать как представление всего изображения.

Предназначение и ограничения

Вы можете использовать необработанную модель для классификации изображений. См. хаб моделей (https://huggingface.co/models?search=google/vit), чтобы найти версии, точно настроенные для интересующей вас задачи.

Как использовать

Вот как использовать эту модель:

from transformers import ViTImageProcessor, ViTModel
from PIL import Image
import requests

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

processor = ViTImageProcessor.from_pretrained('facebook/dino-vitb16')
model = ViTModel.from_pretrained('facebook/dino-vitb16')

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state

BibTeX запись и информация о цитировании

@article{DBLP:journals/corr/abs-2104-14294,
  author    = {Mathilde Caron and
               Hugo Touvron and
               Ishan Misra and
               Herv{\'{e}} J{\'{e}}gou and
               Julien Mairal and
               Piotr Bojanowski and
               Armand Joulin},
  title     = {Emerging Properties in Self-Supervised Vision Transformers},
  journal   = {CoRR},
  volume    = {abs/2104.14294},
  year      = {2021},
  url       = {https://arxiv.org/abs/2104.14294},
  archivePrefix = {arXiv},
  eprint    = {2104.14294},
  timestamp = {Tue, 04 May 2021 15:12:43 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2104-14294.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

Описание недоступно Расширить Свернуть
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://gitlife.ru/oschina-mirror/modelee-dino-vitb16.git
git@gitlife.ru:oschina-mirror/modelee-dino-vitb16.git
oschina-mirror
modelee-dino-vitb16
modelee-dino-vitb16
main