Трансформатор видения (модель базового размера, размер патча 16) обучен с использованием DINO

Модель трансформатора видения (ViT), обученная с использованием метода DINO. Она была представлена в статье «Появляющиеся свойства самоконтролируемых трансформаторов видения» (Emerging Properties in Self-Supervised Vision Transformers) Матильды Карон, Уго Туврона, Ишана Мисры, Эрве Жегу, Жюльена Майраля, Пьера Бояновски, Арманда Жулена и впервые выпущена в этом репозитории (https://github.com/facebookresearch/dino).

Отказ от ответственности: команда, выпустившая DINO, не писала карточку модели для этой модели, поэтому эта карточка модели была написана командой Hugging Face.

Описание модели

Трансформатор видения (ViT) — это модель кодировщика трансформатора (похожа на BERT), предварительно обученная на большой коллекции изображений в режиме самоконтроля, а именно ImageNet-1k, с разрешением 224x224 пикселя.

Изображения представляются модели в виде последовательности фиксированных по размеру патчей (разрешение 16x16), которые линейно встраиваются. Также к началу последовательности добавляется токен [CLS] для использования в задачах классификации. Перед подачей последовательности на слои кодировщика Transformer также добавляются абсолютные позиционные вложения.

Обратите внимание, что эта модель не включает какие-либо точно настроенные головы.

Предварительно обучив модель, она изучает внутреннее представление изображений, которое затем можно использовать для извлечения функций, полезных для последующих задач: если у вас есть набор данных помеченных изображений, например, вы можете обучить стандартный классификатор, разместив линейный слой поверх предварительно обученного кодировщика. Обычно линейный слой размещается поверх токена [CLS], так как последнее скрытое состояние этого токена можно рассматривать как представление всего изображения.

Предназначение и ограничения

Вы можете использовать необработанную модель для классификации изображений. См. хаб моделей (https://huggingface.co/models?search=google/vit), чтобы найти версии, точно настроенные для интересующей вас задачи.

Как использовать

Вот как использовать эту модель:

from transformers import ViTImageProcessor, ViTModel
from PIL import Image
import requests

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

processor = ViTImageProcessor.from_pretrained('facebook/dino-vitb16')
model = ViTModel.from_pretrained('facebook/dino-vitb16')

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state

BibTeX запись и информация о цитировании

@article{DBLP:journals/corr/abs-2104-14294,
  author    = {Mathilde Caron and
               Hugo Touvron and
               Ishan Misra and
               Herv{\'{e}} J{\'{e}}gou and
               Julien Mairal and
               Piotr Bojanowski and
               Armand Joulin},
  title     = {Emerging Properties in Self-Supervised Vision Transformers},
  journal   = {CoRR},
  volume    = {abs/2104.14294},
  year      = {2021},
  url       = {https://arxiv.org/abs/2104.14294},
  archivePrefix = {arXiv},
  eprint    = {2104.14294},
  timestamp = {Tue, 04 May 2021 15:12:43 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2104-14294.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

OSCHINA-MIRROR/modelee-dino-vitb16

Трансформатор видения (модель базового размера, размер патча 16) обучен с использованием DINO

Описание модели

Предназначение и ограничения

Как использовать

BibTeX запись и информация о цитировании

Комментарии ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/modelee-dino-vitb16 .gitee-modal { min-width: 500px !important; } .gitee-modal .close { right: 0.6rem !important; }

Трансформатор видения (модель базового размера, размер патча 16) обучен с использованием DINO

Описание модели

Предназначение и ограничения

Как использовать

BibTeX запись и информация о цитировании

Комментарии ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/modelee-dino-vitb16