Модель трансформатора видения (ViT), обученная с использованием метода DINO. Она была представлена в статье «Появляющиеся свойства самоконтролируемых трансформаторов видения» (Emerging Properties in Self-Supervised Vision Transformers) Матильды Карон, Уго Туврона, Ишана Мисры, Эрве Жегу, Жюльена Майраля, Пьера Бояновски, Арманда Жулена и впервые выпущена в этом репозитории (https://github.com/facebookresearch/dino).
Отказ от ответственности: команда, выпустившая DINO, не писала карточку модели для этой модели, поэтому эта карточка модели была написана командой Hugging Face.
Трансформатор видения (ViT) — это модель кодировщика трансформатора (похожа на BERT), предварительно обученная на большой коллекции изображений в режиме самоконтроля, а именно ImageNet-1k, с разрешением 224x224 пикселя.
Изображения представляются модели в виде последовательности фиксированных по размеру патчей (разрешение 16x16), которые линейно встраиваются. Также к началу последовательности добавляется токен [CLS] для использования в задачах классификации. Перед подачей последовательности на слои кодировщика Transformer также добавляются абсолютные позиционные вложения.
Обратите внимание, что эта модель не включает какие-либо точно настроенные головы.
Предварительно обучив модель, она изучает внутреннее представление изображений, которое затем можно использовать для извлечения функций, полезных для последующих задач: если у вас есть набор данных помеченных изображений, например, вы можете обучить стандартный классификатор, разместив линейный слой поверх предварительно обученного кодировщика. Обычно линейный слой размещается поверх токена [CLS], так как последнее скрытое состояние этого токена можно рассматривать как представление всего изображения.
Вы можете использовать необработанную модель для классификации изображений. См. хаб моделей (https://huggingface.co/models?search=google/vit), чтобы найти версии, точно настроенные для интересующей вас задачи.
Вот как использовать эту модель:
from transformers import ViTImageProcessor, ViTModel
from PIL import Image
import requests
url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)
processor = ViTImageProcessor.from_pretrained('facebook/dino-vitb16')
model = ViTModel.from_pretrained('facebook/dino-vitb16')
inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state
@article{DBLP:journals/corr/abs-2104-14294,
author = {Mathilde Caron and
Hugo Touvron and
Ishan Misra and
Herv{\'{e}} J{\'{e}}gou and
Julien Mairal and
Piotr Bojanowski and
Armand Joulin},
title = {Emerging Properties in Self-Supervised Vision Transformers},
journal = {CoRR},
volume = {abs/2104.14294},
year = {2021},
url = {https://arxiv.org/abs/2104.14294},
archivePrefix = {arXiv},
eprint = {2104.14294},
timestamp = {Tue, 04 May 2021 15:12:43 +0200},
biburl = {https://dblp.org/rec/journals/corr/abs-2104-14294.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )