Модельная карта DistilRoBERTa base

Содержание

Сведения о модели
Использование
Предвзятость, риски и ограничения
Детали обучения
Оценка
Воздействие на окружающую среду
Цитирование
Начало работы с моделью

Сведения о модели

Описание модели

Эта модель представляет собой дистиллированную версию модели RoBERTa-base. Она следует той же процедуре обучения, что и DistilBERT. Код процесса дистилляции можно найти здесь. Данная модель чувствительна к регистру: она различает слова «english» и «English».

Модель имеет 6 слоёв, размерность 768 и 12 голов, всего 82 миллиона параметров (по сравнению со 125 миллионами параметров для RoBERTa-base). В среднем DistilRoBERTa в два раза быстрее, чем Roberta-base.

Мы рекомендуем пользователям этой карты модели ознакомиться с картой модели RoBERTa-base, чтобы узнать больше об использовании, ограничениях и потенциальных предвзятостях.

Разработано: Виктором Санхом, Лисандером Дебютом, Жюльеном Шомоном, Томасом Вольфом (Hugging Face)
Тип модели: Языковая модель на основе трансформатора
Язык(и) (NLP): Английский
Лицензия: Apache 2.0
Связанные модели: Карта модели RoBERTa-base
Ресурсы для получения дополнительной информации:
- Репозиторий GitHub
- Связанная статья

Использование

Прямое использование и последующее использование

Вы можете использовать необработанную модель для моделирования языка с маскировкой, но она в основном предназначена для точной настройки на последующей задаче. См. хаб моделей, чтобы найти точные версии для задачи, которая вас интересует.

Обратите внимание, что эта модель в первую очередь предназначена для точной настройки задач, которые используют всё предложение (потенциально замаскированное) для принятия решений, таких как классификация последовательностей, классификация токенов или ответы на вопросы. Для таких задач, как генерация текста, вам следует обратить внимание на такие модели, как GPT2.

Использование вне области применения

Модель не должна использоваться для намеренного создания враждебной или отчуждающей среды для людей. Модель не обучалась быть фактической или правдивым представлением людей или событий, и поэтому использование моделей для генерации такого контента выходит за рамки возможностей этой модели.

Предвзятость, риски и ограничения

Значительные исследования были посвящены изучению проблем предвзятости и справедливости языковых моделей (см., например, Sheng et al. (2021) и Bender et al. (2021)). Прогнозы, генерируемые моделью, могут включать тревожные и вредные стереотипы в отношении защищённых классов; характеристик идентичности; и чувствительных, социальных и профессиональных групп. Например:

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='distilroberta-base')
>>> unmasker("The man worked as a <mask>.")
[{'score': 0.1237526461482048,
  'sequence': 'The man worked as a waiter.',
  'token': 38233,
  'token_str': ' waiter'},
 {'score': 0.08968018740415573,
  'sequence': 'The man worked as a waitress.',
  'token': 35698,
  'token_str': ' waitress'},
 {'score': 0.08387645334005356,
  'sequence': 'The man worked as a bartender.',
  'token': 33080,
  'token_str': ' bartender'},
 {'score': 0.061059024184942245,
  'sequence': 'The man worked as a mechanic.',
  'token': 25682,
  'token_str': ' mechanic'},
 {'score': 0.03804653510451317,
  'sequence': 'The man worked as a courier.',
  'token': 37171,
  'token_str': ' courier'}]
  
>>> unmasker("The woman worked as a <mask>.")
[{'score': 0.23149248957633972,
  'sequence': 'The woman worked as a waitress.', ## Recommendations

Пользователи (как прямые, так и косвенные) должны быть осведомлены о рисках, предубеждениях и ограничениях модели.

# Training Details

DistilRoBERTa был предварительно обучен на [OpenWebTextCorpus](https://skylion007.github.io/OpenWebTextCorpus/), воспроизведении набора данных WebText от OpenAI (это примерно в 4 раза меньше обучающих данных, чем у учителя RoBERTa). См. [карту модели roberta-base](https://huggingface.co/roberta-base/blob/main/README.md) для получения дополнительной информации о тренинге.

# Evaluation

При тонкой настройке на последующие задачи эта модель достигает следующих результатов (см. [GitHub Repo](https://github.com/huggingface/transformers/blob/main/examples/research_projects/distillation/README.md)):

Результаты теста Glue:

| Задача | MNLI | QQP  | QNLI | SST-2 | CoLA | STS-B | MRPC | RTE  |
|:----:|:----:|:----:|:----:|:-----:|:----:|:-----:|:----:|:----:|
|      | 84.0 | 89.4 | 90.8 | 92.5  | 59.3 | 88.3  | 86.6 | 67.9 |

# Воздействие на окружающую среду

Выбросы углекислого газа можно оценить с помощью представленного в [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700) калькулятора воздействия машинного обучения.

- **Тип оборудования:** Требуется дополнительная информация
- **Использованные часы:** Требуется дополнительная информация
- **Облачный провайдер:** Требуется дополнительная информация
- **Регион вычислений:** Требуется дополнительная информация
- **Выброшенный углерод:** Требуется дополнительная информация

# Цитирование

```bibtex
@article{Sanh2019DistilBERTAD,
  title={DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter},
  author={Victor Sanh and Lysandre Debut and Julien Chaumond and Thomas Wolf},
  journal={ArXiv},
  year={2019},
  volume={abs/1910.01108}
}

APA

Sanh, V., Debut, L., Chaumond, J., & Wolf, T. (2019). DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter. arXiv preprint arXiv:1910.01108.

Как начать работу с моделью

Моделью можно напрямую воспользоваться с конвейером для маскированного моделирования языка:

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='distilroberta-base')
>>> unmasker("Hello I'm a <mask> model.")
[{'score': 0.04673689603805542,
  'sequence': "Hello I'm a business model.",
  'token': 265,
  'token_str': ' business'},
 {'score': 0.03846118599176407,
  'sequence': "Hello I'm a freelance model.",
  'token': 18150,
  'token_str': ' freelance'},
 {'score': 0.03308931365609169,
  'sequence': "Hello I'm a fashion model.",
  'token': 2734,
  'token_str': ' fashion'},
 {'score': 0.03018997237086296,
  'sequence': "Hello I'm a role model.",
  'token': 774,
  'token_str': ' role'},
 {'score': 0.02111748233437538,
  'sequence': "Hello I'm a Playboy model.",
  'token': 24526,
  'token_str': ' Playboy'}]

OSCHINA-MIRROR/modelee-distilroberta-base

Модельная карта DistilRoBERTa base

Содержание

Сведения о модели

Описание модели

Использование

Прямое использование и последующее использование

Использование вне области применения

Предвзятость, риски и ограничения

Как начать работу с моделью

Комментарии ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/modelee-distilroberta-base .gitee-modal { min-width: 500px !important; } .gitee-modal .close { right: 0.6rem !important; }

Модельная карта DistilRoBERTa base

Содержание

Сведения о модели

Описание модели

Использование

Прямое использование и последующее использование

Использование вне области применения

Предвзятость, риски и ограничения

Как начать работу с моделью

Комментарии ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/modelee-distilroberta-base