Эта модель представляет собой дистиллированную версию модели RoBERTa-base. Она следует той же процедуре обучения, что и DistilBERT. Код процесса дистилляции можно найти здесь. Данная модель чувствительна к регистру: она различает слова «english» и «English».
Модель имеет 6 слоёв, размерность 768 и 12 голов, всего 82 миллиона параметров (по сравнению со 125 миллионами параметров для RoBERTa-base). В среднем DistilRoBERTa в два раза быстрее, чем Roberta-base.
Мы рекомендуем пользователям этой карты модели ознакомиться с картой модели RoBERTa-base, чтобы узнать больше об использовании, ограничениях и потенциальных предвзятостях.
Вы можете использовать необработанную модель для моделирования языка с маскировкой, но она в основном предназначена для точной настройки на последующей задаче. См. хаб моделей, чтобы найти точные версии для задачи, которая вас интересует.
Обратите внимание, что эта модель в первую очередь предназначена для точной настройки задач, которые используют всё предложение (потенциально замаскированное) для принятия решений, таких как классификация последовательностей, классификация токенов или ответы на вопросы. Для таких задач, как генерация текста, вам следует обратить внимание на такие модели, как GPT2.
Модель не должна использоваться для намеренного создания враждебной или отчуждающей среды для людей. Модель не обучалась быть фактической или правдивым представлением людей или событий, и поэтому использование моделей для генерации такого контента выходит за рамки возможностей этой модели.
Значительные исследования были посвящены изучению проблем предвзятости и справедливости языковых моделей (см., например, Sheng et al. (2021) и Bender et al. (2021)). Прогнозы, генерируемые моделью, могут включать тревожные и вредные стереотипы в отношении защищённых классов; характеристик идентичности; и чувствительных, социальных и профессиональных групп. Например:
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='distilroberta-base')
>>> unmasker("The man worked as a <mask>.")
[{'score': 0.1237526461482048,
'sequence': 'The man worked as a waiter.',
'token': 38233,
'token_str': ' waiter'},
{'score': 0.08968018740415573,
'sequence': 'The man worked as a waitress.',
'token': 35698,
'token_str': ' waitress'},
{'score': 0.08387645334005356,
'sequence': 'The man worked as a bartender.',
'token': 33080,
'token_str': ' bartender'},
{'score': 0.061059024184942245,
'sequence': 'The man worked as a mechanic.',
'token': 25682,
'token_str': ' mechanic'},
{'score': 0.03804653510451317,
'sequence': 'The man worked as a courier.',
'token': 37171,
'token_str': ' courier'}]
>>> unmasker("The woman worked as a <mask>.")
[{'score': 0.23149248957633972,
'sequence': 'The woman worked as a waitress.', ## Recommendations
Пользователи (как прямые, так и косвенные) должны быть осведомлены о рисках, предубеждениях и ограничениях модели.
# Training Details
DistilRoBERTa был предварительно обучен на [OpenWebTextCorpus](https://skylion007.github.io/OpenWebTextCorpus/), воспроизведении набора данных WebText от OpenAI (это примерно в 4 раза меньше обучающих данных, чем у учителя RoBERTa). См. [карту модели roberta-base](https://huggingface.co/roberta-base/blob/main/README.md) для получения дополнительной информации о тренинге.
# Evaluation
При тонкой настройке на последующие задачи эта модель достигает следующих результатов (см. [GitHub Repo](https://github.com/huggingface/transformers/blob/main/examples/research_projects/distillation/README.md)):
Результаты теста Glue:
| Задача | MNLI | QQP | QNLI | SST-2 | CoLA | STS-B | MRPC | RTE |
|:----:|:----:|:----:|:----:|:-----:|:----:|:-----:|:----:|:----:|
| | 84.0 | 89.4 | 90.8 | 92.5 | 59.3 | 88.3 | 86.6 | 67.9 |
# Воздействие на окружающую среду
Выбросы углекислого газа можно оценить с помощью представленного в [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700) калькулятора воздействия машинного обучения.
- **Тип оборудования:** Требуется дополнительная информация
- **Использованные часы:** Требуется дополнительная информация
- **Облачный провайдер:** Требуется дополнительная информация
- **Регион вычислений:** Требуется дополнительная информация
- **Выброшенный углерод:** Требуется дополнительная информация
# Цитирование
```bibtex
@article{Sanh2019DistilBERTAD,
title={DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter},
author={Victor Sanh and Lysandre Debut and Julien Chaumond and Thomas Wolf},
journal={ArXiv},
year={2019},
volume={abs/1910.01108}
}
APA
Моделью можно напрямую воспользоваться с конвейером для маскированного моделирования языка:
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='distilroberta-base')
>>> unmasker("Hello I'm a <mask> model.")
[{'score': 0.04673689603805542,
'sequence': "Hello I'm a business model.",
'token': 265,
'token_str': ' business'},
{'score': 0.03846118599176407,
'sequence': "Hello I'm a freelance model.",
'token': 18150,
'token_str': ' freelance'},
{'score': 0.03308931365609169,
'sequence': "Hello I'm a fashion model.",
'token': 2734,
'token_str': ' fashion'},
{'score': 0.03018997237086296,
'sequence': "Hello I'm a role model.",
'token': 774,
'token_str': ' role'},
{'score': 0.02111748233437538,
'sequence': "Hello I'm a Playboy model.",
'token': 24526,
'token_str': ' Playboy'}]
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )