Эта модель представляет собой дистиллированную версию BERT base multilingual model. Код процесса дистилляции можно найти здесь. Эта модель учитывает регистр: она делает различие между английским и English.
Модель обучена на объединении Википедии на 104 различных языках, перечисленных здесь. Модель имеет 6 слоёв, размерность 768 и 12 голов, всего 134 миллиона параметров (по сравнению со 177 миллионами параметров для mBERT-base). В среднем эта модель, называемая DistilmBERT, в два раза быстрее, чем mBERT-base.
Мы рекомендуем потенциальным пользователям этой модели ознакомиться с модельной картой BERT base multilingual, чтобы узнать больше об использовании, ограничениях и потенциальных предвзятостях.
Вы можете использовать необработанную модель либо для маскированного языкового моделирования, либо для предсказания следующего предложения, но в основном она предназначена для точной настройки на нисходящие задачи. См. модельный хаб, чтобы найти точно настроенные версии для интересующей вас задачи.
Обратите внимание, что эта модель в первую очередь предназначена для точной настройки задач, использующих всё предложение (потенциально замаскированное) для принятия решений, таких как классификация последовательностей, классификация токенов или ответы на вопросы. Для таких задач, как генерация текста, следует обратить внимание на такие модели, как GPT2.
Модель не должна использоваться для намеренного создания враждебной или отчуждающей среды для людей. Модель не обучалась быть фактической или правдивым представлением людей или событий, и поэтому использование моделей для генерации такого контента выходит за рамки возможностей этой модели.
Значительные исследования были посвящены изучению предвзятости и проблем справедливости в языковых моделях (см., например, Sheng et al. (2021) и Bender et al. (2021)). Прогнозы, генерируемые моделью, могут включать тревожные и вредные стереотипы в отношении защищаемых классов; характеристик личности; и чувствительных, социальных и профессиональных групп.
Пользователи (как прямые, так и... Обучение
Модель была предварительно обучена под надзором модели bert-base-multilingual-cased на объединении Википедии на 104 различных языках.
У модели 6 слоёв, размерность 768 и 12 голов, всего 134 миллиона параметров. Более подробную информацию о процедуре обучения и данных можно найти в карточке модели bert-base-multilingual-cased.
Оценка
Разработчики модели сообщают о следующих результатах точности для DistilmBERT (см. GitHub Repo):
Здесь представлены результаты для тестовых наборов для 6 языков, доступных в XNLI. Результаты рассчитаны в условиях нулевого выстрела (модель обучалась на английской части и оценивалась на целевой языковой части):
Модель | Английский | Испанский | Китайский | Немецкий | Арабский | Урду |
---|---|---|---|---|---|---|
mBERT base cased (вычисленный) | 82.1 | 74.6 | 69.1 | 72.3 | 66.4 | 58.5 |
mBERT base uncased (заявленный) | 81.4 | 74.3 | 63.8 | 70.5 | 62.1 | 58.3 |
DistilmBERT | 78.2 | 69.1 | 64.0 | 66.3 | 59.1 | 54.7 |
Воздействие на окружающую среду
Выбросы углекислого газа можно оценить с помощью калькулятора воздействия машинного обучения, представленного в Lacoste et al. (2019).
Цитирование
Sanh, V., Debut, L., Chaumond, J., & Wolf, T. (2019). DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter. arXiv preprint arXiv:1910.01108.
APA
Сан, В., Дебют, Л., Шомон, Дж., и Вольф, Т. (2019). ДистилБЕРТ, дистиллированная версия БЕРТ: меньше, быстрее, дешевле и легче. Предварительная публикация ArXiv arXiv:1910.01108.
Как начать работу с моделью
Можно использовать модель напрямую с конвейером для моделирования языка с маской:
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='distilbert-base-multilingual-cased')
>>> unmasker("Hello I'm a [MASK] model.")
[{'score': 0.040800247341394424,
'sequence': "Hello I'm a virtual model.",
'token': 37859,
'token_str': 'virtual'},
{'score': 0.020015988498926163,
'sequence': "Hello I'm a big model.",
'token': 22185,
'token_str': 'big'},
{'score': 0.018680453300476074,
'sequence': "Hello I'm a Hello model.",
'token': 31178,
'token_str': 'Hello'},
{'score': 0.017396586015820503,
'sequence': "Hello I'm a model model.",
'token': 13192,
'token_str': 'model'},
{'score': 0.014229810796678066,
'sequence': "Hello I'm a perfect model.",
'token': 43477,
'token_str': 'perfect'}]
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )