1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/modelee-distilbert-base-multilingual-cased

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Это зеркальный репозиторий, синхронизируется ежедневно с исходного репозитория.
В этом репозитории не указан файл с открытой лицензией (LICENSE). При использовании обратитесь к конкретному описанию проекта и его зависимостям в коде.
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

Модельная карта для DistilBERT base multilingual (cased)

Содержание

  1. Сведения о модели
  2. Использование
  3. Предвзятость, риски и ограничения
  4. Детали обучения
  5. Оценка
  6. Воздействие на окружающую среду
  7. Цитирование
  8. Как начать работу с моделью

Сведения о модели

Описание модели

Эта модель представляет собой дистиллированную версию BERT base multilingual model. Код процесса дистилляции можно найти здесь. Эта модель учитывает регистр: она делает различие между английским и English.

Модель обучена на объединении Википедии на 104 различных языках, перечисленных здесь. Модель имеет 6 слоёв, размерность 768 и 12 голов, всего 134 миллиона параметров (по сравнению со 177 миллионами параметров для mBERT-base). В среднем эта модель, называемая DistilmBERT, в два раза быстрее, чем mBERT-base.

Мы рекомендуем потенциальным пользователям этой модели ознакомиться с модельной картой BERT base multilingual, чтобы узнать больше об использовании, ограничениях и потенциальных предвзятостях.

  • Разработчики: Victor Sanh, Lysandre Debut, Julien Chaumond, Thomas Wolf (Hugging Face)
  • Тип модели: Языковая модель на основе трансформатора
  • Языки (NLP): 104 языка; полный список здесь
  • Лицензия: Apache 2.0
  • Связанные модели: BERT base multilingual model
  • Ресурсы для получения дополнительной информации:

Использование

Прямое использование и использование в нисходящем направлении

Вы можете использовать необработанную модель либо для маскированного языкового моделирования, либо для предсказания следующего предложения, но в основном она предназначена для точной настройки на нисходящие задачи. См. модельный хаб, чтобы найти точно настроенные версии для интересующей вас задачи.

Обратите внимание, что эта модель в первую очередь предназначена для точной настройки задач, использующих всё предложение (потенциально замаскированное) для принятия решений, таких как классификация последовательностей, классификация токенов или ответы на вопросы. Для таких задач, как генерация текста, следует обратить внимание на такие модели, как GPT2.

Использование вне области применения

Модель не должна использоваться для намеренного создания враждебной или отчуждающей среды для людей. Модель не обучалась быть фактической или правдивым представлением людей или событий, и поэтому использование моделей для генерации такого контента выходит за рамки возможностей этой модели.

Предвзятость, риски и ограничения

Значительные исследования были посвящены изучению предвзятости и проблем справедливости в языковых моделях (см., например, Sheng et al. (2021) и Bender et al. (2021)). Прогнозы, генерируемые моделью, могут включать тревожные и вредные стереотипы в отношении защищаемых классов; характеристик личности; и чувствительных, социальных и профессиональных групп.

Рекомендации

Пользователи (как прямые, так и... Обучение

Модель была предварительно обучена под надзором модели bert-base-multilingual-cased на объединении Википедии на 104 различных языках.

У модели 6 слоёв, размерность 768 и 12 голов, всего 134 миллиона параметров. Более подробную информацию о процедуре обучения и данных можно найти в карточке модели bert-base-multilingual-cased.

Оценка

Разработчики модели сообщают о следующих результатах точности для DistilmBERT (см. GitHub Repo):

Здесь представлены результаты для тестовых наборов для 6 языков, доступных в XNLI. Результаты рассчитаны в условиях нулевого выстрела (модель обучалась на английской части и оценивалась на целевой языковой части):

Модель Английский Испанский Китайский Немецкий Арабский Урду
mBERT base cased (вычисленный) 82.1 74.6 69.1 72.3 66.4 58.5
mBERT base uncased (заявленный) 81.4 74.3 63.8 70.5 62.1 58.3
DistilmBERT 78.2 69.1 64.0 66.3 59.1 54.7

Воздействие на окружающую среду

Выбросы углекислого газа можно оценить с помощью калькулятора воздействия машинного обучения, представленного в Lacoste et al. (2019).

  • Тип оборудования: требуется дополнительная информация.
  • Использованные часы: требуется дополнительная информация.
  • Поставщик облачных услуг: требуется дополнительная информация.
  • Регион вычислений: требуется дополнительная информация.
  • Выбросы углерода: требуется дополнительная информация.

Цитирование

Sanh, V., Debut, L., Chaumond, J., & Wolf, T. (2019). DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter. arXiv preprint arXiv:1910.01108.

APA

Сан, В., Дебют, Л., Шомон, Дж., и Вольф, Т. (2019). ДистилБЕРТ, дистиллированная версия БЕРТ: меньше, быстрее, дешевле и легче. Предварительная публикация ArXiv arXiv:1910.01108.

Как начать работу с моделью

Можно использовать модель напрямую с конвейером для моделирования языка с маской:

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='distilbert-base-multilingual-cased')
>>> unmasker("Hello I'm a [MASK] model.")

[{'score': 0.040800247341394424,
  'sequence': "Hello I'm a virtual model.",
  'token': 37859,
  'token_str': 'virtual'},
 {'score': 0.020015988498926163,
  'sequence': "Hello I'm a big model.",
  'token': 22185,
  'token_str': 'big'},
 {'score': 0.018680453300476074,
  'sequence': "Hello I'm a Hello model.",
  'token': 31178,
  'token_str': 'Hello'},
 {'score': 0.017396586015820503,
  'sequence': "Hello I'm a model model.",
  'token': 13192,
  'token_str': 'model'},
 {'score': 0.014229810796678066,
  'sequence': "Hello I'm a perfect model.",
  'token': 43477,
  'token_str': 'perfect'}]

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://gitlife.ru/oschina-mirror/modelee-distilbert-base-multilingual-cased.git
git@gitlife.ru:oschina-mirror/modelee-distilbert-base-multilingual-cased.git
oschina-mirror
modelee-distilbert-base-multilingual-cased
modelee-distilbert-base-multilingual-cased
main