1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/modelee-xlm-roberta-base

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Это зеркальный репозиторий, синхронизируется ежедневно с исходного репозитория.
В этом репозитории не указан файл с открытой лицензией (LICENSE). При использовании обратитесь к конкретному описанию проекта и его зависимостям в коде.
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

XLM-RoBERTa (базовая модель)

Модель XLM-RoBERTa была предварительно обучена на данных CommonCrawl объёмом 2,5 ТБ, содержащих тексты на 100 языках. Она была представлена в статье «Неконтролируемое обучение кросс-языковому представлению в масштабе» (Unsupervised Cross-lingual Representation Learning at Scale) Конно и др. и впервые выпущена в этом репозитории.

Описание модели

XLM-RoBERTa — это многоязычная версия RoBERTa. Модель предварительно обучена на 2,5 ТБ отфильтрованных данных CommonCraw, содержащих 100 языков.

RoBERTa представляет собой модель трансформаторов, предварительно обученную на большом корпусе текстов в самоконтролируемом режиме. Это означает, что она была предварительно обучена только на необработанных текстах без какой-либо человеческой маркировки с использованием автоматического процесса для генерации входных данных и меток из этих текстов.

Более точно, она была предварительно обучена с целью маскированного языкового моделирования (MLM). Принимая предложение, модель случайным образом маскирует 15% слов во входном тексте, а затем пропускает всё замаскированное предложение через модель, чтобы предсказать замаскированные слова. Это отличается от традиционных рекуррентных нейронных сетей (RNN), которые обычно видят слова одно за другим, или от авторегрессивных моделей, таких как GPT, которые внутренне маскируют будущие токены. Это позволяет модели изучать двунаправленное представление предложения.

Таким образом, модель изучает внутреннее представление 100 языков, которое затем можно использовать для извлечения функций, полезных для последующих задач: если у вас есть набор данных помеченных предложений, например, вы можете обучить стандартный классификатор, используя функции, созданные моделью XLM-RoBERTa, в качестве входных данных.

Предполагаемое использование и ограничения

Вы можете использовать исходную модель для маскированного языкового моделирования, но она в основном предназначена для точной настройки на последующей задаче. Смотрите модельный хаб, чтобы найти точные версии для интересующей вас задачи.

Обратите внимание, что эта модель в первую очередь предназначена для точной настройки задач, использующих всё предложение (потенциально замаскированное) для принятия решений, таких как классификация последовательностей, классификация токенов или ответы на вопросы. Для таких задач, как генерация текста, вам следует обратить внимание на такие модели, как GPT2.

Использование

Вы можете использовать эту модель напрямую с конвейером для маскированного языкового моделирования:

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='xlm-roberta-base')
>>> unmasker("Hello I'm a <mask> model.")

Вот как использовать эту модель для получения функций данного текста в PyTorch:

from transformers import AutoTokenizer, AutoModelForMaskedLM

tokenizer = AutoTokenizer.from_pretrained('xlm-roberTa-base')
model = AutoModelForMaskedLM.from_pretrained("xlm-roBERTa-base")

# prepare input
text = "Replace me by any text you'd like."
``` ```
encoded_input = tokenizer(text, return_tensors='pt')

# forward pass
output = model(**encoded_input)

BibTeX entry and citation info

@article{DBLP:journals/corr/abs-1911-02116,
  author    = {Alexis Conneau и
               Kartikay Khandelwal и
               Naman Goyal и
               Vishrav Chaudhary и
               Guillaume Wenzek и
               Francisco Guzm{\'{a}}n и
               Edouard Grave и
               Myle Ott и
               Luke Zettlemoyer и
               Veselin Stoyanov},
  title     = {Unsupervised Cross-lingual Representation Learning at Scale},
  journal   = {CoRR},
  volume    = {abs/1911.02116},
  year      = {2019},
  url       = {http://arxiv.org/abs/1911.02116},
  eprinttype = {arXiv},
  eprint    = {1911.02116},
  timestamp = {Mon, 11 Nov 2019 18:38:09 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1911-02116.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

Описание недоступно Развернуть Свернуть
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Создан репозиторий 4 месяца назад
Больше нет результатов для загрузки
1
https://gitlife.ru/oschina-mirror/modelee-xlm-roberta-base.git
git@gitlife.ru:oschina-mirror/modelee-xlm-roberta-base.git
oschina-mirror
modelee-xlm-roberta-base
modelee-xlm-roberta-base
main