BERT мультиязыковая базовая модель (cased)

Предварительно обученная модель для 104 языков с наибольшим количеством данных из Википедии, использующая задачу маскированного языкового моделирования (MLM). Она была представлена в этой статье и впервые выпущена в этом репозитории. Эта модель чувствительна к регистру: она различает английский и English.

Отказ от ответственности: команда, выпускающая BERT, не писала карточку модели для этой модели, поэтому эта карточка модели была написана командой Hugging Face.

Описание модели

BERT — это модель трансформеров, предварительно обученная на большом корпусе мультиязыковых данных в самоконтролируемом режиме. Это означает, что она была предварительно обучена только на необработанных текстах без какой-либо маркировки людьми (поэтому она может использовать множество общедоступных данных) с автоматическим процессом генерации входных данных и меток из этих текстов. Точнее, она была предварительно обучена с двумя задачами:

Маскированное языковое моделирование (MLM): берётся предложение, модель случайным образом маскирует 15% слов во входном предложении, затем пропускает всё замаскированное предложение через модель и должна предсказать замаскированные слова. Это отличается от традиционных рекуррентных нейронных сетей (RNN), которые обычно видят слова одно за другим, или от авторегрессивных моделей, таких как GPT, которые внутренне маскируют будущие токены. Это позволяет модели изучать двунаправственное представление предложения.
Предсказание следующего предложения (NSP): модели объединяют два замаскированных предложения в качестве входных данных во время предварительного обучения. Иногда они соответствуют предложениям, которые были рядом друг с другом в исходном тексте, иногда нет. Модель должна предсказать, следовали ли эти два предложения друг за другом или нет.

Таким образом, модель изучает внутреннее представление языков в обучающем наборе, которое затем можно использовать для извлечения функций, полезных для последующих задач: если у вас есть набор данных помеченных предложений, например, вы можете обучить стандартный классификатор, используя функции, созданные моделью BERT, в качестве входных.

Предназначение и ограничения

Вы можете использовать необработанную модель либо для маскированного языкового моделирования, либо для предсказания следующего предложения, но в основном она предназначена для точной настройки на последующей задаче. См. модельный хаб, чтобы найти настроенные версии для интересующей вас задачи.

Обратите внимание, что эта модель в первую очередь предназначена для тонкой настройки задач, в которых используется всё предложение (потенциально замаскированное) для принятия решений, таких как классификация последовательностей, классификация токенов или ответы на вопросы. Для таких задач, как генерация текста, вам следует обратить внимание на такие модели, как GPT2.

Как использовать

Вы можете напрямую использовать эту модель с конвейером для маскированного языкового моделирования:

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='bert-base-multilingual-cased')
>>> unmasker("Hello I'm a [MASK] model.")
``` Вот как использовать эту модель для получения признаков данного текста в PyTorch:

```python
from transformers import BertTokenizer, BertModel
tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased')
model = BertModel.from_pretrained("bert-base-multilingual-cased")
text = "Замените меня любым текстом, который вы хотите."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

и в TensorFlow:

from transformers import BertTokenizer, TFBertModel
tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased')
model = TFBertModel.from_pretrained("bert-base-multilingual-cased")
text = "Замените меня любым текстом, который вы хотите."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)

Тренировочные данные

Модель BERT была предварительно обучена на 104 языках с крупнейшими Википедиями. Вы можете найти полный список здесь.

Процедура обучения

Предварительная обработка

Тексты преобразуются в нижний регистр и токенизируются с использованием WordPiece и общего размера словаря в 110 000. Языки с большим количеством Википедии подвергаются недовыборке, а языки с меньшими ресурсами — перевыборке. Для языков, таких как китайский, японский кандзи и корейский ханджа, которые не имеют пробелов, вокруг каждого символа добавляется блок CJK Unicode.

Входы модели имеют следующий вид:

[CLS] Предложение A [SEP] Предложение B

С вероятностью 0,5 предложение A и предложение B соответствуют двум последовательным предложениям в исходном корпусе, а в других случаях это другое случайное предложение в корпусе. Обратите внимание, что то, что считается предложением здесь, представляет собой непрерывный фрагмент текста, обычно длиннее одного предложения. Единственное ограничение заключается в том, что результат с двумя «предложениями» имеет общую длину менее 512 токенов.

Детали процедуры маскирования для каждого предложения следующие:

15% токенов маскируются.
В 80% случаев замаскированные токены заменяются на [MASK].
В 10% случаев замаскированные токены заменяются случайным токеном (отличным) от того, который они заменяют.
В оставшихся 10% случаев замаскированные токены остаются без изменений.

BibTeX запись и информация о цитировании

@article{DBLP:journals/corr/abs-1810-04805,
  author    = {Jacob Devlin and
               Ming{-}Wei Chang and
               Kenton Lee and
               Kristina Toutanova},
  title     = {{BERT:} Pre-training of Deep Bidirectional Transformers for Language
               Understanding},
  journal   = {CoRR},
  volume    = {abs/1810.04805},
  year      = {2018},
  url       = {http://arxiv.org/abs/1810.04805},
  archivePrefix = {arXiv},
  eprint    = {1810.04805},
  timestamp = {Tue, 30 Oct 2018 20:39:56 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1810-04805.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

OSCHINA-MIRROR/modelee-bert-base-multilingual-cased

BERT мультиязыковая базовая модель (cased)

Описание модели

Предназначение и ограничения

Как использовать

Тренировочные данные

Процедура обучения

Предварительная обработка

BibTeX запись и информация о цитировании

Комментарии ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/modelee-bert-base-multilingual-cased .gitee-modal { min-width: 500px !important; } .gitee-modal .close { right: 0.6rem !important; }

BERT мультиязыковая базовая модель (cased)

Описание модели

Предназначение и ограничения

Как использовать

Тренировочные данные

Процедура обучения

Предварительная обработка

BibTeX запись и информация о цитировании

Комментарии ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/modelee-bert-base-multilingual-cased