LayoutLMv3
Microsoft Document AI | GitHub
LayoutLMv3 — это предобученный мультимодальный трансформер для Document AI с унифицированным маскированием текста и изображений. Простая унифицированная архитектура и цели обучения делают LayoutLMv3 универсальной предобученной моделью. Например, LayoutLMv3 можно дообучать как для текстовых задач, включая понимание форм, квитанций и ответы на визуальные вопросы по документам, так и для задач, связанных с изображениями, таких как классификация изображений документов и анализ структуры документов.
«LayoutLMv3: предобучение для Document AI с использованием унифицированного маскирования текста и изображения». Юпан Хуан, Тэнчао Лв, Лэй Цуй, Юйтун Лу, Фуру Вэй, ACM Multimedia 2022.
Если вы считаете, что LayoutLM полезен в вашем исследовании, пожалуйста, процитируйте следующую статью:
@inproceedings{huang2022layoutlmv3,
author={Yupan Huang and Tengchao Lv and Lei Cui and Yutong Lu and Furu Wei},
title={LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking},
booktitle={Proceedings of the 30th ACM International Conference on Multimedia},
year={2022}
}
Содержание этого проекта лицензировано согласно международной лицензии Attribution-NonCommercial-ShareAlike 4.0. Части исходного кода основаны на проекте transformers. Кодекс поведения Microsoft Open Source.
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )