1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/apache-tika

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Это зеркальный репозиторий, синхронизируется ежедневно с исходного репозитория.
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

Добро пожаловать в Apache Tika https://tika.apache.org/

license Jenkins Jenkins tests Maven Central

Apache Tika(TM) — это набор инструментов для обнаружения и извлечения метаданных и структурированного текстового содержимого из различных документов с использованием существующих библиотек парсеров.

Tika — проект Apache Software Foundation.

Apache Tika, Tika, Apache, логотип пера Apache и логотип проекта Apache Tika являются товарными знаками The Apache Software Foundation.

Начало работы

Доступны готовые двоичные файлы автономных приложений Apache Tika по ссылке https://tika.apache.org/download.html . Готовые двоичные файлы всех банок Tika можно получить из Maven Central или вашего любимого зеркала Maven.

Поддержка Java 8 для Tika 2.X планируется прекратить в апреле 2025 года. См. Дорожную карту Tika Roadmap 2.x, 3.x и далее.

Tika основана на Java 17 и использует систему сборки Maven 3. Примечание. Docker используется для тестов в tika-integration-tests. Начиная с версии Tika 2.5.1, если Docker не установлен, эти тесты пропускаются. Docker требуется для успешной сборки более ранних версий 2.x.

Чтобы собрать Tika из исходного кода, используйте следующую команду в главном каталоге:

mvn clean install

Сборка состоит из нескольких компонентов, включая автономный исполняемый jar, который вы можете использовать для опробования функций Tika. Вы можете запустить его следующим образом:

java -jar tika-app/target/tika-app-*.jar --help

Чтобы создать конкретный проект (например, tika-server-standard):

mvn clean install -am -pl :tika-server-standard

Если ossindex-maven-plugin приводит к сбою сборки из-за обнаруженной уязвимости зависимости:

mvn clean install -Dossindex.skip

Зависимости Maven

Apache Tika предоставляет артефакт Bill of Material (BOM), чтобы выровнять версии модулей Tika и упростить управление версиями. Чтобы избежать ошибок конвергенции в вашем собственном проекте, импортируйте этот bom или родительский pom.xml Tika в раздел управления зависимостями.

Если вы используете Apache Maven:

<project>
  <dependencyManagement>
    <dependencies>
      <dependency>
       <groupId>org.apache.tika</groupId>
       <artifactId>tika-bom</artifactId>
       <version>4.x.y</version>
       <type>pom</type>
       <scope>import</scope>
      </dependency>
    </dependencies>
  </dependencyManagement>

  <dependencies>
    <dependency>
      <groupId>org.apache.tika</groupId>
      <artifactId>tika-parsers-standard-package</artifactId>
      <!-- version not required since BOM included -->
    </dependency>
  </dependencies>
</project>

Для Gradle:

dependencies {
  implementation(platform("org.apache.tika:tika-bom:4.x.y"))

  // version not required since bom (platform in Gradle terms)
  implementation("org.apache.tika:tika-parsers-standard-package")
}

Переход на 4.x

TBD

Внесение вклада через Github

См. шаблон запроса на вытягивание.

Примечание: пожалуйста, открывайте запросы на вытягивание против ветки main. Мы заблокировали master в сентябре 2020 года и больше не используем её.

Спасибо всем, кто внёс свой вклад Построение с использованием определённого тега

Предположим, вы хотите построить тег 3.0.1:

0. Скачайте и установите hub.github.com.
1. git clone https://github.com/apache/tika.git.
2. Перейдите в каталог tika.
3. git checkout 3.0.1.
4. mvn clean install.

Если между датой создания тега и текущей датой была обнаружена новая уязвимость, вам может потребоваться выполнить сборку с помощью команды:

4. mvn clean install -Dossindex.skip.

Если локальный тест не работает в вашей среде, пожалуйста, сообщите об этом проекту по адресу dev@tika.apache.org. В качестве временного решения вы можете отключить отдельные тесты с помощью, например:

4. mvn clean install -Dossindex.skip -Dtest=\!UnpackerResourceTest#testPDFImages.

Лицензия (см. также LICENSE.txt)

Коллективная работа: Copyright 2011 The Apache Software Foundation.

Предоставлено Apache Software Foundation (ASF) в соответствии с одним или несколькими соглашениями о лицензировании участников. См. файл NOTICE, распространяемый вместе с этой работой, для получения дополнительной информации относительно прав собственности на авторские права. ASF лицензирует этот файл Вам в соответствии с Apache License, Version 2.0 («Лицензия»); Вы не можете использовать этот файл, кроме как в соответствии с Лицензией. Вы можете получить копию Лицензии по адресу:

https://www.apache.org/licenses/LICENSE-2.0

За исключением случаев, предусмотренных применимым законодательством или согласованных в письменной форме, программное обеспечение, распространяемое в рамках Лицензии, распространяется на условиях «КАК ЕСТЬ», БЕЗ КАКИХ-ЛИБО ГАРАНТИЙ ИЛИ УСЛОВИЙ ЛЮБОГО РОДА, явных или подразумеваемых. См. Лицензию для конкретного языка, регулирующего разрешения и ограничения в рамках Лицензии.

Apache Tika включает в себя ряд подкомпонентов с отдельными уведомлениями об авторских правах и условиями лицензии. Использование этих подкомпонентов осуществляется в соответствии с условиями и положениями лицензий, перечисленных в файле LICENSE.txt.

Экспортный контроль

Данное распространение включает в себя криптографическое программное обеспечение. Страна, в которой вы в настоящее время проживаете, может иметь ограничения на импорт, владение, использование и/или реэкспорт в другую страну программного обеспечения для шифрования. Прежде чем использовать любое программное обеспечение для шифрования, пожалуйста, проверьте законы, правила и политику вашей страны в отношении импорта, владения или использования и реэкспорта программного обеспечения для шифрования, чтобы узнать, разрешено ли это. Дополнительную информацию можно найти по адресу http://www.wassenaar.org/.

Министерство торговли США, Бюро промышленности и безопасности (BIS), классифицировало это программное обеспечение как Export Commodity Control Number (ECCN) 5D002.C.1, которое включает программное обеспечение информационной безопасности, использующее или выполняющее криптографические функции с асимметричными алгоритмами. Форма и способ распространения Apache Software Foundation делают его пригодным для экспорта в соответствии с исключением License Exception ENC Technology Software Unrestricted (TSU) (см. Правила экспортного администрирования BIS, раздел 740.13) как для объектного кода, так и для исходного кода.

Ниже приведены дополнительные сведения о включённом криптографическом программном обеспечении:

Apache Tika использует общие библиотеки шифрования Bouncy Castle для извлечения текстового содержимого и метаданных из зашифрованных файлов PDF. См. http://www.bouncycastle.org/ для получения более подробной информации о Bouncy Castle.

Списки рассылки

Обсуждение Tika происходит в следующих списках рассылки:

Уведомления обо всех изменениях кода отправляются в следующий список рассылки:

Списки рассылки открыты для всех и публично архивируются.

Вы можете подписаться на списки рассылки, отправив сообщение на [LIST]-subscribe@tika.apache.org (например, user-subscribe@...). Чтобы отказаться от подписки, отправьте сообщение на [LIST]-unsubscribe@tika.apache.org. Для получения дополнительных инструкций отправьте сообщение на [LIST]-help@tika.apache.org.

Система отслеживания ошибок

Если вы столкнулись с ошибками в Tika или хотите предложить улучшение или новую функцию, посетите систему отслеживания ошибок Tika. Проблемы сборки

TODO

  • Необходимо установить jce.

  • Если вы обнаружите другие проблемы при сборке, пожалуйста, отправьте электронное письмо на адрес dev@tika.apache.org.

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

Описание недоступно Развернуть Свернуть
Java и 6 других языков
Apache-2.0
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://gitlife.ru/oschina-mirror/apache-tika.git
git@gitlife.ru:oschina-mirror/apache-tika.git
oschina-mirror
apache-tika
apache-tika
main