Apache Tika(TM) — это набор инструментов для обнаружения и извлечения метаданных и структурированного текстового содержимого из различных документов с использованием существующих библиотек парсеров.
Tika — проект Apache Software Foundation.
Apache Tika, Tika, Apache, логотип пера Apache и логотип проекта Apache Tika являются товарными знаками The Apache Software Foundation.
Доступны готовые двоичные файлы автономных приложений Apache Tika по ссылке https://tika.apache.org/download.html . Готовые двоичные файлы всех банок Tika можно получить из Maven Central или вашего любимого зеркала Maven.
Поддержка Java 8 для Tika 2.X планируется прекратить в апреле 2025 года. См. Дорожную карту Tika Roadmap 2.x, 3.x и далее.
Tika основана на Java 17 и использует систему сборки Maven 3. Примечание. Docker используется для тестов в tika-integration-tests. Начиная с версии Tika 2.5.1, если Docker не установлен, эти тесты пропускаются. Docker требуется для успешной сборки более ранних версий 2.x.
Чтобы собрать Tika из исходного кода, используйте следующую команду в главном каталоге:
mvn clean install
Сборка состоит из нескольких компонентов, включая автономный исполняемый jar, который вы можете использовать для опробования функций Tika. Вы можете запустить его следующим образом:
java -jar tika-app/target/tika-app-*.jar --help
Чтобы создать конкретный проект (например, tika-server-standard):
mvn clean install -am -pl :tika-server-standard
Если ossindex-maven-plugin приводит к сбою сборки из-за обнаруженной уязвимости зависимости:
mvn clean install -Dossindex.skip
Apache Tika предоставляет артефакт Bill of Material (BOM), чтобы выровнять версии модулей Tika и упростить управление версиями. Чтобы избежать ошибок конвергенции в вашем собственном проекте, импортируйте этот bom или родительский pom.xml Tika в раздел управления зависимостями.
Если вы используете Apache Maven:
<project>
<dependencyManagement>
<dependencies>
<dependency>
<groupId>org.apache.tika</groupId>
<artifactId>tika-bom</artifactId>
<version>4.x.y</version>
<type>pom</type>
<scope>import</scope>
</dependency>
</dependencies>
</dependencyManagement>
<dependencies>
<dependency>
<groupId>org.apache.tika</groupId>
<artifactId>tika-parsers-standard-package</artifactId>
<!-- version not required since BOM included -->
</dependency>
</dependencies>
</project>
Для Gradle:
dependencies {
implementation(platform("org.apache.tika:tika-bom:4.x.y"))
// version not required since bom (platform in Gradle terms)
implementation("org.apache.tika:tika-parsers-standard-package")
}
TBD
См. шаблон запроса на вытягивание.
Примечание: пожалуйста, открывайте запросы на вытягивание против ветки main
. Мы заблокировали master
в сентябре 2020 года и больше не используем её.
Предположим, вы хотите построить тег 3.0.1:
0. Скачайте и установите hub.github.com.
1. git clone https://github.com/apache/tika.git.
2. Перейдите в каталог tika.
3. git checkout 3.0.1.
4. mvn clean install.
Если между датой создания тега и текущей датой была обнаружена новая уязвимость, вам может потребоваться выполнить сборку с помощью команды:
4. mvn clean install -Dossindex.skip.
Если локальный тест не работает в вашей среде, пожалуйста, сообщите об этом проекту по адресу dev@tika.apache.org. В качестве временного решения вы можете отключить отдельные тесты с помощью, например:
4. mvn clean install -Dossindex.skip -Dtest=\!UnpackerResourceTest#testPDFImages.
Лицензия (см. также LICENSE.txt)
Коллективная работа: Copyright 2011 The Apache Software Foundation.
Предоставлено Apache Software Foundation (ASF) в соответствии с одним или несколькими соглашениями о лицензировании участников. См. файл NOTICE, распространяемый вместе с этой работой, для получения дополнительной информации относительно прав собственности на авторские права. ASF лицензирует этот файл Вам в соответствии с Apache License, Version 2.0 («Лицензия»); Вы не можете использовать этот файл, кроме как в соответствии с Лицензией. Вы можете получить копию Лицензии по адресу:
https://www.apache.org/licenses/LICENSE-2.0
За исключением случаев, предусмотренных применимым законодательством или согласованных в письменной форме, программное обеспечение, распространяемое в рамках Лицензии, распространяется на условиях «КАК ЕСТЬ», БЕЗ КАКИХ-ЛИБО ГАРАНТИЙ ИЛИ УСЛОВИЙ ЛЮБОГО РОДА, явных или подразумеваемых. См. Лицензию для конкретного языка, регулирующего разрешения и ограничения в рамках Лицензии.
Apache Tika включает в себя ряд подкомпонентов с отдельными уведомлениями об авторских правах и условиями лицензии. Использование этих подкомпонентов осуществляется в соответствии с условиями и положениями лицензий, перечисленных в файле LICENSE.txt.
Экспортный контроль
Данное распространение включает в себя криптографическое программное обеспечение. Страна, в которой вы в настоящее время проживаете, может иметь ограничения на импорт, владение, использование и/или реэкспорт в другую страну программного обеспечения для шифрования. Прежде чем использовать любое программное обеспечение для шифрования, пожалуйста, проверьте законы, правила и политику вашей страны в отношении импорта, владения или использования и реэкспорта программного обеспечения для шифрования, чтобы узнать, разрешено ли это. Дополнительную информацию можно найти по адресу http://www.wassenaar.org/.
Министерство торговли США, Бюро промышленности и безопасности (BIS), классифицировало это программное обеспечение как Export Commodity Control Number (ECCN) 5D002.C.1, которое включает программное обеспечение информационной безопасности, использующее или выполняющее криптографические функции с асимметричными алгоритмами. Форма и способ распространения Apache Software Foundation делают его пригодным для экспорта в соответствии с исключением License Exception ENC Technology Software Unrestricted (TSU) (см. Правила экспортного администрирования BIS, раздел 740.13) как для объектного кода, так и для исходного кода.
Ниже приведены дополнительные сведения о включённом криптографическом программном обеспечении:
Apache Tika использует общие библиотеки шифрования Bouncy Castle для извлечения текстового содержимого и метаданных из зашифрованных файлов PDF. См. http://www.bouncycastle.org/ для получения более подробной информации о Bouncy Castle.
Списки рассылки
Обсуждение Tika происходит в следующих списках рассылки:
Уведомления обо всех изменениях кода отправляются в следующий список рассылки:
Списки рассылки открыты для всех и публично архивируются.
Вы можете подписаться на списки рассылки, отправив сообщение на [LIST]-subscribe@tika.apache.org (например, user-subscribe@...). Чтобы отказаться от подписки, отправьте сообщение на [LIST]-unsubscribe@tika.apache.org. Для получения дополнительных инструкций отправьте сообщение на [LIST]-help@tika.apache.org.
Система отслеживания ошибок
TODO
Необходимо установить jce.
Если вы обнаружите другие проблемы при сборке, пожалуйста, отправьте электронное письмо на адрес dev@tika.apache.org.
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )