Spark — это унифицированный аналитический движок для масштабируемой обработки данных. Он предоставляет высокоуровневые API на Scala, Java, Python и R (устаревший), а также оптимизированную систему вычислений, поддерживающую общие графы вычислений для анализа данных. Также он поддерживает широкий набор более высоких уровней инструментов, включая Spark SQL для работы с SQL и DataFrame, pandas API на Spark для работы с pandas, MLlib для машинного обучения, GraphX для обработки графов и Structured Streaming для потоковой обработки данных.
Вы можете найти последнюю документацию Spark, включая программное руководство, на страницах проекта по адресу страница проекта. Этот файл README содержит только базовые инструкции по установке.
Spark собирается с помощью Apache Maven. Чтобы собрать Spark и его примеры программ, выполните следующую команду:```bash ./build/mvn -DskipTests clean package
(Если вы скачали предварительно скомпилированный пакет, то данная операция вам не требуется.)
Более подробная документация доступна на сайте проекта по адресу ["Сборка Spark"](https://spark.apache.org/docs/latest/building-spark.html).
Для общих советов по разработке, включая информацию о разработке Spark с использованием среды разработки, см. ["Полезные средства разработчика"](https://spark.apache.org/developer-tools.html).
## Интерактивная оболочка Scala
Наиболее простым способом начала использования Spark является использование интерактивной оболочки Scala:
```bash
./bin/spark-shell
Попробуйте следующую команду, которая должна вернуть значение 1,000,000,000:
scala> spark.range(1000 * 1000 * 1000).count()
Альтернативно, если вы предпочитаете Python, вы можете использовать интерактивную оболочку Python:
./bin/pyspark
И выполните следующую команду, которая должна вернуть значение 1,000,000,000:
>>> spark.range(1000 * 1000 * 1000).count()
Spark также включает несколько примерных программ в директории examples
.
Чтобы запустить одну из них, используйте ./bin/run-example <class> [params]
. Например:
./bin/run-example SparkPi
будет запущено примерное приложение Pi локально.Вы можете установить переменную окружения MASTER при запуске примеров для отправки
их на кластер. Это может быть spark:// URL,
"yarn" для запуска на YARN, и "local" для запуска
локально с одним потоком, или "local[N]" для запуска
локально с N потоками. Вы также можете использовать сокращённое имя класса, если класс находится в пакете examples
. Например:```bash
MASTER=spark://host:7077 ./bin/run-example SparkPi
Многие из примерных программ выводят справочную информацию использования, если параметров нет.
## Запуск тестов
Запуск тестов требует [построения Spark](#построение-spark). После того как Spark будет построен, тесты можно запустить с помощью:
```bash
./dev/run-tests
Пожалуйста, обратитесь к руководству по тому, как запускать тесты для модуля или отдельных тестов.
Также есть тест интеграции с Kubernetes, см. resource-managers/kubernetes/integration-tests/README.md
Spark использует основную библиотеку Hadoop для взаимодействия с HDFS и другими системами хранения, поддерживающими Hadoop. Поскольку протоколы изменились в разных версиях Hadoop, вы должны построить Spark против той же версии, что ваш кластер использует.
Пожалуйста, обратитесь к документации по построению в разделе "Указание версии Hadoop и включение YARN" для подробной информации о том, как построить для конкретного распределения Hadoop, включая построение для конкретных распределений Hive и Hive Thriftserver.
Пожалуйста, обратитесь к руководству по конфигурации в онлайн-документации для общего представления о том, как конфигурировать Spark.## Вклад
Пожалуйста, просмотрите руководство по вкладу в проект Apache Spark для получения информации о том, как начать вкладывать в проект.
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )