Apache Spark

Spark — это унифицированный аналитический движок для масштабируемой обработки данных. Он предоставляет высокоуровневые API на Scala, Java, Python и R (устаревший), а также оптимизированную систему вычислений, поддерживающую общие графы вычислений для анализа данных. Также он поддерживает широкий набор более высоких уровней инструментов, включая Spark SQL для работы с SQL и DataFrame, pandas API на Spark для работы с pandas, MLlib для машинного обучения, GraphX для обработки графов и Structured Streaming для потоковой обработки данных.

Официальная версия: https://spark.apache.org/
Версия разработки: https://apache.github.io/spark/

Онлайн-документация

Вы можете найти последнюю документацию Spark, включая программное руководство, на страницах проекта по адресу страница проекта. Этот файл README содержит только базовые инструкции по установке.

Сборка Spark

Spark собирается с помощью Apache Maven. Чтобы собрать Spark и его примеры программ, выполните следующую команду:```bash ./build/mvn -DskipTests clean package


(Если вы скачали предварительно скомпилированный пакет, то данная операция вам не требуется.)

Более подробная документация доступна на сайте проекта по адресу ["Сборка Spark"](https://spark.apache.org/docs/latest/building-spark.html).

Для общих советов по разработке, включая информацию о разработке Spark с использованием среды разработки, см. ["Полезные средства разработчика"](https://spark.apache.org/developer-tools.html).

## Интерактивная оболочка Scala

Наиболее простым способом начала использования Spark является использование интерактивной оболочки Scala:

```bash
./bin/spark-shell

Попробуйте следующую команду, которая должна вернуть значение 1,000,000,000:

scala> spark.range(1000 * 1000 * 1000).count()

Интерактивная оболочка Python

Альтернативно, если вы предпочитаете Python, вы можете использовать интерактивную оболочку Python:

./bin/pyspark

И выполните следующую команду, которая должна вернуть значение 1,000,000,000:

>>> spark.range(1000 * 1000 * 1000).count()

Примерные программы

Spark также включает несколько примерных программ в директории examples. Чтобы запустить одну из них, используйте ./bin/run-example <class> [params]. Например:

./bin/run-example SparkPi

будет запущено примерное приложение Pi локально.Вы можете установить переменную окружения MASTER при запуске примеров для отправки их на кластер. Это может быть spark:// URL, "yarn" для запуска на YARN, и "local" для запуска локально с одним потоком, или "local[N]" для запуска локально с N потоками. Вы также можете использовать сокращённое имя класса, если класс находится в пакете examples. Например:```bash MASTER=spark://host:7077 ./bin/run-example SparkPi


Многие из примерных программ выводят справочную информацию использования, если параметров нет.

## Запуск тестов

Запуск тестов требует [построения Spark](#построение-spark). После того как Spark будет построен, тесты можно запустить с помощью:

```bash
./dev/run-tests

Пожалуйста, обратитесь к руководству по тому, как запускать тесты для модуля или отдельных тестов.

Также есть тест интеграции с Kubernetes, см. resource-managers/kubernetes/integration-tests/README.md

Примечание о версиях Hadoop

Spark использует основную библиотеку Hadoop для взаимодействия с HDFS и другими системами хранения, поддерживающими Hadoop. Поскольку протоколы изменились в разных версиях Hadoop, вы должны построить Spark против той же версии, что ваш кластер использует.

Пожалуйста, обратитесь к документации по построению в разделе "Указание версии Hadoop и включение YARN" для подробной информации о том, как построить для конкретного распределения Hadoop, включая построение для конкретных распределений Hive и Hive Thriftserver.

Конфигурация

Пожалуйста, обратитесь к руководству по конфигурации в онлайн-документации для общего представления о том, как конфигурировать Spark.## Вклад

Пожалуйста, просмотрите руководство по вкладу в проект Apache Spark для получения информации о том, как начать вкладывать в проект.

OSCHINA-MIRROR/mirrors-spark-project

Apache Spark

Онлайн-документация

Сборка Spark

Интерактивная оболочка Python

Примерные программы

Примечание о версиях Hadoop

Конфигурация

Комментарии ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/mirrors-spark-project .gitee-modal { min-width: 500px !important; } .gitee-modal .close { right: 0.6rem !important; }

Apache Spark

Онлайн-документация

Сборка Spark

Интерактивная оболочка Python

Примерные программы

Примечание о версиях Hadoop

Конфигурация

Комментарии ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/mirrors-spark-project