1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/mirrors-spark-project

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Это зеркальный репозиторий, синхронизируется ежедневно с исходного репозитория.
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

Apache Spark

Spark — это унифицированный аналитический движок для масштабируемой обработки данных. Он предоставляет высокоуровневые API на Scala, Java, Python и R (устаревший), а также оптимизированную систему вычислений, поддерживающую общие графы вычислений для анализа данных. Также он поддерживает широкий набор более высоких уровней инструментов, включая Spark SQL для работы с SQL и DataFrame, pandas API на Spark для работы с pandas, MLlib для машинного обучения, GraphX для обработки графов и Structured Streaming для потоковой обработки данных.

GitHub Actions Build Покрытие PySpark Скачивание PyPI

Онлайн-документация

Вы можете найти последнюю документацию Spark, включая программное руководство, на страницах проекта по адресу страница проекта. Этот файл README содержит только базовые инструкции по установке.

Сборка Spark

Spark собирается с помощью Apache Maven. Чтобы собрать Spark и его примеры программ, выполните следующую команду:```bash ./build/mvn -DskipTests clean package


(Если вы скачали предварительно скомпилированный пакет, то данная операция вам не требуется.)

Более подробная документация доступна на сайте проекта по адресу ["Сборка Spark"](https://spark.apache.org/docs/latest/building-spark.html).

Для общих советов по разработке, включая информацию о разработке Spark с использованием среды разработки, см. ["Полезные средства разработчика"](https://spark.apache.org/developer-tools.html).

## Интерактивная оболочка Scala

Наиболее простым способом начала использования Spark является использование интерактивной оболочки Scala:

```bash
./bin/spark-shell

Попробуйте следующую команду, которая должна вернуть значение 1,000,000,000:

scala> spark.range(1000 * 1000 * 1000).count()

Интерактивная оболочка Python

Альтернативно, если вы предпочитаете Python, вы можете использовать интерактивную оболочку Python:

./bin/pyspark

И выполните следующую команду, которая должна вернуть значение 1,000,000,000:

>>> spark.range(1000 * 1000 * 1000).count()

Примерные программы

Spark также включает несколько примерных программ в директории examples. Чтобы запустить одну из них, используйте ./bin/run-example <class> [params]. Например:

./bin/run-example SparkPi

будет запущено примерное приложение Pi локально.Вы можете установить переменную окружения MASTER при запуске примеров для отправки их на кластер. Это может быть spark:// URL, "yarn" для запуска на YARN, и "local" для запуска локально с одним потоком, или "local[N]" для запуска локально с N потоками. Вы также можете использовать сокращённое имя класса, если класс находится в пакете examples. Например:```bash MASTER=spark://host:7077 ./bin/run-example SparkPi


Многие из примерных программ выводят справочную информацию использования, если параметров нет.

## Запуск тестов

Запуск тестов требует [построения Spark](#построение-spark). После того как Spark будет построен, тесты можно запустить с помощью:

```bash
./dev/run-tests

Пожалуйста, обратитесь к руководству по тому, как запускать тесты для модуля или отдельных тестов.

Также есть тест интеграции с Kubernetes, см. resource-managers/kubernetes/integration-tests/README.md

Примечание о версиях Hadoop

Spark использует основную библиотеку Hadoop для взаимодействия с HDFS и другими системами хранения, поддерживающими Hadoop. Поскольку протоколы изменились в разных версиях Hadoop, вы должны построить Spark против той же версии, что ваш кластер использует.

Пожалуйста, обратитесь к документации по построению в разделе "Указание версии Hadoop и включение YARN" для подробной информации о том, как построить для конкретного распределения Hadoop, включая построение для конкретных распределений Hive и Hive Thriftserver.

Конфигурация

Пожалуйста, обратитесь к руководству по конфигурации в онлайн-документации для общего представления о том, как конфигурировать Spark.## Вклад

Пожалуйста, просмотрите руководство по вкладу в проект Apache Spark для получения информации о том, как начать вкладывать в проект.

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

Apache Spark — это разновидность открытой кластерной вычислительной среды, похожей на Hadoop, но между ними есть несколько отличий, которые делают Spark более предпочтительным в некоторых рабочих нагрузках, другими словами... Развернуть Свернуть
Apache-2.0
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://gitlife.ru/oschina-mirror/mirrors-spark-project.git
git@gitlife.ru:oschina-mirror/mirrors-spark-project.git
oschina-mirror
mirrors-spark-project
mirrors-spark-project
master