Инсталиране на Apache искра и ipython

Инсталиране на Apache искра и ipython

Кратка бележка за това как да започнете работа с Apache Spark на Ubuntu. Тя също така включва настройки с помощта IPython pySpark.

За да сте сигурни, че всички настройки могат лесно да бъдат копирани в облака, беше решено да се инсталира всичко вътре във виртуалната машина. За да направите това, ние ще използваме за скитници и VirtualBox. В тази статия няма да навлизам в подробности за това как тя работи, и как те могат да бъдат персонализирани. Препоръчвам ви да прочетете документацията на скитник, за да научите повече за това.







Virtual Machine конфигуриране чрез скитник

Създаване на нова папка на вашия компютър, който ще бъде дом за вашия скитник файл. След като Папката е създадена отидат в него и да се инициализира виртуалната машина. В този случай, аз избрах стандартната дистрибуция Ubuntu 14.04.

Сега, за да стартирате виртуална машина, стартирайте командата:

Това ще стартира виртуална машина. За да го спре, когато искате да, можете да използвате командата:

Сега ние трябва да отидете на виртуална машина за тази употреба SSH.

Създаване на Ubuntu в виртуална машина

Задайте някои основни пакети от Ubuntu, за да се уверите, че някои Python библиотека ще работи без проблеми.

Инсталиране на Java

Spark За да работите е необходимо, който е инсталиран Java.

Инсталиране Скала (ако е необходимо)

Spark някои от опциите, все още не са на разположение за достъп и ползване от Python (например, Graphx MLLib и някои модули), така че ние ще се инсталира Scala и да може да се работи с тези функции, които го използват.







Отворете bash_profile отбора:

и се добавят следните редове:

Изтеглете и инсталирайте Apache Spark

Първо изтеглете и разархивирайте архива на Spark.

Трябва да видите нещо подобно:

Преди да продължим, и се процедира, за да изберете PySpark, Python и IPython добавим някои променливи на средата в нашата система, където сте инсталирали на Spark.

Отворете bash_profile отбора:

и добавете реда:

PySpark черупка

Сега имаме работа Spark, можем да използваме Python. В комплект с Spark отива pySpark черупка. Пусни го с помощта на:

След това ще се озовете вътре PySpark и ще бъде в състояние да използват Python за работа със Spark.

PySpark - Конфигурация IPython

Първо настройте virtualenv, което ще ни позволи да се работи във виртуална среда.

Сега ние активирате тази среда, и за в бъдеще ще можем да инсталирате Python библиотеки в рамките на нашата виртуална среда.

Допълнителна IPython настроен във виртуална среда pyEnv. За да инсталирате, използвайте следната команда.

Сега имаме IPython инсталирани в нашата виртуална среда. Следващата важна стъпка е създаването IPython така, че да работи с pySpark на ядрото, и бихме могли да започнете да използвате Spark в IPython. Ние ще направим това, като създадете профил IPython специално за Spark.

Сега, когато сте създали потребителски профил недвижими pyspark за IPython ние ще трябва да го конфигурирате. Повечето от настройките могат да бъдат направени в ipython_notebook_config.py файл. Отворете този файл (аз използвам нано за редактиране):

За да започне да се променя на следния ред:

Тъй като ние работим за виртуален сървър, ние не искаме да се отвори IPython браузър по подразбиране. За да я деактивирате, трябва да добавите следния ред:

IPython е портът по подразбиране е винаги отворена за комуникация. Решихме да използвате друг порт. Можете да промените порта, добавете следния ред:

и поставете следния скрипт в Python. След това запишете съдържанието.

За да започнете да IPython и той може да използва Spark, че трябва да се вземат достатъчно дълго отбор, така че ние ще създадем псевдоним на това в нашата .bash_profile. Отваряне на профил с командата:

и добавете следните два реда:

След като запазите и затворите, се уверете, че сте се рестартира профила на потребителя с помощта на:

Сега можем да тече IPython (с помощта на Spark кожа), като се използва новосъздадената псевдоним:

Сега на локалния ви компютър, отворете уеб браузър и отидете на Localhost: 8001. Трябва да видите IPython Notebook сървъра.