Тестове - прилагане искра за
Spark - изчислителна инфраструктура с отворен код, предназначена за работа с така наречените големи данни (Big Data); става все по-популярен, особено в машинно обучение сценарии. В тази статия ще опиша как да инсталирате Spark към компютър с операционна система Windows и ще ви обясни основните функции по отношение на .NET-разработчик.
Фиг. 1. Spark в действие
предизвика черупка Скала генерира команда интерпретатор, която се извършва в корпуса и на свой ред подава бързо да въведете Скала (Скала>). Scala - е скриптов език, базиран на Java. Има и други начини за взаимодействие с искра, но използването на Scala преводач - най-често срещаният подход отчасти защото Spark инфраструктура е написано по-голямата част от Scala. Можете също да взаимодействат с искра, използвайки командите Python или създаване на програма на Java.
Обърнете внимание на някои предупреждения на фиг. 1. Тези съобщения се появяват много често при стартиране на Spark, тъй като Spark има множество допълнителни компоненти, които се генерират при липсата на предупреждение. По принцип тези съобщения могат да бъдат пренебрегнати в прости сценарии.
Първият отбор, вписани в демо сесията:
Свободното тълкуване означава "спаси README.md съдържанието на даден файл в неизменен обект RDD-Г». Scala обекти могат да бъдат обявени като Вал или Var. Обекти обявени като Вал, са неизменни.
В интерпретатор вградени контекст Spark Скала обект име подкожно, който се използва за достъп до функциите на искра. функция текстов файл зарежда съдържанието на текстов файл в структурата на Spark данни, наречени отказоустойчива разпределени набор от данни (гъвкава разпределени набор от данни, RDD). RDD са основни програмни продукти, използвани в абстракция Spark. Можете да мислите за RDD нещо подобно на .NET-комплект се съхранява в паметта и разпределени в няколко машини.
Текстов файл README.md (.md разширение показва «евтино документ» [Document Markup]) се намира в главната директория C на: \ spark_1_4_1. Ако вашата целева файл се намира някъде другаде, можете да укажете пълния път, например C: \\ \\ Data ReadMeToo.txt.
Втората команда в демо сесията:
Това означава: "Запази като неизменна RDD-обект на име сл само тези редове от F на обекта, който е на думата" Spark "». Функция филтър използва т.нар затваряне (закриване). Circuit може да се разглежда като нещо като анонимен функция. Има съединение се входен параметър низ линия и се връща истина, ако линията съдържа «Spark», или невярно друго.
Тъй като линията - име на параметър, бих могъл да използвам в закриването на всяко друго наименование, например:
брои функция връща броя на елементите в РДД - в този случай броят на редовете в README.md файл, съдържащи думата «Spark». Тези редове - 19. За да излезете от сесията Spark Скала на, въведете командата: р.
Инсталиране на Spark на вашия Windows машина
Spark Инсталационният процес на вашия Windows машина се състои от четири основни стъпки. Първо, можете да инсталирате комплекта за създаване на Java приложения (JDK) и Java Runtime Environment (JRE). Второ, езикът Scala. На трето място, инсталиране на Spark инфраструктура. И четвърто, променливи на системата са конфигурирани на хост машината.
разпределение Spark е предоставена в .tar формат компресиран, така че ще трябва помощна програма за извличане на файлове Spark. Съветвам ви да инсталирате програмата на 7-Zip, с отворен код.
JDK работи саморазархивиращ се изпълним файл, който можете да намерите и търсенето в Интернет. Използвах версия на JDK-8u60-прозорци-x64.exe.
Когато инсталирате 64-битова версия на JDK инсталационната директория по подразбиране е C: \ Program Files \ Java \ jdkx.x.x_xx \, както е показано на фиг. 2. Препоръчително е да не се променя директорията по подразбиране.
Фиг. 2. Инсталационната директория по подразбиране JDK
Когато инсталирате JDK е инсталиран и свързания с JRE. Инсталацията Java е пълна, предната директория по подразбиране ще директорията на JDK и JRE свързана указателя, както е показано на фиг. 3.
Фиг. 3. Java JDK и JRE, инсталирана в C: \ Program Files \ Java \
Имайте предвид, че имате в системата вероятно ще се появи и директория Java с един или повече каталози на 32-битова версия на JRE на в C: \ Program Files (x86). Това е нормално, когато системата има 32-битови и 64-битови версии на JRE, но аз ви съветваме да използвате само 64-битова версия на Java JDK.
Инсталиране на Scala
Следващата фаза - инсталацията на езика Scala, но първо ще трябва да отидете на уеб сайт, за да изтеглите Spark (описана в следващия раздел на тази статия), както и да определите коя версия искате да инсталирате Scala. Scala версията трябва да бъде съвместима с версия на Spark, който ще инсталирате на следващия етап.
За съжаление, информация за Scala и Spark версия съвместимост е много лошо. Когато се инсталира компоненти искрата (преди известно време), текущата версия е 1.5.0 Spark, но аз не можах да намеря информация за това какво версията Scala е съвместим с тази версия на Spark. Ето защо, аз предпочитам предишната версия на Spark (1.4.1), намерена информация по форумите за програмисти, където бе съобщено, че на Scala версия 2.10.4 вероятно съвместим с Spark 1.4.1.
Задайте Scala лесно. За да направите това, просто стартирайте инсталационния файл .msi.
Scala процес тече съветника за настройка. Любопитното е, че инсталационната директория по подразбиране за Scala се намира в директорията, в продължение на 32-битови програми - C: \ Program Files (x86) \, а не по-скоро в указателя за 64-битова - C: \ Program Files \ (фигура 4).
Фиг. 4. Скала е настроен на C: \ Program Files (x86) \ Скала \
Ако имате намерение да си сътрудничи с искра, създаване на програма на Java, а не с помощта на екипа Scala, имате нужда от повече полезност - Скала Simple Build Tool (SBT). Взаимодействие с Spark съставен чрез Java-програма е много по-трудно, отколкото на интерактивна Scala сряда.
Инсталиране на Spark
Следващата стъпка - създаване Spark инфраструктура. Но първо се уверете, че имате програма за подкрепа като 7-Zip, можете да разопаковате .tar файлов формат. Spark Инсталационният процес се извършва ръчно, което ви позволява да изтеглите компресиран папка на локалната машина, извличане компресирани файлове и да ги копирате в главната директория. Така че, ако искате да премахнете Spark, Spark след това просто изтриване на файлове.
Сайт Spark - spark.apache.org. изтегляне страница ви позволява да изберете вида и версията на пакета. Spark - изчислителна инфраструктура, което изисква наличието на разпределена файлова система (разпределена файлова система, DFS). Досега най-често срещаният на DFS, използван с Spark Инфраструктура - разпределена файлова система Hadoop (HDFS). За тестване и експерименти, като например демонстрация сесия на фиг. 1. Spark може да се инсталира в системата без да се налага DFS. В този сценарий на Spark ще използва локалната файлова система.
Ако не се разархивира .tar файлове, този процес може да изглежда малко объркващо, защото, като правило, трябва да извлечете файловете два пъти. Първо, изтеглете .tar файл (имам файл, наречен искра-1.4.1-бин-hadoop2.6.tar) във всяка временна директория (аз използвах C: \ Temp). След това щракнете с десния бутон на .tar файл, изберете извличате файлове от контекстното меню, както и извличане на съдържанието на ново място в рамките на срока.
На първото преминаване, нов разопаковането на компресиран файл, без всяко удължаване (в моя случай - с искрово 1.4.1-бин-hadoop2.6). След това щракнете с десния бутон на новия файл, отново изберете извличате файлове от контекстното меню, както и извличане на съдържанието в друга директория. След второто преминаване са инфраструктурни файлове Spark.
Създаване на директория за тези файлове. Според споразумението за дистрибуция, вие трябва да създадете директорията C: \ spark_x_x_x, където х - стойности, които се уточни версия. С помощта на тази конвенция, аз ще създаде папката C: \ spark_1_4_1 и копиране извлечените файлове (Фигура 5.).
Настройка на компютъра
След като инсталирате Java, Scala и Spark остава за конфигуриране на хост машината. Този процес включва свалянето на специален помощен файл за Windows, настройка на три променливи на обкръжението система, дефинирани от потребителя променлива Path среда задача, и (евентуално) модификация на Spark конфигурационния файл.
Искра Тичане на Windows изисква този специален помощен файл, winutils.exe, разположен в локална директория C: \ Hadoop. Можете да намерите този файл на няколко места в търсещи Интернет. Аз създадох папка C: \ Hadoop, а след това намери копие от winutils.exe public-repo-1.hortonworks.com/hdp-win-alpha/winutils.exe връзка и свалите файла в директорията си.
След това създайте и създаване на променливите на система за околната среда, дефинирани от потребителя, и промяна на околната среда променлива Path. Отворете контролния панел | система | Advanced System Settings | напреднали | Променливи на средата. В секцията Потребителски Променливи, създаване на три нови променливи със следните имена и стойности:
reduceByKey функция съчетава елементи на обект т, добавяне на стойности на цели числа, които са свързани със същите ключовете. cts.take Командата (10), ще видите 10-те думи на README.md, следвани от броя пъти, всяка дума се появява във файла. Освен това, най-вероятно ще забележите, че думите в обекта не CTS последвано непременно в някакъв определен ред.
Функцията се reduceByKey верига. Поради това, можете да използвате алтернативен съкратена нотация Скала:
По този начин, ние имаме 66 празни / нулеви думи от README.md, 21 думата «за», 14 думи «Spark» и така нататък. Г.
заключение
Изразявам своята благодарност за експертите статията преглед Microsoft Газа Икбал (Gas Iqbal) и Умеш Madani (Умеш Мадан).