„Apache Flink“: naujos kartos duomenų srauto ir paketinių duomenų apdorojimo didelių duomenų analizės sistema



Sužinokite viską apie „Apache Flink“ ir „Flink“ klasterio nustatymą šiame tinklaraštyje. „Flink“ palaiko realaus laiko ir paketinį apdorojimą ir yra „Big Data Analytics“ būtina „Big Data“ technologija.

„Apache Flink“ yra atviro kodo platforma paskirstytam srautui ir paketiniams duomenims apdoroti. Jis gali veikti „Windows“, „Mac OS“ ir „Linux OS“. Šiame tinklaraščio įraše aptarkime, kaip vietoje nustatyti „Flink“ klasterį. Daugeliu atžvilgių jis yra panašus į „Spark“ - jis turi grafikų ir mašinų mokymosi apdorojimo API, pvz., „Apache Spark“, tačiau „Apache Flink“ ir „Apache Spark“ nėra visiškai tas pats.





Norėdami nustatyti „Flink“ grupę, sistemoje turi būti įdiegta „Java 7.x“ arba naujesnė versija. Kadangi „CentOS“ („Linux“) gale esu įdiegęs „Hadoop-2.2.0“, atsisiunčiau „Flink“ paketą, suderinamą su „Hadoop 2.x“. Paleiskite žemiau esančią komandą, kad atsisiųstumėte „Flink“ paketą.

Komanda: wget http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Command-Apache-Flink

Išimkite failą, kad gautumėte „flink“ katalogą.

Komanda: tar -xvf Downloads / flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Komanda: ls

Pridėkite „Flink“ aplinkos kintamuosius .bashrc faile.

Komanda: sudo gedit .bashrc

Turite paleisti žemiau esančią komandą, kad būtų suaktyvinti .bashrc failo pakeitimai

Komanda: šaltinis .bashrc

Dabar eikite į „flink“ katalogą ir paleiskite klasterį vietoje.

Komanda: CD nemažas-1.0.0

Komanda: bin / start-local.sh

Paleidę sankaupą, galėsite pamatyti, kaip veikia naujas „Daemon JobManager“.

Komanda: jps

Atidarykite naršyklę ir eikite į http: // localhost: 8081, kad pamatytumėte „Apache Flink“ žiniatinklio vartotojo sąsają.

Paleiskime paprastą „wordcount“ pavyzdį naudodami „Apache Flink“.

Prieš vykdydami pavyzdį įdiekite „netcat“ savo sistemoje (sudo yum install nc).

Dabar naujame terminale paleiskite žemiau esančią komandą.

Komanda: nc -lk 9000

kaip atidaryti aws cli

„Flink“ terminale vykdykite žemiau pateiktą komandą. Ši komanda paleidžia programą, kuri perduoda srautu perduotus duomenis kaip įvestį ir atlieka srautinių duomenų žodžių skaičiavimo operaciją.

Komanda: bin / flink run pavyzdžiai / streaming / SocketTextStreamWordCount.jar –hostname localhost –port 9000

Žiniatinklio vartotojo sąsajoje galėsite pamatyti darbą veikiančioje būsenoje.

Paleiskite žemiau esančią komandą naujame terminale, tai išspausdins srautu perduotus ir apdorotus duomenis.

Komanda: tail -f log / flink - * - darbo vadovas - *. out

Dabar eikite į terminalą, kuriame pradėjote „netcat“, ir įveskite kažką.

Tą akimirką, kai paspausite raktinio žodžio įvedimo mygtuką, kai įvesite kai kuriuos duomenis „Netcat“ terminale, šiems duomenims bus taikoma „wordcount“ operacija, o išvestis bus atspausdinta čia („flink's jobmanager“ žurnalas) per milisekundes!

Per labai trumpą laiką duomenys bus transliuojami, apdorojami ir spausdinami.

Apie „Apache Flink“ reikia sužinoti daug daugiau. Savo būsimame tinklaraštyje paliesime kitas „Flink“ temas.

Turite mums klausimą? Paminėkite juos komentarų skiltyje ir mes susisieksime su jumis.

Susijusios žinutės:

„Apache Falcon“: nauja „Hadoop“ ekosistemos duomenų valdymo platforma