Didelių duomenų apdorojimas naudojant „Apache Spark & ​​Scala“



„Apache Spark“ pasirodė kaip puiki didelių duomenų apdorojimo raida.

substringas SQL serverio pavyzdžiuose

IST: spalio 17 d., 7.00–08.00 val





PDT: 2014 m. Spalio 16 d., 18:30 - 19:30

Ribotas vietų skaičius !! Užpildykite formą dešinėje ir užsisakykite savo lizdą jau šiandien.



Sveiki visi, spalio 18 d. Vykdome nemokamą internetinį seminarą apie „Apache Spark“ ir „Scala“. Internetinio seminaro pavadinimas yra „Didelių duomenų apdorojimas naudojant„ Apache Spark “ir„ Scala “ . Šiame internetiniame seminare bus aptartos esminės „Apache Spark“ ir „Scala“ temos. Klausimus ar abejones galima išsiaiškinti sesijos metu.

Apimamos temos:

  • Kas yra „Big Data“?
  • Kas yra kibirkštis?
  • Kodėl „Spark“?
  • Kibirkščių ekosistema
  • Pastaba apie „Scala“
  • Kodėl „Scala“?
  • Sveikas kibirkštis - rankos

Kodėl „Spark“?

„Apache Spark“ yra atvirojo kodo klasterių skaičiavimo sistema, skirta „Hadoop“ bendruomenės klasteriams. Savo neprilygstamu greičiu, paprastu naudojimu ir sudėtinga analitika jis gali būti vienas geriausių didelio masto duomenų analizės ir apdorojimo variklių. Toliau pateikiami pranašumai ir ypatybės, dėl kurių „Apache Spark“ tampa kryžminiu rezultatu tiek operatyvinėje, tiek tiriamojoje analizėje:

  • „Spark“ sukurtos programos veikia 100 kartų greičiau nei sukurtos „Hadoop MapReduce“.
  • „Spark“ surenka 80 aukšto lygio operatorių.
  • „Spark Streaming“ leidžia realiu laiku apdoroti duomenis.
  • „GraphX“ yra grafinių skaičiavimų biblioteka.
  • MLib yra „Spark“ mašininio mokymosi biblioteka.
  • Pirmiausia „Scala“ rašoma, „Spark“ galima įterpti į bet kurią JVM pagrįstą operacinę sistemą, taip pat ją galima naudoti REPL (skaityti, vertinti, apdoroti ir įkelti) būdu.
  • Jis turi galingas talpyklas ir disko patvarumą.
  • „Spark SQL“ leidžia jai kvalifikuotai tvarkyti SQL užklausas
  • „Apache Spark“ galima įdiegti per „Apache Mesos“, „Verpalai HDFS“, „HBase“, „Cassandra“ arba „Spark Cluster Manager“ („Spark“ savo klasterių tvarkyklė).
  • „Spark“ imituoja „Scala“ funkcinį stilių ir kolekcijų API, o tai yra didelis privalumas „Scala“ ir „Java“ kūrėjams.

„Apache Spark“ poreikis:

„Spark“ teikia didžiulę naudą pramonei, kalbant apie spartą, įvairias užduotis, kurias ji gali atlikti, lankstumą, kokybiškų duomenų analizę, ekonomiškumą ir kt., Kurie yra dienos poreikiai. Jis teikia aukščiausios klasės realiuoju laiku atliekamus didžiųjų duomenų analizės sprendimus IT pramonei, tenkindamas didėjančią klientų paklausą. Realaus laiko analizė naudoja verslo galimybes. Dėl suderinamumo su „Hadoop“ įmonėms labai lengva greitai jį pritaikyti. Labai reikalingi „Spark“ išmokę ekspertai ir kūrėjai, nes tai yra gana nauja technologija, kuri vis dažniau naudojama.