Presentation is loading. Please wait.

Presentation is loading. Please wait.

integracija velike količine podataka u HADOOP ekosustav

Similar presentations


Presentation on theme: "integracija velike količine podataka u HADOOP ekosustav"— Presentation transcript:

1 integracija velike količine podataka u HADOOP ekosustav
Big data tehnologije integracija velike količine podataka u HADOOP ekosustav Ivan Osman & Aleksandar Tunjić Multicom d.o.o.

2 Projekt e-škole i CARNet
„e-Škole: Uspostava sustava razvoja digitalno zrelih škola (pilot-projekt)“ Projekti: Nabava HW opreme i SW za izgradnju moderne infrastrukture jezera podataka Uvođenje sustava analitike učenja i rudarenja obrazovnih podataka Ciljevi: Prikupljanje podataka za analitiku rada učenika i nastavnika Kontinuirano informiranje o kvaliteti obrazovnog procesa Jednake mogućnosti za sve učenike Analiza provođenja strategije obrazovanja u RH

3 Koji su izvori? e-Matica
Nacionalni portal za učenje na daljinu "Nikola Tesla" upitnik.carnet.hr

4 Što je u podlozi? Analitički sustav: Oracle Database Appliance X6-2 HA
2 noda po 2 x 10-core CPU i 256 GB RAM Jezero podataka: Oracle Big Data Appliance X6-2 starter rack 6 nodova po 2 x 22-core CPU i 256 GB RAM

5 Data driven decision making
Data Swamp No descriptive metadata No mechanism to maintain it Hard to provide access DW Off-loading No raw data No added value Data Puddle Low variety of data Low adoption Data Lake Data swamp – no metadata, garbage in / garbage out, nezna se koji podaci su povjerljivi, teško onda dati pristup DW Off-loading – nasljeđuju se svi procesi, teška arhiktetura, ETL, governence, za Data Science fali raw data Data puddle – small limited single use hadoop cluster, no variety of data and low adoption, no data driven decisions, small group of users, sandbox

6 Successful data lake implementation
Right platform: Volume (Massively scalable) Variety (Schema on read) Future proof (modular) Platform cost Hadoop volume – inexpencive storage, process at scale Variety – schema on read - store anything / no careful data modeling untill you’re ready Futureproof - Put it into hadoop – you can use pigscript, hive, spark, custom map reduce / modular architecture Cost – extremely atractive cost structure

7 Successful data lake implementation
Right data raw data frictionless ingestion as much data as possible Today most data in enterprises is lost We wanna save as much as possible, raw data, to be treated for data science Data is power, create usefull datasets in the future Frictionless ingestion – daj mi podatke, kakve imaš – bez ikakvih promjena / no ETL

8 Successful data lake implementation
Right interface data self-service data at the right level of expertise Data for the right level of expertise Business analyst + raw data = challange, can’t write code to treat it and process it Data Scientist + cooked data = limited possibilities => Organise the lake => set up self service ( bez cekanja, bez it ticketa za pristup podacima )=> open the lake to the users

9 Funkcionalni Data Lake? - ISASA
Ingest Store Analyze Surface Act Ingest – ability to collect all the data you care about trough api-s or batch processes (REST, Kafka, Sqoop) Store – getting all the data in one place, breaking down silos / scalable storage / multiprotocol access Analyse – matching correct data points, having correct systems and tallent Surface – displaying the analysis (HUE, HIVE, R Studio) so it can be understood, see the results of the analysis and take action Act – fit it into operating business model

10 CARNet Data Lake Ingest and store Structured data Semi structured data
Unstructured data Ingest - 11 različitih izvora – Internet promet, ocjene, opaske, datumi ispita, zadaća, sadržaj zadaća, izostanci, upisi u srednje škole, komunikacija sa učiteljima Store – HDFS, distribuirano, one place, no silos / access trough pigscript, hive, spark, impala, custom map reduce

11 CARNet Data Lake Analyse HUE, HIVE, IMPALA R Spark
Analitika učenika, uspješnosti profesora, digitalna zrelost / korištenje digitalnih mogučnosti Analitika kurikuluma Korelacije bihevioralnih varijabli učenika s obzirom na uspjeh – znamo zašto su učenici uspješni ili neuspješni Prediktivna analitika – predvidjeti uspjeh, predvidjeti buduće ponašanje

12 CARNet Data Lake Surface HIVE OBIEE Learning Analytics app
Data Scientist => HIVE, Impala, Spark, R Studio Business analyst => OBIEE, HIVE Ravnatelj, pedagog, gradonačelnik, županija => Learning Analytics app

13 CARNet Data Lake Act – Learning analytics descriptive diagnostic
predictive prescriptive Konvergentna točka hrvatskog školstva Učenici, profesori i stručno osoblje dobivaju valjani feedback Pogled u budućnost: Kurikulum se može brzo usmjeravati, kvote za škole se mogu pravovaljano definirati, učenici usmjeriti

14 Portal za korisnike Prediktivna analitika ciljeva

15 Informiranje korisnika

16 Tko su korisnici? Pilot projekt: 150 škola 69.000 učenika
roditelja 6.800 nastavnika, razrednika, ravnatelja Cijela RH: 1.300 škola učenika roditelja nastavnika, razrednika, ravnatelja

17 Hvala! Kontakt: ivan.osman@multicom.hr
Projekt je sufinancirala Europska unija iz europskih strukturnih i investicijskih fondova.


Download ppt "integracija velike količine podataka u HADOOP ekosustav"

Similar presentations


Ads by Google