Description

Nell'AperiTech di ottobre parleremo di Delta Lake, non senza aver dato un overview di Apache Spark e delle novità introdotte nell'ultima versione.

Agenda
18:30 - 18:35 - Welcome & Intro
18:35 – 19.10 - Delta Lake: un iniezione di ACIDità in Apache Spark (Andrea Picasso)
19.10 – 19.30 - Q&A e Networking finale


Delta Lake: un iniezione di ACIDità in Apache Spark

ABSTRACT: Andrea Picasso ci parlerà di architetture di datalake opensource basate sull'integrazione di Apache Spark e Delta Lake.
Negli ultimi anni si è maggiormente focalizzata l'attenzione, sia nel mondo accademico sia in quello industriale, sul concetto di datalake. I sistemi di datalake stanno diventanto una realtà sempre più importante in molte organizzazioni di dimensioni medio-grandi per il ruolo strategico di garantire un facile accesso a informazioni chiave altrimenti difficilmente reperibili. Questo interesse pratico ha guidato l'evoluzione di progetti, come Delta Lake.
Oggi Apache Spark rappresenta un consolidato standard per il Massive Parallel Processing per flussi di dato in batch, le sue performance nel processamento parallelo sono indiscusse. Delta Lake è un progetto open source proveniente dal mondo Databricks che introduce in Spark: transazioni ACID, schema evolution e concurrency control sull'accesso ai dati in formato parquet. La loro integrazione permette la realizzazione di workflow complessi su datalake in grado di gestire flussi SCD (Slow Changing Dimension) e permette a molteplici utenti di processare in maniera concorrente il dato salvato in formato parquet; inoltre, il transaction log può essere sfruttato per fare audity e time travel sul dato presente in datalake.
Grazie alle features di Delta Lake è ora possibile integrare alcuni use cases, in precedenza propri solo del mondo Data Warehouse, all'interno di infrastrutture di nuova generazione basate sul concetto di datalake.

BIO: Andrea Picasso è Senior Big Data Engineer @NTTData. Il suo background accademico è in ingegneria del software con specializzazione in Big Data architecture e Machine Learning modeling. A Singapore ha preso parte in progetti di ricerca nel mondo dell'intelligenza artificiale. Da quando è tornato in Italia, le sue attività principali sono il design e lo sviluppo di architetture Big Data per il workflow delle funzioni di ETL e di Analytics in ambito industriale ed i suoi strumenti sono i tool per il processing distribuito come Spark e Flink, la programmazione funzionale ed il linguaggio Scala.

IMP: I nostri eventi online sono aperti a tutti, e naturalmente sono gratuiti, ma la registrazione è obbligatoria


Unisciti ai nostri gruppi anche su :
XSTREAMDATA @Linkedin : bit.ly/XStreamData-Lin
XSTREAMDATA @MEetup : bit.ly/XStreamData-M
XSTREAMDATA @Telegram : t.me/XStreamData


#AperiTech è un'iniziativa di Codemotion in collaborazione con LVenture Group e LUISSEnLabs!

Telegram #AperiTech t.me/aperitech
Calendario del Developer bit.ly/devcalendar
Codemotion Tech Community bit.ly/CodemotionTC