Meeting Register Page

Meeting banner
Meetup Xstream Data : Parliamo di Delta Lake e Apache Spark
Agenda ( work in progress)
18:30 - 18:35 - Welcome & Intro
18:35 – 19.10 - Delta Lake: un iniezione di ACIDità in Apache Spark (Andrea Picasso)
19.10 – 19.30 – Q&A e Networking finale

----------------------------------------------------------------------
Delta Lake: un iniezione di ACIDità in Apache Spark

ABSTRACT: Andrea Picasso ci parlerà di architetture di datalake opensource basate sull'integrazione di Apache Spark e Delta Lake.
Negli ultimi anni si è maggiormente focalizzata l'attenzione, sia nel mondo accademico sia in quello industriale, sul concetto di datalake.
Oggi Apache Spark rappresenta un consolidato standard per il Massive Parallel Processing per flussi di dato in batch, le sue performance nel processamento parallelo sono indiscusse. Delta Lake è un progetto open source proveniente dal mondo Databricks che introduce in Spark: transazioni ACID, schema evolution e concurrency control sull'accesso ai dati in formato parquet. La loro integrazione permette la realizzazione di workflow complessi su datalake in grado di gestire flussi SCD (Slow Changing Dimension) e permette a molteplici utenti di processare in maniera concorrente il dato salvato in formato parquet; inoltre, il transaction log può essere sfruttato per fare audity e time travel sul dato presente in datalake.
Grazie alle features di Delta Lake è ora possibile integrare alcuni use cases, in precedenza propri solo del mondo Data Warehouse, all'interno di infrastrutture di nuova generazione basate sul concetto di datalake.

BIO: Andrea Picasso è Senior Big Data Engineer @NTTData. Il suo background accademico è in ingegneria del software con specializzazione in Big Data architecture e Machine Learning modeling ed ha preso parte in progetti di ricerca nel mondo dell'intelligenza artificiale. Le sue attività principali sono il design e lo sviluppo di architetture Big Data per il workflow delle funzioni di ETL e di Analytics in ambito industriale

Oct 20, 2020 06:30 PM in Rome

Loading
* Required information