Recentemente in occasione dell'evento AWS re: Invent, il gigante dell'e-commerce ha annunciato il lancio di Amazon Redshift Machine Learning (Amazon Redshift ML). Secondo i suoi sviluppatori, con Amazon Redshift ML i data scientist possono creare, addestrare e distribuire modelli di machine learning in Amazon Redshift utilizzando SQL. Amazon Redshift è uno dei data warehouse cloud più utilizzati, in cui è possibile eseguire query e combinare exabyte di dati strutturati e semi-strutturati in un data warehouse, un database operativo e un data lake utilizzando SQL standard. Il data warehouse su cloud è noto per le sue funzionalità intuitive, come archiviazione efficiente, scalabilità, elaborazione delle query ad alte prestazioni, memorizzazione nella cache dei risultati e altro ancora.
Amazon Redshift ML è basato su Amazon SageMaker, che è un servizio ML completamente gestito. Qui è possibile utilizzare le istruzioni SQL per creare e addestrare modelli di machine learning dai dati in Amazon Redshift. I modelli possono quindi essere utilizzati per applicazioni come la previsione del tasso di abbandono e il rischio di frode, tra le altre.
Come spiegato da Alex Casalboni Sr. Developer Advocate, AWS, con il rilascio di questa applicazione, AWS ora supporterà tecniche di apprendimento supervisionato, che sono più comunemente utilizzate nelle aziende per analisi avanzate. Permetterà inoltre agli utenti di utilizzare i propri dati in Redshift senza richiedere alcuna conoscenza approfondita delle tecniche di apprendimento automatico. Amazon Redshift viene utilizzato anche per elaborare exabyte di dati ogni giorno per alimentare i carichi di lavoro di analisi. Questi possono essere utilizzati da data scientist e analisti per l'addestramento di modelli ML, pure per generare approfondimenti su nuovi dati.
I principali vantaggi dell'utilizzo di Amazon Redshift ML è che rileva automaticamente e ottimizza il modello più adatto in base ai dati di addestramento, utilizzando il pilota automatico Amazon SageMaker, che sceglie tra i migliori modelli lineari di regressione, classificazione binaria o multi-classe.
Le novità di SageMaker
Quasi tre anni dopo il suo primo lancio, la piattaforma SageMaker beneficia di un aggiornamento significativo sotto forma di nuove funzionalità, rendendo più facile per gli sviluppatori automatizzare e scalare ogni fase del processo per creare nuove funzionalità di automazione e apprendimento automatico. Man mano che l'apprendimento automatico diventa mainstream, le business unit delle organizzazioni troveranno applicazioni per l'automazione e AWS sta cercando di rendere più semplice lo sviluppo di tali applicazioni su misura per i propri clienti.
«Uno degli aspetti migliori di avere un servizio così ampiamente adottato come SageMaker è che riceviamo molti suggerimenti dai clienti che alimentano la nostra prossima serie di risultati finali» ha affermato Swami Sivasubramanian, vicepresidente AWS del machine learning. «Annunciamo una serie di strumenti per Amazon SageMaker che mirano a rendere molto più semplice per gli sviluppatori creare pipeline di machine learning end-to-end per preparare, costruire, addestrare, spiegare, ispezionare, monitorare, eseguire il debug ed eseguire modelli di machine learning personalizzati con maggiore visibilità, spiegabilità e automazione su larga scala».
Novità anche per Amazon SageMaker Data Wrangler, che secondo la società fornisce un modo per normalizzare i dati da fonti disparate in modo che i dati siano costantemente facili da usare. Data Wrangler può anche semplificare il processo di raggruppamento di origini dati disparate in funzionalità per evidenziare determinati tipi di dati e contiene più di 300 trasformatori di dati integrati, che possono aiutare i clienti a normalizzare, trasformare e combinare le funzionalità senza dover scrivere alcun codice.
Amazon ha anche presentato il Feature Store, che consente ai clienti di creare repository che semplificano l'archiviazione, l'aggiornamento, il recupero e la condivisione delle funzionalità di machine learning per la formazione e l'inferenza.
Un altro nuovo strumento è Pipelines, toolkit di automazione e gestione del flusso di lavoro. La tecnologia Pipelines è progettata per fornire funzionalità di orchestrazione e automazione non dissimili dalla programmazione tradizionale. Utilizzando le pipeline, gli sviluppatori possono definire ogni passaggio di un flusso di lavoro di machine learning end-to-end. Possibile anche rieseguire un flusso di lavoro end-to-end da SageMaker Studio, utilizzando le stesse impostazioni per ottenere lo stesso modello ogni volta, oppure scegliere nuovi dati per aggiornare i modelli.
Per affrontare i problemi di vecchia data legati alla distorsione dei dati nei modelli di intelligenza artificiale e apprendimento automatico, Amazon ha lanciato SageMaker Clarify, che fornisce il rilevamento dei pregiudizi nel flusso di lavoro di apprendimento automatico, in modo che gli sviluppatori possano ottenere una maggiore trasparenza su come sono stati impostati i modelli.
Altri prodotti progettati per semplificare il processo di sviluppo delle applicazioni di machine learning includono SageMaker Debugger, che consente agli sviluppatori di addestrare i modelli più velocemente monitorando l'utilizzo delle risorse di sistema e avvisando gli sviluppatori di potenziali colli di bottiglia; Distributed Training, che consente di addestrare modelli di deep learning ampi e complessi più rapidamente degli approcci attuali suddividendo automaticamente i dati su più GPU per accelerare i tempi di formazione; e SageMaker Edge Manager, uno strumento di gestione dei modelli di machine learning per dispositivi edge, che permette agli sviluppatori di ottimizzare, proteggere, monitorare e gestire i modelli implementati su flotte di dispositivi edge.
Ultimo ma non meno importante, Amazon ha presentato SageMaker JumpStart, che fornisce agli sviluppatori un'interfaccia ricercabile per trovare algoritmi di esempio in modo che possano iniziare il loro viaggio di apprendimento automatico velocemente La società ha affermato che darà agli sviluppatori che non conoscono l'apprendimento automatico la possibilità di selezionare diverse soluzioni di machine learning predefinite, per distribuirle in ambienti SageMaker.