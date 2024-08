Le aziende continuano a investire in progetti di gen AI, mentre il ritmo del cambiamento aumenta. Ma, nella fretta di stare al passo, alcune di esse vedono un ROI limitato. Per rimediare alla situazione, c’è una combinazione di strumenti, strategia e prospettiva che può aiutarle

Il boom dell’AI non ha fine e, ogni settimana, vediamo nuovi progressi nella tecnologia, nuovi casi d’uso e nuovi timori che l’AI travolga l’umanità o, almeno, alcuni suoi settori. Gli esperti prevedono riallineamenti radicali e l’emergere di nuove superpotenze industriali, simili a quelle che abbiamo visto durante la transizione delle dot-com. Le aziende che vedono la loro stessa sopravvivenza messa a repentaglio sono disposte a spendere qualsiasi somma di denaro per rimanere rilevanti. Altre vogliono solo stare davanti ai loro concorrenti più lenti o, semplicemente, approfittare degli aumenti di produttività e delle nuove opportunità commerciali che si prevede arriveranno come risultato dell’intelligenza artificiale generativa. Tuttavia, a prescindere dall’importanza che l’AI può avere o meno per un’impresa, non ha senso sprecare denaro. La gen AI include un rischio elevato di spendere troppo e ottenere troppo poco in cambio, quando invece le aziende possono utilizzare i loro budget per l’AI generativa in modo più strategico, consentendo di trarre maggiori benefici dagli investimenti e di anticipare i concorrenti. La chiave per arrivare più lontano e più velocemente spendendo meno denaro è essere più riflessivi e attenti ai primi passi. Secondo gli ultimi dati di McKinsey, il 65% delle imprese dichiara di utilizzare regolarmente la gen AI, una percentuale quasi doppia rispetto a 10 mesi prima, e tre quarti di esse prevedono che porterà a cambiamenti significativi o dirompenti nei loro settori nei prossimi anni.

A ciò va aggiunto che, secondo le previsioni di IDC [in inglese], nel 2024, la spesa in gen AI raddoppierà rispetto al 2023, per raggiungere i 151 miliardi di dollari nel 2027. Tuttavia, secondo un sondaggio condotto, a metà giugno, da Lucidworks su 2.500 leader aziendali, il tasso di crescita di questo capitolo di spesa si sta stabilizzando, soprattutto per via delle preoccupazioni sui costi. L’anno scorso, solo il 3% degli intervistati ha dichiarato che le spese per l’implementazione della gen AI era una preoccupazione. Quest’anno, alla stessa domanda, ha risposto il 46% degli intervistati, con un aumento di 14 volte. Un sondaggio simile condotto da Gartner a maggio ha mostrato che la stima e la dimostrazione del valore aziendale sono la principale barriera all’adozione dell’intelligenza artificiale generativa. I motivi principali per cui questi costi possono aumentare rapidamente quando un’azienda inizia a implementare l’AI su scala includono quelli dei token, le spese aggiuntive impreviste e la dispersione dell’AI più in generale. I costi dei token Un’azienda che ha avuto modo di considerare tutti questi aspetti, sia nei suoi progetti interni che per i suoi clienti, è la società di consulenza cloud DoiT. I token, cioè i gettoni che costituiscono la base della maggior parte delle strutture di prezzo della gen AI, sono una strana metrica. “Non sono un’unità di valore”, riflette Eric Moakley, responsabile della gestione dei prodotti dell’azienda. “Quindi il modo in cui si valuta una cosa e il modo in cui la si paga sono completamente diversi”.

Con i prezzi basati sui token, i clienti pagano i fornitori di AI in base alla lunghezza delle domande che pongono e alla lunghezza delle risposte che ricevono, in cambio, dall’AI. Per ottenere feedback più accurati, le aziende rendono le domande, o i prompt, più lunghi, incorporando istruzioni specifiche su come devono essere formulate le risposte, fornendo informazioni generali sull’azienda e informazioni provenienti dai database interni. Alcune risposte richiedono domande di follow-up o un fact-checking. E tutto questo si somma. Acquistare token è un po’ come giocare d’azzardo in un casinò, dice Moakley. “All’improvviso si hanno dei gettoni e bisogna pensare costantemente a collegarli al ritorno che si ottiene”, dice. Quindi, per controllare i costi operativi, DoiT è strategica negli investimenti e nelle spese di gen AI, spiega. “Li tracciamo”, sottolinea. Per esempio, uno dei migliori casi d’uso che ha trovato è stato anche uno dei più economici. Quando gli ingegneri dell’azienda attivano un server AWS e arriva la fattura, questa è scritta in un linguaggio fatto di SKU, tariffe orarie, sconti e crediti. Se c’è un’anomalia nei costi, può essere difficile capire il significato di una voce specifica. Quindi DoiT ha aggiunto una funzionalità, chiedendo a un modello di intelligenza artificiale di spiegare questi termini.

“È un caso d’uso molto ristretto”, dice Moakley. “È solo un pulsante accanto alle informazioni. Non viene richiesto, non si può regolare. E abbiamo scoperto che è molto prezioso”. Certo, si tratta di una funzionalità che la stessa AWS potrebbe fornire in futuro, ma DoiT stava comunque sperimentando la gen AI e questo era un progetto molto semplice. “È una cosa facile da fare per un LLM”, dice. “Otteniamo le informazioni giuste al momento giusto e siamo in grado di costruirle velocemente grazie all’AI. La variante generativa di quest’ultima era già stata addestrata sui dati di cui avevamo bisogno, perché stavamo lavorando anche su altre cose”.

Lo sviluppo di questa funzionalità ha richiesto solo un paio di ore di sviluppo. “Ci siamo chiesti quanto sarebbe stato difficile aggiungere le visualizzazioni che loro guardavano comunque”, aggiunge. Ma poi è arrivata la parte di governance. Chi stava facendo la richiesta? Quale servizio sta chiamando? Quanti token ci vorranno e come si tradurranno in denaro? E infine: vale la pena costruirlo, o è più facile aspettare che il fornitore aggiunga la funzionalità da solo? “Penso che il vantaggio del time to market, dal punto di vista del prodotto, spesso valga la pena”, osserva Moakley. Ma l’azienda ha anche terminato un certo numero di investimenti in gen AI, perché non c’erano gli indicatori di performance, dice. “I clienti non rispondevano, non ci dava la spinta che volevamo”.

DoiT ottimizza anche le sue interazioni LLM per controllare il numero di token. “Siamo attenti a sfrondare i dati e gli input”, spiega. “E le risposte non possono superare una certa lunghezza, d’altra parte non stiamo scrivendo un libro. Quando è possibile, inoltre, cerchiamo di essere meno aperti e più mirati. Più si può ridurre l’interattività, più il sistema risulta facile e i costi diventano fissi”. Sondare le acque Un altro modo per ridurre i costi dei token è quello di essere strategici riguardo al modello da utilizzare. Un modello più economico potrebbe comunque dare buoni risultati ed essere sufficientemente veloce. Per esempio, la società di consulenza Publicis Sapient ha, recentemente, lavorato su un progetto rivolto al cliente per Marriott Homes & Villas, una società di affitti a breve termine.

“Se vuole andare in vacanza in una casa al mare e portare i suoi cani, le fornirà un elenco di case basato su query in un back-end che è stato messo a punto sui dati della proprietà”, descrive Sheldon Monteiro, Chief Product Officer dell’azienda. Dopodiché, ha esaminato il miglioramento delle conversioni, cioè l’aumento del fatturato derivante dall’aggiunta della funzionalità di ricerca gen AI, trovando che il modello più costoso non fornisce necessariamente anche il miglior valore commerciale. “Si potrebbe ottenere una risposta migliore dal GPT 4, ma i tassi di conversione effettivi non erano molto diversi dal GPT 3.5”, ha dichiarato. “Quindi alla fine abbiamo optato per quest’ultimo”. Come DoiT, Marriott Homes and Villas ha scoperto che una query LLM controllata, incorporata nell’applicazione, funzionava meglio di un chatbot aperto.

“Abbiamo capito che le persone non vogliono avere una conversazione”, dice Monteiro. “Vogliono subito entrare nel merito, per capire come potrebbe essere la loro vacanza”. Una volta che il modello AI ha ottenuto i risultati, i visitatori sarebbero stati portati immediatamente a un’esperienza di ricerca standard, familiare a tutti coloro che hanno utilizzato i servizi online. “Non diamo mai una risposta testuale, ma solo un elenco di case con una nuova ricerca parametrizzata”, aggiunge. In questo modo non solo si elimina l’opportunità che le conversazioni con i chatbot accumulino costi di token, ma si elimina anche la possibilità per gli utenti di abusare del sistema.

Un altro modo per avere un buon controllo sui costi totali è quello di non passare direttamente dal proof of concept alla produzione, ma di fare prima un roll-out su piccola scala. “Se lo sottopone a tutta la sua base di clienti, potrebbe essere sorpreso da quanto sia diffusa l’adozione”, dice Monteiro. “Ma se lo espone prima a un piccolo numero di utenti, per esempio l’1%, e basa la sua modellazione sul modo in cui utilizzeranno effettivamente l’esperienza, può prevedere cosa accadrà quando scalerà al 100%”. La chiave è adottare un approccio disciplinato alla modellazione dei costi. “Non solo come esercizio su carta, ma con una piccola percentuale di utenti in produzione”, tiene a precisare. E, una volta scelto un modello, non è detto che il percorso sia arrivato alla sua conclusione.

“Con il ritmo di evoluzione dei modelli, la buona notizia è che il continuo miglioramento della tecnologia, farà diminuire i prezzi dei servizi”, afferma. “OpenAI e altri fornitori stanno riducendo i costi dei loro modelli più vecchi e stanno anche rendendo disponibili funzionalità notevolmente migliorate, che costano di più”. Queste nuove funzionalità sono un’altra opportunità per le aziende di decidere se creeranno un effettivo valore aziendale. Ma ci sono anche molti casi d’uso in cui un LLM più piccolo, l’apprendimento automatico tradizionale o persino una ricerca per parole chiave potrebbero essere sufficienti. “Non usi un modello linguistico di grandi dimensioni per fare qualcosa che può fare un modello linguistico di dimensioni contenute o un sistema basato su regole”, dice Monteiro. E ci sono altri vantaggi nel farlo, oltre alla riduzione dei costi.

“Se utilizziamo un piccolo modello linguistico addestrato su un particolare dominio, possiamo ottenere risposte molto rapidamente”, dichiara. “Ma una ricerca per parole chiave sarà molto più veloce che se fosse inserita in un modello linguistico”. I costi di latenza Le spese per l’utilizzo dell’AI generativa vanno oltre la determinazione del costo di un particolare prompt: va determinato anche il costo della latenza, che potrebbe non essere evidente in un proof of concept, ma una volta che un progetto è in produzione con documenti e utenti reali e inizia a scalare, le prestazioni potrebbero iniziare a soffrire. “Quando inseriamo migliaia di documenti, su uno qualsiasi degli LLM, il tempo di risposta varia da 30 a 60 secondi, perché la finestra di contesto si riempie”, racconta Swaminathan Chandrasekaran, responsabile dell’architettura delle soluzioni digitali di KPMG. “Se gli utenti dicono di non poter aspettare 60 secondi per fare la domanda successiva, aumentiamo la capacità, aggiungiamo istanze dedicate e i costi iniziano a salire”.

C’è anche un limite di throughput al minuto impostato dagli hyperscaler, che è un problema per molte grandi aziende, compresa la stessa KPMG. “Noi siamo il cliente zero”, dice. “Stiamo sperimentando la creazione di un nostro cluster Nvidia per vedere se riusciamo a risolvere il problema della latenza”, precisa. Oltre a sostituire i costosi modelli commerciali con quelli open source, o con gli small language model (SLM), KPMG sta sperimentando anche alternative all’hardware di elaborazione AI tradizionale. Per esempio, è possibile eseguire alcuni SLM su hardware di uso generale, o addirittura incorporarli in applicazioni web per la classificazione e la generazione in-memory. Prendiamo un sistema di e-commerce che ha bisogno di un’intelligenza artificiale per riassumere le recensioni dei prodotti: in questo caso non ha bisogno di utilizzare un grande modello linguistico nel cloud. “Può essere incorporato nell’applicazione di e-commerce”, indica Chandrasekaran.

Allo stesso modo, un motore di classificazione dei prodotti può classificare tutte le nuove SKU che arrivano, oppure un’applicazione sanitaria può classificare le richieste di risarcimento. “Si tratta di modelli linguistici molto specializzati”, avverte. La quantization è un’altra tecnica per ottenere migliori prestazioni da un modello linguistico, afferma, anche se comporta una minore precisione. Infine, il caching è un’altra opzione per risolvere il problema della latenza quando gli utenti fanno sempre le stesse domande. “Una difficoltà può sopraggiungere quando la domanda è formulata in modo diverso”, dice. “Ma ci sono tecniche di similarità”. La gen AI porta con sé anche tutta una serie di costi generici presenti anche prima della sua introduzione. “Ci sono quelli di archiviazione, per esempio, o per lo sviluppo e per l’esecuzione dell’applicazione”, prosegue Chandrasekaran. Per esempio, aggiunge, recentemente il suo team ha speso 7.000 dollari per configurare un’implementazione di Llama 3 su Azure, perché non era ancora disponibile su base pay-as-you-go.