Ciao, amici, benvenuti alla newsletter AI regolare di TechCrunch. Se desideri riceverla nella tua casella di posta ogni mercoledì, iscriviti qui.
Dici quel che vuoi sull'IA generativa. Ma sta subendo una processo di commoditizzazione — o, almeno, sembra così.
All'inizio di agosto, sia Google che OpenAI hanno drasticamente ridotto i prezzi dei loro modelli di generazione di testo più economici. Google ha ridotto il prezzo di input per Gemini 1.5 Flash (il costo di elaborazione del testo da parte del modello) del 78% e il prezzo di output (il costo per generare il testo del modello) del 71%. OpenAI, nel frattempo, ha ridotto il prezzo di input per GPT-4o della metà e il prezzo di output di un terzo.
Secondo una stima, il costo medio dell'inferenza — il costo per eseguire un modello, fondamentalmente — sta diminuendo a un tasso del 86% annuo. Cosa sta guidando questo?
Per un verso, non c'è molto per distinguere i vari modelli di punta in termini di capacità.
Andy Thurai, analista principale presso Constellation Research, mi ha detto: "Ci aspettiamo che la pressione sui prezzi continui con tutti i modelli AI se non c'è un differenziatore unico. Se il consumo non è presente, o se la concorrenza sta guadagnando slancio, tutti questi fornitori devono essere aggressivi con i loro prezzi per mantenere i clienti".
John Lovelock, VP analista presso Gartner, concorda sul fatto che la commoditizzazione e la concorrenza sono responsabili della recente pressione al ribasso sui prezzi dei modelli. Egli osserva che i modelli sono stati prezzati su base di costo più un margine sin dalla nascita — in altre parole, prezzati per recuperare i milioni di dollari spesi per addestrarli (il GPT-4 di OpenAI avrebbe costato $78.4 milioni) e i costi dei server per farli girare (in un certo momento, il ChatGPT di OpenAI costava ~$700,000 al giorno). Ma ora i data center hanno raggiunto una dimensione — e una scala — per supportare gli sconti.
I fornitori, inclusi Google, Anthropic e OpenAI, hanno adottato tecniche come la memorizzazione e il raggruppamento dei comandi per ottenere risparmi aggiuntivi. La memorizzazione dei comandi consente agli sviluppatori di memorizzare specifici "contesti dei comandi" che possono essere riutilizzati tra le chiamate API a un modello, mentre il raggruppamento elabora i gruppi asincroni di richieste di inferenza del modello a bassa priorità (e di conseguenza più economiche).
Grandi rilasci di modelli aperti come il Llama 3 di Meta potrebbero avere un impatto sui prezzi dei fornitori, troppo. Mentre i più grandi e capaci di questi modelli non sono esattamente economici da far girare, possono essere competitivi con le offerte dei fornitori, in termini di costo, quando gestiti su infrastrutture interne di un'azienda.
La domanda è se i cali dei prezzi siano sostenibili.
I fornitori di IA generativa stanno bruciando denaro — velocemente. Si dice che OpenAI rischia di perdere $5 miliardi quest'anno, mentre il rivale Anthropic prevede che sarà in rosso di oltre $2.7 miliardi entro il 2025.
Lovelock ritiene che i costi elevati di capitale e operativi potrebbero costringere i fornitori ad adottare strutture di prezzo completamente nuove.
"Con stime di costo nell'ordine dei centinaia di milioni di dollari per creare la prossima generazione di modelli, a cosa porterà il prezzaggio più il costo per il consumatore?" ha chiesto.
Lo scopriremo presto.
Notizie
Musk sostiene il SB 1047: X, Elon Musk, CEO di Tesla e SpaceX, ha espresso il suo sostegno al SB 1047 della California, una legge che richiede ai produttori di modelli di IA molto grandi di creare e documentare salvaguardie contro quei modelli che causano danni gravi.
Gli Overviews dell'IA parlano un povero hindi: Ivan scrive che gli Overviews dell'IA di Google, che forniscono risposte generate dall'IA in risposta a determinate query di ricerca, commettono molti errori in hindi — come suggerire "cose appiccicose" come qualcosa da mangiare durante l'estate.
OpenAI sostiene il watermarking dell'IA: OpenAI, Adobe e Microsoft hanno dichiarato il loro sostegno a un disegno di legge della California che obbliga le aziende tecnologiche a etichettare i contenuti generati dall'IA. Il disegno di legge è in procinto di essere votato definitivamente in agosto, Max riporta.
Inflection aggiunge limiti a Pi: Inflection, una startup di IA, i cui fondatori e la maggior parte del suo personale sono stati assunti da Microsoft cinque mesi fa, prevede di limitare l'accesso gratuito al suo chatbot Pi man mano che l'attenzione dell'azienda si sposta verso prodotti aziendali.
Stephen Wolfram sull'IA: Ron Miller ha intervistato Stephen Wolfram, il fondatore di Wolfram Alpha, che ha detto di vedere la filosofia entrare in una nuova "età dell'oro" a causa dell'influenza crescente dell'IA e di tutte le domande che essa solleva.
Waymo guida i bambini: Waymo, la sussidiaria di Alphabet, sta prendendo in considerazione un programma di abbonamento che permetterebbe ai ragazzi di chiamare uno dei suoi veicoli da soli e inviare notifiche di prelievo e rilascio ai genitori di quei ragazzi.
I lavoratori di DeepMind protestano: Alcuni lavoratori di DeepMind, la divisione di Ricerca e Sviluppo di IA di Google, non sono soddisfatti dei presunti contratti di difesa di Google — e si dice abbiano circolato una lettera internamente per indicarlo.
Startup di IA alimentano gli acquisti di SVP: I VC stanno sempre più acquistando azioni di startup in fase avanzata sul mercato secondario, spesso sotto forma di strumenti finanziari chiamati veicoli a scopo speciale (SVP), mentre cercano di ottenere quote delle aziende di IA più calde, scrive Rebecca.
Documento di ricerca della settimana
Come abbiamo già scritto, molti benchmark di IA non ci dicono molto. Sono troppo semplici — o esoterici. O ci sono errori evidenti in essi.
Mirando a sviluppare valutazioni migliori per i modelli visione-linguaggio (VLM) specificatamente (cioè, modelli che possono comprendere sia le foto che il testo), i ricercatori dell'Istituto Allen per l'IA (AI2) e altrove hanno recentemente rilasciato una piattaforma di valutazione chiamata WildVision.
WildVision consiste in una piattaforma di valutazione che ospita circa 20 modelli, tra cui il Gemini Pro Vision di Google e il GPT-4o di OpenAI, e una classifica che riflette le preferenze delle persone in chat con i modelli.
Nel sviluppare WildVision, i ricercatori dell'AI2 dicono di aver scoperto che anche i migliori VLM halluttinavano e avevano difficoltà con gli indizi contestuali e il ragionamento spaziale. "La nostra analisi completa...indica le direzioni future per il progresso dei VLM", hanno scritto in un documento che accompagna il rilascio della suite di test.
Modello della settimana
Non è un modello di per sé, ma questa settimana, Anthropic ha lanciato la sua funzionalità Artifacts per tutti gli utenti, che trasforma le conversazioni con i modelli Claude dell'azienda in app, grafici, dashboard, siti web e altro.
Lanciato in anteprima a giugno, Artifacts — ora disponibile gratuitamente sul web e sulle app Claude di Anthropic per iOS e Android — fornisce una finestra dedicata che mostra le creazioni fatte con Claude. Gli utenti possono pubblicare e remixare gli artefatti con la comunità più ampia, mentre gli abbonati al piano Team di Anthropic possono condividere gli artefatti in ambienti più protetti.
Ecco come Michael Gerstenhaber, responsabile del prodotto di Anthropic, ha descritto Artifacts a TechCrunch in un'intervista: "Gli artefatti sono l'output del modello che mette i contenuti generati da parte e ti permette, come utente, di iterare su quel contenuto. Diciamo che vuoi generare codice — l'artefatto verrà messo nell'interfaccia utente, e poi puoi parlare con Claude e iterare sul documento per migliorarlo in modo da poter eseguire il codice."
Merita di nota che Poe, l'aggregatore di modelli di IA basato su abbonamento di Quora, inclusi Claude, ha una funzionalità simile ad Artifacts chiamata Previews. Ma a differenza di Artifacts, Previews non è gratuito — richiede il pagamento di $20 al mese per il piano premium di Poe.
Assortimento
OpenAI potrebbe avere una Sorpresa nella manica.
Questo secondo The Information, che riporta che l'azienda sta cercando di rilasciare un nuovo prodotto di IA in grado di risolvere problemi meglio dei suoi modelli esistenti. La Sorpresa — precedentemente chiamata Q*, di cui il sottoscritto ha scritto l'anno scorso — si dice che sia in grado di risolvere problemi complessi di matematica e programmazione che non ha mai visto prima, così come enigmi di parole come Connections del The New York Times.
Il lato negativo è che ci vuole più tempo per "pensare". Non è chiaro quanto tempo in più rispetto al miglior modello di OpenAI oggi, il GPT-4o.
OpenAI spera di lanciare qualche forma di modello con Sorpresa questa autunno, potenzialmente sulla sua piattaforma di chatbot alimentata da AI, ChatGPT. Si dice che l'azienda stia utilizzando la Sorpresa per generare dati sintetici per addestrare modelli, incluso il suo prossimo grande modello chiamato Orion.
Le aspettative per la Sorpresa sono molto alte nei circoli degli appassionati di IA. OpenAI riuscirà a soddisfarle? È difficile dirlo — ma spero in un miglioramento nelle capacità ortografiche di ChatGPT, almeno."