Lo scorso anno i fondatori di Reworkd sono diventati virali su GitHub con AgentGPT, un tool gratuito per costruire agenti AI che ha acquisito più di 100.000 utenti al giorno in una settimana. Questo li ha guadagnati un posto nella coorte estiva del 2023 di Y Combinator, ma i co-fondatori si sono rapidamente resi conto che costruire agenti AI generali era troppo ampio. Così ora Reworkd è una società di web scraping, che costruisce specificamente agenti AI per estrarre dati strutturati dal web pubblico.
AgentGPT forniva un'interfaccia semplice in un browser dove gli utenti potevano creare agenti AI autonomi. Presto, tutti erano entusiasti di come gli agenti fossero il futuro dell'informatica.
Quando lo strumento ha decollato, Asim Shrestha, Adam Watkins e Srijan Subedi erano ancora vivendo in Canada e Reworkd non esisteva. L'enorme afflusso di utenti li ha colti di sorpresa; Subedi, ora COO di Reworkd, ha detto che lo strumento stava loro costando $2.000 al giorno in chiamate API. Per questo motivo, hanno dovuto creare Reworkd e ottenere finanziamenti in fretta. Uno dei casi d'uso più popolari per AgentGPT era la creazione di web scraper, un compito relativamente semplice ma ad alto volume, quindi Reworkd ha fatto di questo il suo focus unico.
I web scraper sono diventati indispensabili nell'era dell'AI. Il motivo principale per cui le organizzazioni utilizzano i dati pubblici sul web nel 2024 è per costruire modelli AI, secondo l'ultimo rapporto di Bright Data. Il problema è che i web scraper sono tradizionalmente costruiti dagli esseri umani e devono essere personalizzati per pagine web specifiche, rendendoli costosi. Ma gli agenti AI di Reworkd possono raschiare più del web con meno umani coinvolti.
I clienti possono fornire a Reworkd un elenco di centinaia, o addirittura migliaia, di siti web da raschiare e quindi specificare i tipi di dati che li interessano. Poi gli agenti AI di Reworkd utilizzano la generazione di codice multimodale per trasformare ciò in dati strutturati. Gli agenti generano codice unico per raschiare ciascun sito web ed estrarre quei dati per i clienti da utilizzare a loro piacimento.
Per esempio, diciamo che vuoi statistiche su ogni giocatore della NFL, ma ogni sito web di squadra ha un layout diverso. Invece di costruire un scraper per ogni sito web, gli agenti di Reworkd lo fanno per te dati solo link e una descrizione dei dati che desideri estrarre. Con 32 squadre, potresti risparmiare ore, ma se ci fossero 1.000 squadre, potresti risparmiare settimane.
Reworkd ha raccolto nuovi 2,75 milioni di dollari in finanziamenti seed da Paul Graham, AI Grant (acceleratore di startup di Nat Friedman e Daniel Gross), SV Angel, General Catalyst e Panache Ventures, tra gli altri, lo startup ha esclusivamente detto a TechCrunch. Combinato con un investimento pre-seed di 1,25 milioni di dollari lo scorso anno da Panache Ventures e Y Combinator, questo porta il totale dei finanziamenti raccolti da Reworkd fino ad oggi a $4 milioni.
AI che può utilizzare Internet
Poco dopo la formazione di Reworkd e il trasferimento a San Francisco, il team ha assunto Rohan Pandey come ingegnere di ricerca fondatore. Al momento vive in AGI House SF, una delle case per hacker più popolari della Bay Area per l'era dell'AI. Un investitore ha descritto Pandey come un "laboratorio di ricerca a persona singola all'interno di Reworkd".
"Ci vediamo come la conclusione di questo sogno di 30 anni del Web semantico," ha detto Pandey in un'intervista a TechCrunch, facendo riferimento a una visione del creatore del web Tim Berners-Lee in cui i computer possono leggere l'intero Internet. "Anche se alcuni siti web non hanno un markup, gli LLMs possono capire i siti web nello stesso modo in cui gli esseri umani possono, in modo tale che possiamo esporre praticamente qualsiasi sito web come un'API. Quindi, in un certo senso, Reworkd è come lo strato API universale per Internet".
Reworkd dice di essere in grado di catturare la coda lunga dei bisogni dei dati dei clienti, il che significa che i suoi agenti AI sono particolarmente adatti per raschiare migliaia di siti web pubblici più piccoli che i grandi concorrenti spesso trascurano. Altri, come Bright Data, hanno scraper per grandi siti web come LinkedIn o Amazon già costruiti, ma potrebbe non valere la pena per un umano costruire un scraper per ogni sito web piccolo. Reworkd affronta questa preoccupazione, ma potenzialmente solleva altri.
Cosa si intende per dati web "pubblici"?
Anche se i web scraper esistono da decenni, hanno attirato polemiche nell'era dell'AI. Lo scraping senza limiti di enormi porzioni di dati ha causato problemi legali ad OpenAI e Perplexity: le organizzazioni di notizie e media accusano le aziende di AI di estrarre la proprietà intellettuale daetro un paywall, riproducendola ampiamente senza pagare. Reworkd sta prendendo precauzioni per evitare questi problemi.
"Lo vediamo come un'opportunità per aumentare l'accessibilità delle informazioni pubblicamente disponibili," ha detto Shrestha, co-fondatore e CEO di Reworkd, in un'intervista con TechCrunch. "Stiamo consentendo solo informazioni che sono pubblicamente disponibili; non stiamo superando le pareti di accesso o cose del genere".
Per andare oltre, Reworkd dice di evitare lo scraping delle notizie del tutto, e di essere selettivi su chi lavorano. Watkins, CTO dell'azienda, dice che ci sono migliori strumenti per aggregare contenuti informativi altrove, e non è il loro focus.
Ad esempio di ciò che è, Reworkd ha descritto il loro lavoro con Axis, una società che aiuta i team di politica a conformarsi alle normative governative. Axis utilizza l'AI di Reworkd per estrarre dati da migliaia di documenti di normative governative per molti paesi dell'Unione Europea. Axis quindi addestra e ottimizza un modello AI basato su questi dati e lo offre ai clienti come prodotto.
Iniziare un'azienda di web scraping in questi giorni potrebbe essere considerato entrare in un territorio pericoloso, secondo Aaron Fiske, socio dello studio legale di Silicon Valley Gunderson Dettmer. Attualmente il panorama è un po' fluido e la sentenza sulla reale disponibilità dei dati web "pubblici" per i modelli AI deve ancora essere emessa. Tuttavia, Fiske dice che l'approccio di Reworkd, dove i clienti decidono quali siti web raschiare, potrebbe isolare l'azienda da responsabilità legali.
"È come se avessero inventato la fotocopiatrice, e c'era questo un caso d'uso per fare copie che si è rivelato economicamente molto valido, ma anche legalmente, davvero problematico," ha detto Fiske in un'intervista con TechCrunch. "Non è che i web scraper che servono le aziende di AI siano necessariamente rischiosi, ma lavorare con aziende di AI che sono davvero interessate a raccogliere contenuti con copyright è forse un problema".
Ecco perché Reworkd è attenta a chi lavora. I web scraper hanno oscurato gran parte della colpa nei potenziali casi di violazione del copyright legati all'AI finora. Nel caso di OpenAI, Fiske fa notare che il New York Times non ha citato in giudizio il web scraper che ha raccolto i suoi articoli, ma piuttosto l'azienda che avrebbe riprodotto il suo lavoro. Ma anche lì, deve ancora essere deciso se ciò che ha fatto OpenAI sia effettivamente una violazione del copyright.
Ci sono più prove che dimostrano che i web scraper sono legalmente al sicuro durante il boom dell'AI. Un tribunale ha recentemente dato ragione a Bright Data dopo che ha raschiato i profili Facebook e Instagram attraverso il web. Un esempio nel caso giudiziario era un dataset di 615 milioni di record di dati utente di Instagram, che Bright Data vende per $860.000. Meta ha citato in giudizio l'azienda, affermando che ciò violava i termini di servizio. Ma un tribunale ha stabilito che questi dati siano pubblici e quindi disponibili al raschiamento.
Gli investitori pensano che Reworkd possa scalare con i grandi
Reworkd ha attirato nomi importanti come primi investitori, da Y Combinator e Paul Graham a Daniel Gross e Nat Friedman. Alcuni investitori dicono che ciò è dovuto al fatto che la tecnologia di Reworkd ha il potenziale per migliorare e diventare più economica insieme ai nuovi modelli. La startup afferma che attualmente il GPT-4o di OpenAI è il migliore per la sua generazione di codice multimodale e che molta della tecnologia di Reworkd non era possibile fino a pochi mesi fa.
"Se provi a competere con il tasso di progresso della tecnologia - non costruendo sopra di esso - penso che avrai problemi come fondatore," ha detto Viet Le di General Catalyst a TechCrunch. "Reworkd ha la mentalità di basare la sua soluzione sul tasso di progresso".
Reworkd sta creando agenti AI che affrontano una lacuna particolare nel mercato; le aziende hanno bisogno di più dati perché l'AI sta avanzando rapidamente. Con sempre più aziende che costruiscono modelli AI personalizzati specifici per la propria attività, Reworkd ha la possibilità di ottenere più clienti. Il perfezionamento dei modelli necessita di dati di qualità e strutturati, e molti dati.
Reworkd dice che il suo approccio è "auto-riparante", il che significa che i suoi web scraper non si bloccheranno a causa di un aggiornamento della pagina web. La startup sostiene di evitare i problemi di allucinazioni tradizionalmente associati ai modelli AI perché gli agenti di Reworkd stanno generando codice per raschiare un sito web. È possibile che l'AI possa commettere un errore e prelevare i dati sbagliati da un sito web, ma il team di Reworkd ha creato Banana-lyzer, un framework di valutazione open source, per valutarne regolarmente l'accuratezza.
Reworkd non ha una folta schiera di dipendenti - il team è composto da solo quattro persone - ma deve affrontare costi d'inferenza considerevoli per eseguire i suoi agenti AI. La startup prevede che il suo sistema di pricing diventerà sempre più competitivo man mano che questi costi diminuiscono. OpenAI ha appena rilasciato GPT-4o mini, una versione più piccola del suo modello leader del settore con benchmark competitivi. Innovazioni come queste potrebbero rendere Reworkd più competitiva.
Paul Graham e AI Grant non hanno risposto alla richiesta di commento di TechCrunch.