Operator è l’ultima novità di OpenAI. Lanciato il 23 gennaio, Operator è un agente in grado di andare sul web per eseguire compiti per noi. Utilizzando il proprio browser, può guardare una pagina web e interagire con essa digitando, facendo clic e scorrendo. Attualmente si tratta di un’anteprima di ricerca, il che significa che ha delle limitazioni e che si evolverà in base al feedback degli utenti.
Operator è già disponibile per gli utenti Pro negli Stati Uniti. Quest’anteprima di ricerca permette di imparare dagli utenti e dal più ampio ecosistema, perfezionando e migliorando man mano. Il piano prevede di estendere il servizio agli utenti Plus, Team ed Enterprise e di integrare queste funzionalità in ChatGPT in futuro.
Operator, che cos’è
Operator è uno dei primi agenti di OpenAI. Gli si può chiedere di gestire un’ampia gamma di attività ripetitive del browser, come compilare moduli, ordinare la spesa e persino creare meme. La capacità di utilizzare le stesse interfacce e gli stessi strumenti con cui gli esseri umani interagiscono quotidianamente amplia l’utilità dell’AI, aiutando le persone a risparmiare tempo nelle attività quotidiane e aprendo nuove opportunità di coinvolgimento per le aziende.
Come funziona Operator
Operator si basa su un nuovo modello chiamato Computer-Using Agent (CUA). Combinando le capacità di visione di GPT-4o con un ragionamento avanzato attraverso l’apprendimento per rinforzo, CUA è addestrato a interagire con le interfacce grafiche (GUI) – i pulsanti, i menu e i campi di testo che le persone vedono su uno schermo.
L’operatore può “vedere” (attraverso le schermate) e “interagire” (utilizzando tutte le azioni consentite da mouse e tastiera) con un browser, consentendogli di agire sul web senza richiedere integrazioni API personalizzate.
Se incontra difficoltà o commette errori, Operator può sfruttare le sue capacità di ragionamento per autocorreggersi. Quando si blocca e ha bisogno di assistenza, restituisce semplicemente il controllo all’utente, garantendo un’esperienza fluida e collaborativa.
Sebbene CUA sia ancora in fase iniziale e presenti dei limiti, ha stabilito nuovi risultati di benchmark all’avanguardia in WebArena e WebVoyager, due benchmark fondamentali per l’utilizzo del browser.
Operator, come si usa
Per iniziare, è sufficiente descrivere l’attività che si desidera svolgere e Operator si occuperà del resto. Gli utenti possono scegliere di assumere il controllo del browser remoto in qualsiasi momento e Operator è addestrato a chiedere proattivamente all’utente di assumere il controllo per le attività che richiedono il login, i dati di pagamento o la risoluzione di captcha.
Gli utenti possono personalizzare i loro flussi di lavoro in Operator aggiungendo istruzioni personalizzate, per tutti i siti o per siti specifici, come l’impostazione delle preferenze per le compagnie aeree su Booking.com. Operator consente agli utenti di salvare le istruzioni per un accesso rapido alla homepage, ideale per attività ripetute come il rifornimento di generi alimentari su Instacart.
Analogamente all’utilizzo di più schede in un browser, gli utenti possono far eseguire a Operator più attività contemporaneamente creando nuove conversazioni, come ordinare una tazza smaltata personalizzata su Etsy e contemporaneamente prenotare un campeggio su Hipcamp.
Operator, a cosa serve
Operator trasforma l’intelligenza artificiale da strumento passivo a partecipante attivo nell’ecosistema digitale. Semplificherà le attività per gli utenti e porterà i vantaggi degli agenti alle aziende che vogliono esperienze innovative per i clienti e desiderano tassi di conversione più elevati.
OpenAI sta collaborando con aziende come DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack, Uber e altre per garantire che l’operatore risponda alle esigenze del mondo reale, rispettando le norme consolidate.
Oltre a queste collaborazioni, c’è un grande potenziale per migliorare l’accessibilità e l’efficienza di alcuni flussi di lavoro, in particolare nelle applicazioni del settore pubblico. Per esplorare ulteriormente questi casi d’uso, OpenAi sta lavorando con organizzazioni – come la città di Stockton – per rendere più facile l’iscrizione ai servizi e ai programmi della città.
“Man mano che impareremo a conoscere meglio Operator durante la sua anteprima di ricerca, saremo meglio attrezzati per identificare i modi in cui l’IA può rendere l’impegno civico ancora più semplice per i nostri residenti”, ha dichiarato Jamil Niazi, direttore della tecnologia dell’informazione della città di Stockton.
Rilasciando Operator a un pubblico inizialmente limitato, OpenAI punta a imparare rapidamente e a perfezionare le sue capacità in base al feedback del mondo reale, assicurandosi di bilanciare l’innovazione con la fiducia e la sicurezza. Questo approccio collaborativo contribuisce a garantire che Operator offra un valore significativo a utenti, creatori, aziende e organizzazioni del settore pubblico.
Sicurezza e privacy con Operator
A garantire che Operator sia sicuro da usare sono stati creati tre livelli di protezione, per prevenire gli abusi e assicurare che gli utenti abbiano il pieno controllo.
In primo luogo, Operator è addestrato per garantire che la persona che lo utilizza abbia sempre il controllo e chiede un input nei punti critici.
- Modalità di acquisizione: Operator chiede all’utente di prendere il controllo quando inserisce informazioni sensibili nel browser, come le credenziali di accesso o le informazioni di pagamento. Quando è in modalità di acquisizione, l’operatore non raccoglie né screenshotta le informazioni immesse dall’utente.
- Conferme dell’utente: prima di finalizzare qualsiasi azione significativa, come l’invio di un ordine o di un’e-mail, Operator deve chiedere l’approvazione.
- Limitazioni delle attività: Operator è addestrato a rifiutare alcune attività sensibili, come le transazioni bancarie o quelle che richiedono decisioni ad alto rischio, come la decisione su una domanda di lavoro.
- Modalità di controllo: su siti particolarmente sensibili, come la posta elettronica o i servizi finanziari, Operator richiede una stretta supervisione delle sue azioni, consentendo agli utenti di cogliere direttamente eventuali errori.
La gestione della privacy dei dati in Operatoè stata semplificata. - Formazione opt-out: disattivando la voce “Migliora il modello per tutti” nelle impostazioni di ChatGPT, i dati presenti in Operator non verranno utilizzati per addestrare i nostri modelli.
- Gestione trasparente dei dati: gli utenti possono cancellare tutti i dati di navigazione e disconnettersi da tutti i siti con un solo click nella sezione Privacy delle impostazioni di Operator. Anche le conversazioni passate in Operator possono essere cancellate con un solo click.
Infine, sono state realizzate delle difese contro i siti web avversari che possono tentare di ingannare Operator attraverso prompt nascosti, codice maligno o tentativi di phishing: - Navigazione prudente: Operator è progettato per rilevare e ignorare le iniezioni di messaggi.
- Monitoraggio: un “modello di monitoraggio” dedicato osserva i comportamenti sospetti e può mettere in pausa l’attività se qualcosa sembra non funzionare.
- Pipeline di rilevamento: i processi di revisione automatizzati e umani identificano continuamente nuove minacce e aggiornano rapidamente le protezioni.
Poiché i malintenzionati potrebbero tentare di abusare di questa tecnologia, Operator è stato progettato per rifiutare le richieste dannose e bloccare i contenuti non consentiti. I sistemi di moderazione possono emettere avvisi o addirittura revocare l’accesso in caso di ripetute violazioni; inoltre sono stati integrati ulteriori processi di revisione per individuare e risolvere gli abusi.
Sebbene Operator sia stato progettato con queste salvaguardie, nessun sistema è impeccabile e questa è ancora un’anteprima di ricerca; OpenAI si impegna a migliorare continuamente attraverso il feedback del mondo reale e test rigorosi.
Limitazioni
Operator è attualmente in una fase iniziale di ricerca e, sebbene sia già in grado di gestire un’ampia gamma di compiti, sta ancora imparando, evolvendo e può commettere errori. Per esempio, attualmente incontra difficoltà con interfacce complesse come la creazione di slideshow o la gestione di calendari. I primi feedback degli utenti svolgeranno un ruolo fondamentale nel migliorare la sua precisione, affidabilità e sicurezza, aiutandoci a rendere Operator migliore per tutti
Il prossimo passo
CUA nell’API: OpenAI ha in programma di esporre presto il modello che alimenta Operator, CUA, nell’API, in modo che gli sviluppatori possano utilizzarlo per creare i propri agenti che utilizzano il computer.
OpenAI continuerà a migliorare la capacità di Operator di gestire flussi di lavoro più lunghi e complessi.
***** l’articolo pubblicato è ritenuto affidabile e di qualità*****
Visita il sito e gli articoli pubblicati cliccando sul seguente link