Machine Branding

di Edoardo Santamato 23 maggio 2022

Come saprete l'intelligenza artificiale sta prendendo sempre più piede nel nostro mondo. Algoritmi che diventano ogni giorno più veloci e precisi e che permettono di coprire ambiti sempre più vasti e complessi.

Basta citare Nvidia con il suo Canvas, o il Deepfake, potremmo parlare di Flawaless, o della prateria sconfinata degli NFT dove l'AI viene usata per creare contenuti procedurali... milioni di mondi che sbocciano e che utilizzano il machine learning per muoversi su terreni inesplorati e ritenuti impossibili almeno fino a qualche anno fa.

Tutto questo fermento porta inevitabilmente a domandarsi in quali settori (e professioni) l'avvento dell' AI possa accostare, aiutare o, perché no, anche sostituire l'intervento umano.

Se una macchina fa ciò che faccio io, ma più velocemente, a costi minori e magari pure meglio, io... a cosa servo?

Il discorso, non c'è bisogno di sottolinearlo, è ben più articolato di così ma, nel nostro piccolo, vogliamo toccare con mano questi nuovi strumenti e capire nella realtà cosa potrebbe o non potrebbe cambiare.

INVASIONE E AI

Se ci seguite, saprete che non è la prima volta che parliamo di Intelligenza Artificiale: nel 2020 avevamo cominciato a usare uno strumento abbastanza embrionale per sfruttare il ML a vantaggio del branding, vi riporto qui l'articolo.

Il modello prevedeva l'utilizzo di una banca dati creata da noi e “data in pasto” al programma che imparava così a riconoscere un logo e a ricrearne uno in autonomia. Era un algoritmo lentissimo, molto pesante, poco duttile e che non ci ha permesso di avere risultati apprezzabili. Ma era certamente un primo traballante passo e non abbiamo mai smesso di studiare.

In due anni le cose si sono rapidamente modificate e Google ha messo a disposizione strumenti nuovi che potenziano, e di molto, le capacità di calcolo. Abbiamo quindi deciso di iscriverci al programma Colab per poter usare uno di questi nuovi programmi di AI.

NUOVE FRONTIERE

Discodiffusion è uno dei molti programmi di AI che si possono utilizzare ed è quello che al momento ci regala più soddisfazioni. Inoltre viene giornalmente aggiornato e permette di creare immagini con il solo utilizzo di prompt. Una community frizzante e molto disponibile ci ha permesso di progredire velocemente con le nostre ricerche.

Il programma in questione permette di realizzare immagini partendo da un semplice prompt di comandi. Semplificando:

scrivi alla macchina cosa ti serve e lei lo disegna.

Detta così sembra tutto molto semplice, la realtà non è mai così lineare: trovare i giusti setting per le proprie necessità è una storia ben più complessa che scrivere una semplice linea di testo e i tempi di calcolo sono spaventosi se non si paga un abbonamento e se non si ottimizza il modello. Ma al netto di parecchie settimane di trail and error e di una spesa abbastanza contenuta, l'algoritmo permette davvero di creare immagini partendo da una semplice linea di comando.

Grazie all'utilizzo di più modelli predittivi tra cui scegliere è possibile creare da zero immagini originali e, dobbiamo dirlo, davvero incredibili.

Alcuni esempi creati come esercizio (per essere molto chiari: le illustrazioni che seguono sono disegnate completamente dalla macchina)

Qui in Invasione siamo esploratori e soprattutto esploratori del logo design e le illustrazioni, seppur belle, non trovano molto spazio nell'ambito che vogliamo sondare. Quindi ci siamo chiesti se questi nuovi strumenti potessero essere utili per realizzare loghi partendo da una semplice descrizione. Vogliamo capire se è possibile certa automazione con l'ausilio dell'ai .

Verremo anche noi soppiantati da un foglio di calcolo?

L'algoritmo spazzerà via tutto il settore del logo design?

Golden ratio addio?

Non vi resta che leggere quanto segue per scoprirlo!

MACHINE BRANDING

Abbiamo scelto di usare i modelli ViTB32 e ViTB16 in coppia con il modello RN50X4 per riuscire ad avere un buon bilanciamento tra resa globale (ViT) e dettagli (RN). Anche se queste cifre non vi diranno nulla, vi basti sapere che la scelta di un modello rispetto ad un altro (o un mix di più modelli) è cruciale per il fattore tempi di calcolo. Una scelta piuttosto che un'altra può spingere i tempi da una ventina di minuti a disegno fino a 2h per una singola immagine compromettendo l'efficienza generale. In aggiunta non si ha alcun controllo sul lavoro in itinere dell'algoritmo e si può capire se il risultato è o meno apprezzabile solo dopo parecchio tempo. E se non dovesse soddisfarci... si deve ricalcolare tutto da capo.

Per ogni prompt abbiamo fatto lavorare la macchina su 500 iterazioni (più iterazioni, più dettagli, ma molto più tempo di calcolo. Alcune immagini possono essere spinte fino a 2000 iterazioni) e su 3 soggetti in modo da avere differenti trattamenti.

La risoluzione della singola immagine è di soli 500x500px, sempre per ottimizzare le risorse e perché, ai fini dell'esperimento, la risoluzione non è cruciale.

La scelta delle parole da inserire nel prompt dei comandi è anch'essa molto importante perché la posizione delle parole è un fattore chiave per la creazione dell'immagine. Abbiamo quindi optato per descrizioni semplici, che non dessero adito a possibili fraintendimenti o sovrapposizioni. Una buona stringa di comando dovrebbe essere costruita in questo modo:

[subject], [prepositional details], [setting], [meta modifiers]

IL TEST

Presentiamo ora le richieste che abbiamo fatto alla macchina su quattro settori merceologici e capiamo insieme i risultati.

RICHIESTA 1

“Logo singolo per una compagnia che produce Hamburger, colori brillanti.”

RICHIESTA 2

“ Logo singolo, geometrico per una compagnia Hightech, blu e verde”

RICHIESTA 3

“ Logo singolo, elegante e prezioso per una gioielleria”

RICHIESTA 4

"Logo singolo di una compagnia medicale, colori bianco rosso e blu"

CONCLUSIONI

Il nostro esperimento ci permette di arrivare a qualche conclusione che riteniamo importante e che può essere utile come spunto di riflessione per il nostro lavoro, ma non solo.

1) CHE POTENZA!

La potenza di calcolo unita al perfezionamento degli algoritmi ha portato a un vero balzo in avanti che ci lascia strabiliati. La macchina disegna davvero dei loghi e non ha più bisogno di una base di partenza. Fa tutto da sola attingendo a risorse proprie. In due anni abbiamo notato un miglioramento pazzesco e questo non può che far ben sperare per il futuro. Le ultime stime ci indicano che il futuro sarà ancora più pazzesco in termini di potenza (https://www.theregister.com/2022/05/02/nvidia_open_standards/) e questo non potrà che avere un impatto diretto su applicativi così voraci in termini di risorse di calcolo.

2) IL PROMPT

Scrivere un prompt corretto è fondamentale per avere risultati apprezzabili. Questo implica che chi compila la richiesta debba avere le idee molto chiare su cosa vuole vedere. Questo, in ambito futuro del branding e nello specifico del logo design, può essere un'arma a doppio taglio. Utile se il cliente sa già cosa vuole (“voglio che il mio logo siano le mie iniziali dentro un quadrato rosso con sfondo nero”), meno utile se il cliente non ha alcuna idea o posizione di partenza. (“Boh sono un brand di accessori...”)

Una descrizione vaga, produce risultati vaghi e inutili. Una descrizione precisa, al contrario, permette di avere qualcosa con un'impostazione già abbastanza solida.

A pensarci bene, però, è esattamente la stessa cosa che succede oggi quando affrontiamo un lavoro di logo design da zero: un brief preciso è utile per pulire il campo iniziale, un brief fumoso produrrà un primo giro fumoso e poco chiaro.

3) L'OUTPUT

I risultati sono strabilianti (se si pensa che nasce tutto da una stringa di comando), ma ad oggi non riteniamo siano pienamente utilizzabili in ambito branding.

A parte la ovvia questione di precisione e proporzioni, i loghi risultano privi di una qualsiasi lettura utile. Non c'è alcuna intuizione grafica, né alcun messaggio nascosto.

Sembrerà banale dirlo, ma non c'è traccia di un cuore.

Al netto della frase volutamente romantica, è un risultato che non ci stupisce poi molto: non ci aspettavamo certo “un'interpretazione” da parte dell'algoritmo, ma è chiaro che la macchina risponda 1:1 alle richieste, restituendo un lavoro molto piatto. E questo apre al quarto punto.

4) IL FATTORE UMANO

Quindi è tutto da buttare? È del tutto inutile l'AI? No, infatti la macchina può essere un valido strumento di ispirazione! Può essere uno strumento nuovo e davvero interessante per ampliare i nostri personali perimetri grafici. Al momento, però, non riteniamo che possa soppiantare la mano, l'occhio e il cervello di un professionista che disegna un logo.

La complessità del segno, la presenza di piani di lettura, le implicazioni grafiche (più o meno stratificate) sono tutti aspetti che sfuggono al lavoro dell'algoritmo e su queste l'uomo ha ancora il predominio.

Almeno per adesso ;)

5) IL CUORE

Visto che l'algoritmo ha comunque lavorato e ha creato segni che ci hanno fatto ragionare, vogliamo provare a sfruttarli come base per loghi “veri” e vediamo se può nascere qualcosa che abbia un cuore anche da un freddo calcolo di una austera intelligenza artificiale ;)

Sono chiaramente prove senza alcuna pretesa di essere definite loghi, ma a livello di spunto creativo possono essere tutt'altro che uno strumento da buttare.

Logo per una Criptomoneta?

Hamburgheria on the Beach?

Lo scopo del nostro studio era quello di addentrarci con più attenzione nel mondo dell'intelligenza artificiale, utilizzando strumenti reali con output reali e sgomberando il campo dalle solite (e scontate) semplificazioni. L'espressione "intelligenza artificiale" è troppo spesso usata a sproposito e in modi del tutto fuorivanti. Volevamo toccare con mano la realtà del momento.

Riteniamo che la strada sia ancora lunga, ma siamo altrettanto certi che questo tipo di soluzioni troveranno sempre più posto nel nostro lavoro.

Speriamo che questo piccolo viaggio vi abbia dato buoni spunti di riflessione!

Alla prossima!