L’IA de Texte à image a encore beaucoup de chemin à faire et nous sommes loin des prophéties de Altman

Pin It

C’est la prédiction de novembre dernier de Sam Altman (fondateur de ChatGPT) qui disait que d’ici 5 ans, 95% de ce que font les marketeurs et les agences serait fait par l’IA qui m’a poussé à expérimenter davantage avec les capacités texte à image de celles-ci. On s’entend qu’éventuellement, nous pourrons faire des publicités visuelles entièrement conçues par l’IA. Il est évident que ça prendra toujours un créatif pour enligner la machine, valider le rendu et corriger le tir. Mais si nous arrivons à cette étape, bien des professionnels de la génération d’image, de rédacteurs de scripts, direction photo, caméraman, éclairage, sono, designer et autres, seront beaucoup moins présents.

La citation de Altman reprise par Jeremiah Owyang sur X :

“Oh, for that? It will mean that 95% of what marketers use agencies, strategists, and creative professionals for today will easily, nearly instantly and at almost no cost be handled by the AI — and the AI will likely be able to test the creative against real or synthetic customer focus groups for predicting results and optimizing. Again, all free, instant, and nearly perfect. Images, videos, campaign ideas? No problem.”

Pour un client j’ai donc décidé de faire des tests. Mon idée générale était d’avoir une jolie femme dans une Lexus convertible sur une route de campagne et qu’elle soit devant une Mercedes et Audi qui sont ses compétiteurs. Voici mon message-guide :

Une femme d’affaires assise dans une Lexus décapotable dépasse une femme dans une BMW décapotable et une autre dans une Mercedes décapotable.

J’ai essayé différents scripts et même un script généré par chatGPT lui-même (parce que l’IA peut même faire du prompt ingeneering) que voici :

Opening Scene: A panoramic view of Charlevoix’s lush landscapes with the St-Lawrence River glistening under the morning sun. Slowly zoom in on a Lexus convertible parked by the roadside, the driver’s side door opening gracefully.

Introducing the Driver: A close-up of the woman’s hand placing the key in the ignition, followed by her confident smile in the rearview mirror. She’s dressed elegantly, symbolizing sophistication and adventure.

On the Road: Aerial shots of the Lexus convertible cruising along the scenic road, with the St-Lawrence River on one side and the rolling hills of Charlevoix on the other. Capture the car’s sleek design and smooth handling as it navigates gentle curves, with the woman’s hair fluttering in the wind.

Interaction with Nature: Include brief stops or slow drives where the woman interacts with the surroundings—pausing to admire a viewpoint over the river, running her hand through a field of wildflowers, or stopping by a local market to greet the vendors.

Golden Hour Drive: As the day progresses, capture the Lexus driving during the golden hour, with the setting sun casting warm hues over the landscapes, highlighting the metallic sheen of the car against the natural beauty of Charlevoix.

Closing Scene: The Lexus convertible comes to a stop at a cliff overlooking the river, now under a twilight sky. The woman steps out, leaning on the car, gazing at the horizon where the river meets the sky, reflecting on the day’s journey.

Action/Storyline: The video tells the story of a journey that merges the thrill of driving a luxury car with the serenity and beauty of Charlevoix’s natural landscapes, emphasizing moments of introspection and connection with nature.

On peut donc facilement conclure que l’éditeur de script publicitaire est déjà dans le trouble. Par contre, les designers, graphistes et illustrateurs ont encore de belles années devant eux. C’est que l’IA a encore plusieurs problèmes. Avec la récente débandade raciste de Gemini, nous savons qu’elle peut être raciste, sexiste et qu’elle se fout de la réalité historique. Mais elle est aussi incapable de compter et de contextualiser. Elle a beaucoup de difficulté avec les mains (qui ont parfois 6 ou 4 doigts) ou avec les membres qui peuvent disparaître ou être ajoutés. En fait, l’IA est extraordinaire pour créer des paysages, des animaux imaginaires et une foule d’autres choses. Mais elle est encore incapable de faire correspondre deux éléments disparates qui ne sont pas du décor. Ainsi, l’IA peut faire une femme de même qu’une très belle voiture, mais semble incapable d’unir ces deux éléments avec cohérence. En voici des exemples :

Fuck-up DALL-E


Fuck-Up Leonardo

Fuck-up Runway

Ainsi donc, peut-être que 95% des tâches des marketeurs et stratèges publicitaires se feront pas l’IA d’ici 5 ans, mais pour maintenant et l’année prochaine, nous sommes encore loin de cette prédiction de Altman… D’ailleurs sur LinkedIn, hermitage Capital disait ceci :

There remain challenges around the potential for misuse of these models to generate fake, harmful, or abusive content. Mitigating these risks through technical solutions and policies is still an active and difficult area of research. The models can still make mistakes, have biases, and lack common sense, making it hard to ensure complete safety. There are also open legal and copyright issues around training data and generated images that need addressing. Environmentally, the computational costs and impacts of developing these large models also needs considering.</blockquote

Imprimez ce billet Imprimez ce billet

Commentaires

  1. Ilias

    Intéressant merci;) … je suis ça de très près.
    Même au point de départ les vidéos de Sora m’ont jeté à terre.
    Mon constat est que ça bouge plus vite que n’importe qu’elle prédiction optimiste.

Laisser un commentaire