PickAI #38 - Jde opravdu jednoduše okopírovat umělecký styl?
🔥 Nejzajímavější události ze světa AI za poslední týden.
♥️ Odkazy, rozhovory, články, projekty.
Vítejte u dalšího PickAI. Před pár týdny mě oslovila kamarádka Bára Balgová s dotazem, jestli už by umělá inteligence zvládla napodobit i její specifický styl. A já skočila naplno do zkoušení. Jak to dopadlo? Nejdřív mrkněte na novinky a pak se na to vrhneme.
🔥
Co byste určitě neměli minout
Midjourney testuje novou verzi příkazu /describe. Nový algoritmus dává detailnější popisky ve stylu modelu V6. Mimochodem, pokud máte vygenerováno víc jak 1000 obrázků a tvoříte na webu (bez Discordu), už nemusíte chodit na alpha.midjourney.com, stačí klasické midjourney.com. Spuštění webového generátoru pro všechny je zase o trochu blíž.
Ideogram představil verzi 1.0. Připomínám, že největší pozornosti se mu dostalo, když mezi prvními přišel s kvalitním generováním textů na obrázcích. Zdá se, že tuhle schopnost nejnovější verze posunula ještě dál, tak zkoušejte.
Lex Fridman měl ve svém podcastu Yanna LeCuna, profesora NYU a šéfa AI vývoje v Meta. Je to čerstvý kousek, který jsem si ještě nestihla poslechnout, ale věřím, že bude super. Rozhovor najdete na YouTube, Spotify i Apple Podcasts. Yann byl hostem už potřetí, takže jestli to pro vás bude málo, můžete skočit ještě na epizodu #258 nebo epizodu #36.
Claude vyvedl do světa svoji třetí verzi. A to hned ve třech provedeních - Haiku, Sonnet a Opus. Každý z modelů má trochu jiné schopnosti, pokud jde o inteligenci, cenu (API) a rychlost. Haiku je nejslabší, ale také nejrychlejší a nejlevnější. Opus naopak (tušíte už z názvu) nejsilnější a nejdražší. Společnost Anthropic se pyšní tím, že Opus ve všech srovnávacích testech překonává GPT-4. Mrkneme na to :)
Společnost OpenAI vydala vyjádření k žalobě Elona Muska. V článku najdete i trochu rozlitého čaje v podobě starších e-mailových konverzací mezi Muskem a členy týmu. OpenAI je ale dle svých slov připravena vyvrátit všechna tvrzení, že se neodklonila od své mise vytvořit bezpečné produkty.
Jsme už předem odsouzeni k selhání, pokud jde o manipulace a deepfakes? Zatím se zdá, že jde o prohranou bitvu. Video Václava Klause, který vyzývá k boji s globálním oteplováním, zveřejněné na Facebooku, ukázalo, jak je na tom s pozorností širší společnost. I přes jasně viditelné nápisy DEEP FAKE ve videu, i přes viditelně nekvalitní výstup, i přes text u videa, který jasně deklaroval, že jde o uměle vytvořený kousek … si velká část diskutujících nevšimla, že jde o fake. Au. Kdybyste to chtěli aspoň trošku lámat ve svém okolí, pošlete jim původní článek Investigace.cz vysvětlující deepfakes.
Mobilní aplikace ChatGPT vám nově na vyžádání nahlas přečte svoji vygenerovanou odpověď.
Česká společnost GoodAI představila agenta s dlouhodobou pamětí. Jmenuje se Charlie Mnemonic, je postavený na GPT-4 a jedná se o open source. Pamatuje si každou instrukci a konverzaci a učí se tak být asistentem přizpůsobeným na míru uživateli.
Adobe Express má v beta verzi mobilní aplikaci pro iOS a Androidy. Během testování budou zdarma i prémiové funkce. Vlastníci Androidů mohou stahovat přímo v Google Play, přístup k iOS verzi je limitován počtem uživatelů, ale zaregistrovat se můžete zde.
Po deseti letech vývoje Apple vzdal plány na vlastní auto. Vývojáři byli přesměrování k AI technologiím.
Google DeepMind představil model, který generuje na základě textu nebo obrázku hratelné světy.
🖼️
Mé první pokusy o plagiát 🙂
Umělá inteligence vs umělci. V posledním roce jedno z nejvíc skloňovaných témat. Ať už kvůli nepřehlednému porušování autorských práv při učení jednotlivých modelů, tak v diskuzích na téma komu všemu vezme umělá inteligence práci a jestli AI umí nebo neumí být kreativní.
Většina umělců, se kterými jsem měla možnost mluvit, se shoduje s tím, co napsal Michael Petrus pro server Navolnenoze.cz: “Podprůměrní a začínající tvůrci ztrácejí práci a jsou nahrazování v jednoduchých úkolech umělou inteligencí. Ale komplexní designová řešení jsou a budou ještě nějakou dobu dominantou lidí. A lidé, kteří rozumí designu, mají vytříbené estetické cítění a dokonale ovládají umění promptu, dokážou v symbioze s AI poskytovat vysoce odborné služby.”
Když mě tedy oslovila Bára Balgová s dotazem, jestli zvládneme se současnými možnostmi naklonovat její práci, rozsvítily se mi očička a byla jsem zvědavá, co jako neumělec zvládnu společně s Midjourney vytvořit.
Uvědomovala jsem si následující velmi důležité překážky:
- Nejsem umělec a umění jsem nikdy nestudovala. To mě velmi omezuje v tom, jak dobře dokážu text-to-image modely úkolovat.
- To, co jde nebo nejde teď, nemusí příští týden platit.
- Odborníci z řad tvůrců určitě pracují i s jinými modely a nástroji, než je Midjourney. Je velmi pravděpodobné, že by se dostali mnohem dál než já.
- Pokud žijeme v očekávání, že společně s umělou inteligencí zvládneme všechno, co jsme nikdy neuměli, je dobré si realisticky připomínat, že tak jednoduché to není (a věřím, že dlouho nebude).
Tak pojďme na to.
Bára mi poslala na hraní pár svých prací a já jsem si vybrala následující kousky:

Describe
První, co jsem udělala, bylo využití příkazu /describe, protože mě zajímalo, jak Midjourney jednotlivé obrázky popíše, jestli v popisech nenajdu nějaká pojítka a co vznikne z jejich použití. Midjourney právě dnes, kdy píšu tenhle článek, nasadila novou verzi Describe. Proč by mi do toho ostatně nemohla hodit vidle, že? Tak aspoň můžeme mrknout, jestli se situace nějak změnila / zlepšila / zhoršila.
Je vidět, že novější verze je opravdu popisnější a upovídanější:

[dramatická hudba] Dokáže ale udělat lepší výstupy?

A helemese!!! Tohle je výrazný posun kupředu. Vyzkoušíme ještě jeden kousek:

Myslím, že můžeme i s netrénovaným okem říct, že i když zatím Midjourney ani zdaleka netvoří dokonalé kopie Bářiných obrázků, funkce /describe poskočila zdatně kupředu. Nechala jsem si tedy v nové verzi popsat i ostatní obrázky a zkoušela v popiscích najít něco, co mohu při zadávání sama použít.
Krab s víčkem Coca-Cola
1️⃣ A silver bottle cap with the CocaCola logo, placed on top of an illustration of a crab's leg, set against a white background. The minimalistic design uses clean lines to highlight details like claws or shell texture. It captures movement in the legs as if they were dancing around the lid, adding a playful element to the composition. This digital artwork is designed for print media use, focusing on clarity and simplicity without any text or typography. The style is reminiscent of minimalist illustrations. --ar 49:64
2️⃣ A metal bottle cap with the CocaCola logo is placed on top of an illustration-style crab, with a white background. The design incorporates gray and silver colors, giving it a simple yet elegant feel. It has a high resolution of 3072x4698 pixels, making every detail clear and sharp. This design perfectly captures both the iconic brand and marine life in one elegant composition in the style of illustration. --ar 49:64
3️⃣ A metal bottle cap with the Coca-Cola logo is placed on top of an illustration of a crab, against a white background. The design incorporates silver and gray colors, giving it a metallic appearance. It features a detailed drawing style in the style of realism with a focus on realism. --ar 49:64
4️⃣ A silver bottle cap with the CocaCola logo, shaped like an anthropomorphic crab with four legs and two claws on its left side, set against a white background. The design is simple yet detailed, featuring clean lines that highlight the shape of each leg and claw. This illustration captures the essence of cute character art, focusing on clarity and simplicity to emphasize the details of both the iconic CocaCola branding and the crab's form. The style is reminiscent of minimalist character illustrations. --ar 49:64
Květina
1️⃣ A drawing of an Echinacea flower in black and white, the petals have been torn off in the style of a bird's beak. The background is grey. --ar 49:64
2️⃣ A simple drawing of an Echinacea flower in black and white, with the petals and leaves gracefully falling off from above, set against a clean grey background. The drawing is minimalistic yet expressive, capturing the essence of beauty through simplicity in the style of an unknown artist. --ar 49:64
3️⃣ A botanical illustration of an Echinacea flower in black and white, with the petals forming two crossed arms, one long and the other short, with a gray background. The drawing includes details such as leaves, seeds or buds, all depicted in a minimalist style. This design would be suitable for use on postcards, cards, posters or prints, combining artistry with nature to create a visually appealing composition in the style of minimalism. --ar 49:64
4️⃣ A simple, delicate line drawing of an Echinacea flower in black and white, with its petals falling off one at a time. The background is a light grey to create contrast. --ar 49:64
Letící husa
1️⃣ A flying albatross made of cabbages, in a pencil drawing style with simple lines and a flat illustration on a white background with no shadows and high contrast. The drawing has high resolution, quality and detail captured through professional macro photography with sharp focus and studio lighting. --ar 49:64
2️⃣ minimalist black and white line art of an albatross in flight, with the wings made from giant cabbage leaves in the style of an Asian artist. The plain grey background. --ar 49:64
3️⃣ A flying albatross made of cabbage leaves, simple illustration in the style of monochrome, white background, simple details, graphic design, risograph print --ar 49:64
4️⃣ A flying albatross made of cabbage leaves, a simple illustration in the style of a flat design with a monochrome, white background. The style is minimalistic with low details, thin lines drawn in black and grey forming simple shapes and lines with high contrast and sharp edges in a graphic art style. There are no shadows, no gradients, and no details. --ar 49:64
Pizza
1️⃣ A black and white drawing of a slice of pizza with different elements like chocolate chip cookies, bubblegum, candy, etc. in the style of tattoo design on a grey background with white space around the edges. --ar 49:64
2️⃣ A black and white illustration of an art drawing of a slice of pizza with different types of cookies, like new york style cookies, chocolate chip cookies, double fudge cookies, decorated sugar cookie, on top of the cheese part of the pizza, drawn in the style of pencil. The background is grey. It's a simple, minimalistic, vectorized handdrawn artwork. --ar 49:64
3️⃣ A slice of pizza with the edges shaped like tiny flowers, and the interior filled with cookies and chocolate in the style of a black and white pencil drawing. The background is plain gray to highlight the intricate details of each piece of food. --ar 49:64
4️⃣ A black and white pencil drawing of a slice of pizza with various detailed patterns on it, such as cookies, cupcakes, or other treats. The background is plain gray to highlight the intricate details in the design. It has an illustrative style in the style of that could be used for tshirt printing or wall art. --ar 49:64
Ďáblík
1️⃣ A black and white digital drawing of an ultra realistic pig head with a long nose, holding two silver bells in its mouth on a grey background. The style is minimalist and detailed in the style of an artist. --ar 49:64
2️⃣ A small statue of an animal's head with its mouth open and holding a metal pipe in the shape of bells. A simple vector monochrome drawing on a white background in the style of no shadows. A high resolution, high quality, high detail image with hyper realistic and hyper detailed style. A high definition, high resolution image with high sharpness and high focus in a high color, high tone style. A hyper realistic, hyper detailed and hyper naturalistic image from a high angle view in the style of hyper realistic, hyper detailed and hyper photorealistic. --ar 49:64
3️⃣ A gray and white graphic design of an ancient Greek face mask with horns blowing out a silver bubble gum from its mouth, there is also a small bell hanging on the bottom of it. The background is white and the art style is a simple vector with high contrast and accurate details. It is in the style of hyper realistic art. --ar 49:64
4️⃣ A grayscale vector illustration of an animal head with bells on the ears and tail hanging down, holding up a long metal pipe in its mouth in the style of an unknown artist. --ar 49:64
Když zkouším generovat obrázky na základě těchto popisů, ruka All Inclusive, květina a pizza jsou alespoň obsahově nejblíž (ostatně můžete si to sami vyzkoušet). Nejméně přesné popisky (a výstupy) jsou u Ďáblíka a kraba. Někde uprostřed lítá husa, ze které se stal albatros a zelná křídla sice najdete v popiscích, ale ne ve vygenerovaných obrázcích.
Zkusila jsem z popisků těch nejlepších výstupů sestavit nový prompt na pizzu: “A simple illustration of a slice of pizza with various czech baked christmas candy/cookies. In the style of a black and white pencil drawing. Minimalistic yet expressive, set against a clean grey background. Simplicity in the style of an unknown artist.”
Style Tuner
Na připravený prompt použijeme další nástroj, který Midjourney nabízí. Jmenuje se Style Tuner a potřebujete pro něj zadat příkaz /tune. Pozor, je to celkem zásadní žrout vašeho předplatného. Vygeneruje vám na základě vašeho zadání 16, 32, 64 nebo 128 párů obrázků. Vy si následně vyberete ty, které nejvíc sedí vašemu očekávání a dostanete k dispozici unikátní kód, který můžete používat v příštích promptech. Kód drží vybraný jednotný styl.
Jakmile zadáte “/tone A simple illustration of a slice of pizza with various czech baked christmas candy. In the style of a black and white pencil drawing. Minimalistic yet expressive, set against a clean grey background. Simplicity in the style of an unknown artist.” a klepnete na enter, vyberete si počet párů, které chcete vygenerovat a rovnou uvidíte, kolik kreditů tím spotřebujete. Style Tuner zatím bohužel neumí pracovat s V6, tuším ale, že jakmile se tak stane, tenhle pokus by se opět posunul na novou úroveň.

Na výsledku, který se vám za cca dvě minuty vygeneruje, je skvělé, že je na externí adrese a můžete ho sdílet. Takže tady ho máte a můžete se ke mě přidat v dalších krocích.
Nejdřív si vyberete mezi tím, jestli chcete postupně proti sobě porovnávat dva kousky, nebo si zobrazit celou mřížku a vybrat z ní ty nejlepší kousky. Zkuste to, co vám nejvíc vyhovuje, ale taky to zkoušejte klidně vícekrát, abyste porovnali výsledky. Nemusíte vybírat ze všech párů. Platí ale, že čím víc vyberete, tím přesnější bude styl. A naopak čím méně vyberete, tím svobodnější hranice bude Midjourney mít v dalším generování.
Celou dobu, co volíte přesnější verze, se vám v dolní části stránky tvoří kód. Každý vybraný obrázek nebo styl ho změní. Jakmile jste s výběrem spokojeni, můžete si okopírovat samotný kód, nebo rovnou celý nový prompt, který ho už obsahuje. Například: “A simple illustration of a slice of pizza with various czech baked christmas candy. In the style of a black and white pencil drawing. Minimalistic yet expressive, set against a clean grey background. Simplicity in the style of an unknown artist. --style 2Rn9edLEiac2XubgzWWCQsEqL”

Tím, že musíte prompt zadat do V5.2 a nelze použít nejnovější model, přicházíme pravděpodobně o mnohem lepší výsledky.

Dokážu si představit, že pokud bych tuneru i původním promptům dala x dalších hodin, postupně bych se trochu víc přiblížila požadovanému výsledku. Ale místo toho vyzkouším dvě mnohem snazší možnosti.
Image Prompt a --sref
Nebudeme si to dělat komplikované a použijeme Báry obrázky jako referenční. V prvním případě zadáme tzv. image prompt, to znamená, že vložíme původní obrázek pizzy a k němu přihodíme zadání. K tomu jsem přidala i parametr --iw, který rozhoduje, jak velkou váhu má obrázek a jak velkou váhu má text. Můžete vybrat čísla od 0 do 3.

Aha!! Tady jsme na něco kápli, že? Akorát, že vůbec. Máme totiž pizzu a chceme pizzu. To se pak snadno kopíruje. Kdybychom pizzu neměli a zkusili použít ostatní obrázky, dopadne to takhle:

V případě image promptů si totiž Midjourney bere z referenčních obrázků nejen styl, ale i obsah. Takže nám z pizzy koukají krabí nožky, kosti a květinky. To nechceme. My chceme pizzu s vánočním cukrovím (i když jste si možná už všimli, že tím největším problémem bude Midjourney donutit dát na pizzu česká linecká kolečka a pracny).
Naštěstí Midjourney má ještě jedno eso v rukávu a tím je cca před měsícem představený parametr --sref, který funguje jako reference stylu přiloženého obrázku či obrázků. Stačí jen přidat url obrázků za zmíněný parametr a Midjourney bude ignorovat obsah, ale soustředit se na styl. Prompt tak může vypadat například takto: “A simple illustration of a slice of pizza with various czech baked christmas cookies. --sref https://s.mj.run/yU2i8ViSHb0 https://s.mj.run/daO5pTnwX2s https://s.mj.run/p3X_SyIBan4 https://s.mj.run/A1OT7NkSlnE”

Vidíte, že jsem si ještě zkoušela hrát i se stylizací nebo chaosem. Ale to je v tuto chvíli nejblíž, kam se můžu dostat se svými zkušenostmi, znalostmi a tím, co mi Midjourney nabízí.
Vypadá to, že minimálně z mé strany je ještě Báry práce v bezpečí. 😎
🔥 Zvládnete to ještě blíž? Dejte mi kdyžtak do komentářů vědět.
P.S. Možná jste si všimli, že v obrázcích jsou screeny jak z Discordu, tak z alpha verze Midjourney, o které jsem psala před třemi týdny. Pořád platí, že je mnohem pohodlnější a už se moc těším, až bude dostupná pro všechny. Jen tam ještě nejsou (nebo jsem je nenašla) některé možnosti, takže občas při pokusech přepínám zpět na Discord.