Hypnogram – Kuvia tekstistä

Hypnogram luo kuvia annettujen sanojen perusteella.

”Ihan alkuun, täältä näkee ”modifier” sanoja, jotka pitäis toimia luotettavasti, eli tuottavat aina saman tyylistä.

Esim. pelkkä ”mushroom” tuottaa satunnaisia normikyrveleitä, ”mushroom pencil drawing” vetää kyrvelit yhden filtterin läpi ja ”mushroom pencil drawing anime” kahden filtterin. Tämä ihan peruskauraa varmaankin kaikille.

Tuo itse saitti on vielä koko internetsille mysteeri, että kuka siellä on taustalla. Vahvimmat veikkaukset näyttäis olevan, että on joku ML/AI startup jolla ylimääräisiä euroja leikkiä hetki tämmösellä anonyymillä täysin avoimella sivulla. Toinen veikkaus on, että joku haluaa tehdä NFT massia näillä generoiduilla kuvilla.

Taustalla on Googlen pilvipalvelu. Ei tee suoraan livehakuja Googlen kuvahakuun, vaan käyttää Googlen rakentamaa valmista tietokantaa jossa on miljardeja kuvia metatiedoilla. Tuohon kantaan pääsee sitten käsiksi helpoiten Googlen omalta Colab alustalta. Luultavasti se miksi tuo kestää ja kestää, niin jotkut Colab limitit paukkuu ja siellä ollaan sitten hetki aina jonossa sen oman perversionsa kanssa.

Tämänkin saitin koodi näyttäisi pohjautuvan pohjautuu (mainittiinkin jo Tips-sivulla) huhtikuussa julkaistuun Katherine Crowsonin valmiiseen softaan joka on rakennettu juuri tuolla Colab alustalla. Katherinella on oma NFT kauppa tämmösille kuville… 

Koodia voi ajella omallakin koneella, ei siis ole varsinaisesti sidottu tuohon Colab himmeliin. Se on vaan valmis Python koodin ajoalusta. Paras ohje omalla koneella ajettavana lienee tämä nerdyrodent/VQGAN-CLIP: Just playing with getting VQGAN+CLIP running locally, rather than having to use colab. (github.com) .

Itse tekniikka, eli se koodi mikä sitten varsinaisen magiikan suorittaa on nimeltään
VQGAN = Vector Quantized Generative Adversarial Network
ja
CLIP = Contrastive Language–Image Pre-training

GAN itsessään on jo wanha juttu. ”VQ” on sitten hyvin lyhyesti käytännössä sen optimointia uusien näyttisten arkkitehtuureille, jolloin samassa vanhassa suoritusajassa voidaan tehdä taas lisää uusia taikoja .

Näiden lisäksi on GANista seuraavaa modernimpaa ainakin jo VAE-GAN, VQ-VAE ja ihan tuoreimpana ilmeisesti VQ-VAE-2. En lähde sitä kaninkoloa tässä enempää avaamaan. Näissäkin vähän sama kun lohkoketjuissa, että ostaja/käyttäjäpuolella kukaan ei oikeasti ymmärrä kyseistä teknologiaa ja sitten on helppo kaupitella kärmesöljyt. Mahtaako ymmärtää edes itse tekniikkaa käyttävät propellihatut.

CLIP on tuorein tulokas. Tammikuussa julkaistu ja aiheuttanut ilmeisen pöhinän ML/AI piireissä. CLIP-softan taustalla on OpenAI. CLIP on se taika jolla Googlen pilvi ymmärtää meidän höpöttelyt ja osaa kaivella kuvakannasta halutut kohteet, eli se on ”text-to-image” tulkki välissä. Tällä hetkellä osaa vain englantia hyvin.

Tässä on paras artikkeli joka selostaa näitä lisää The Illustrated VQGAN (ljvmiranda921.github.io) .

CLIPistä vielä lisää lyhyesti.

Se ymmärtää paljon laaja-alaisemminkin hakutekstejä. Osaa itse asiassa ihan pitkiäkin tekstejä ja monimutkaisempiakin hakuja, mutta tuo hypnogram saitin front-endin koodi on luultavasti tarkoituksella rajattu tiettyyn merkkimäärään ettei koko back-end tukehdu kun räbä lähtis kuitenkin sinne koko raamattua syöttämään. Perus ”mushroom pencil drawing anime” haku tuottaa ihan ok tulosta, mutta esim. putkimerkillä | pystyy tekemään samanaikaisesti useita eri hakuja ja yhdistämään niiden tulokset painoarvoilla halutun näköiseksi.”