דמיון מלאכותי: על Dall-E 2, מידג'ורני ועוד

מה שהתחיל כטפטוף מתפתח למבול. עוד לא הספקתי לכתוב על דימויים שנוצרו על ידי מסנתזי תמונה וכבר פייסבוק מודיע שיש גם וידאו שנוצר על ידי בינה מלאכותית רק מתוך תיאור מילולי. מי שרוצה לצלול לעומק מוזמן לעקוב אחרי קבוצת "עליית המכונות" של מתי מריאנסקי הנפלאה. אני פה רק בשביל להראות מעט מהשימושים שאני עשיתי בתוכנות השונות שמייצרות דימויים על פי טקסט. הדימויים האלו הם תוצרים של בינה מלאכותית אחרי ש"לימדו אותה" למה בני אדם מתכוונים כשהם אומרים "קוף טס במטוס בסגנון ואן גוך". אותי הקפיצה הטכנולוגית הזו מדהימה אבל עוד יותר מדהים אותי זה שזה קרה פתאום, בלי הודעה מוקדמת ובלי שנחשפנו יותר מדי לגרסאות הגרועות של התוכנות הללו. ומפתיע גם איך תוך זמן קצר אנחנו רואים כמה וכמה תוכנות כאלו שמתחרות זו בזו. האם יש פה תת מודע קולקטיבי או קונספירציה? האם היה תיאום או ששמועות גרמו לאנשים ברחבי העולם לפתח תוכנות דומות? מה שלפני שניה היה נראה בלתי אפשרי פתאום הופך לשגרה. אנחנו מתרגלים מהר מאוד לחידושים כאלו.

אם תרצו להבין איך תוכנות אלו פועלות תוכלו להציץ במאמרי הוידאו פה למטה. אומר רק שלמידת מכונה (Machine learning) לפי הבנתי המועטה היא מהפיכה בגישה למחשוב. במקום ללמד תוכנות אנו נותנים להן כלים ללמד ולדייק את עצמן באמצעות משובים. תופעה זו קשורה גם לפילוסופיה העכשווית והשפעות הפנומנולוגיה שבה במקום לבנות את הדרך אל התוצאה אנחנו מתחילים מהתוצאה ושואלים את עצמנו איך הגענו לכאן.

האם יש לאמנים סיבה לחשוש?

כן.

ולא.

זה כלי חזק מאוד וכזה שהולך להשתכלל כנראה בקצב מטורף. עם זאת הוא עדיין כלי. וכשאתה, כאמן וגם כצרכן, מקבל המון כוח לידיים אתה פתאום שואל את עצמך: מה בעצם אני רוצה להשיג? ובמקרה הזה לשאול גם מהי אמנות עבורך או יציר4ה בעלת ערך. אני לא מדבר רק ברמה פילוסופית. ככל שהתרבות מציפה אותנו בעבודות מהונדסות עם אסטיקה זולה ואפס התנסות אמנותית אז החשש מהמחשב נראה מגוחך פתאום. אם האנושי הפסיק ליצור אמנות, אז למה לחשוש שאת החיקוי הזה, ייצור מחשב? למה בדיוק אנחנו נתגעגע? הרי אחד הדביטויים החוזרים בחיפוש בתוכנות אלו הוא "Trending on Artstation" שזה לבקש מהמחשב לייצר משהו שכבר נראה כאילו יוצר על ידי אלגוריתם. אני כמובן לא מאמין שאין ערך ליצירה אנושית עכשווית. להפך. אני חושב שההתרחקות מיצירה אנושית היא שמאפשרת למחשב לחקות את הדלות הזו. ומצד שני אני מאמין גם שעם הזמן השאלה לא תהיה "מי יצר" אלא מהו הדבר בעל הערך.

מה התוכנות האלו עושות?

התוכנות השונות עובדות על עיקרון דומה. אתה מזין להן טקסט ומקבל דימוי. לכל תוכנה יש את היתרונות שלה והחסרונות שלה. Midjourney היא האמנותית כי ככל הנראה אימנו אותה דרך המון עבודות קונספט ארט. יש לה חוש לצבעוניות ואסתטיקה גם אם בשלב מסויים הדימויים כבר מזוהים ומוכרים. Dall-E 2 היא היתה הראשונה למיטב ידיעתי והיא מאפשרת גם הרחבת תמונה קיימת (היא מסוגלת להמשיך תמונה ולהמציא את מה שלא רואים בה). וישנה גם Dream studio שאני לא ממש מחבב. בכל אחת מהן תקבלו כמה נסיונות חינם ואז אפשרות בתשלום. החוקים לגבי זה, כולל זכיות יוצרים וזכויות שימוש, משתנים ככל שהתוכנות מתקדמות והיוצרים לומדים מה השימוש הנפוץ בהן.

אחרי שהתוכנות האלו למדו מה מצופה מהן כשמבשקשים מהן משהו הן מייצרות כמה וריאציות. לפעמים ניתן לערוך את התוצאה ולפעמים לא. בDALL-E ניתן למחוק חלק מהתוצאה ולבקש להחליף שם אלמנטים. בMJ אפםשר לבקש עוד וריאציות מאותו דבר. דוגמאות בהמשך. התוכנה לא תמיד מצליחה לדייק או לבטא כל מה שמבקשים ממנה. לא הצלחתי לגרום לה לצייר מישהו מתחת לשולחן אלא תמיד מעליו. היא לא יודעת עדיין לכתוב מילים ברור או עם הגיון. לפעמים פרטים שביקשתם פשוט לא מופיעים. זו לא בהכרח בעיה אם מסתכלים על המחשב מנגנון השראה שאמור לשבור כללים ולהפתיע. כמו בזוגיות: אנחנו מחפשים משהו מוכר ומפתיע באותו זמן והפרדוקס הזה מניע אותנו. כמובן, יש בחלק מהתוכנות הגבלה על מילים מסוימות מטעמים שונים בהם חשש מיצירות סקסיסטיות, גזעניות או אלימות במיוחד או מתמונות פייק של אנשים אמיתיים.


דוגמאות לאקספרימנטים שלי בשימושים מגוונים:

קפקא בניו יורק:

לאחר עיבוד שלי:

רוב התוצרים שתראו ברשומה זו נוצרו בMJ (Midjourney) כי היא האהובה עליי. פה רציתי פוסטר לסרט של דיסני שלא קיים: קפקא בניו יורק. הפרומפט (מילות התיאור) שכתבתי הן:
Disney+Pixar style movie poster of Kafka +lost in NYC + Wearing a hat + Pixar animated movie poster, unreal engine, Cinematic lighting, 3D graphics rendering, Ambient Occlusion,
כמו שאתם רואים אפשר לכתוב תיאור ארוך ובו להתייחס לאלמנטים שמופיעים, לסגנון, לאוירה, לטכניקה, מנועי רינדור מעולם התלת והמשחקים ועוד. אפשר גם לבקש השפעה מאמן ואפילו מיקס של כמה אמנים יחד.

הנסיכה והעדשה: חתך סטרטיגרפי של מזרנים

זו היתה בקשה מוזרה ובאמת המחשב לא הצליח להבין מה אני רוצה. הוא לא הצליח לתרגם את ערימת המזרנים של הנסיכה לחתך סטרטיגרפי. מצד שני, תראו איזה יפה החתך עצמו יצא. כאילו מישהו פרש שכבה של מזרונים מלכותיים. זה קסום בעיניי.

חדר במלון בנושא "מעבר לחומת הגן"


זו הצלחה מרשימה! לקחת רעיון מופשט כמעט של "נושא" ולקחת אלמנטים מסדרת אנימציה ולחשוב איך יראה חדר מלון שזה הנושא שלו. מדובר ביכולת מרשימה גם להפשטה וגם ליישום אסתטי ומגניב במדיום אחר: עיצוב פנים. 10 בסולם יוני. הייתי רוצה לישון בחדר כזה.

סיזיפוס סוחב עגלת קניות במעלה ההר:

ניסיתי ליצור דימוי לאיור שער למגזין על פי סקיצה שבצעתי כבר לאיור. כמעט התפתיתי לשלוח את התוצאה במקום יצירה שלי אבל לא רציתי שיפטרו אותי. האם זה יפה במיוחד? לא. אבל זה פתח לי כיוונים מבחינת זוית הציור, צבעוניות ואפילו מסר. איפה האבן נמצאת? למעלה או בעגלה? זה משנה את האמירה של האיור גם אם הטקסט היה אותו טקסט שהוזן.

אלה התוצאות הטובות.
היו המון גרועות ומוזרות כמו זו:

חטא העגל מנקודת מבטו של משה רבינו, בסגנון רמברנדט:


זו עבודה שאני אוהב במיוחד. חיקוי הסגון של רמברנדט וההבנה של מה שחיפשתי בתיאור. זה נוצר בMJ. בDall-e זה יצא נורא. בכלל, בכל מה שקשור לאיור וציור נראה לי שDall-e הרבה פחות טוב. ולכל התוכנות קל יותר בעבודה כתמית מאשר קווית. הקו האיורי הוא עדיין הגביע הקדוש של היצירה האנושית. כמו חתימה אישית מאוד.

התוצאה הזו, שלא מבוססת על סגנון רמברנדט, נוצרה על ידי Dall-E.


"הדיבוק" ו"הגולם מפראג" בסגנון של טים ברטון

הנסיונות הראשונים שלי עסקו בסגנון המזוהה מאוד של טים ברטון. מה אם הוא היה מעצב את ההצגה "הדיבוק" או את "הגולם מפראג". אלה תוצרים מאוד יפים שמשלבים בצורה עמניינת בין היוצר המבוקש "טים ברטון" לבין הנושא "המחזה הדיבוק". במקרה של ברטון בגלל שהסגנון שלו מזוהה והתוכן שבחרתי הוא כזה שמתאים לתכנים האפלים של ברטון אז התוצאה לא היתה מפתיעה אבל איכותית.


הסנה הבוער של משה מוצג במוזיאון


יצרתי הרבה דימויים בכיון הזה ומה שהיה מעניין במיוחד זה ההבנה של המחשב שברגע שהסנה הבוער מוצג במוזאון הוא צריך להראות כמו מיצג אמנותי ולא סתם שילוב של סנה+בוער+ מוזאון. כאן אני חולק על האמירה של רותו מודן שהחשיבה של המחשב היא בסופו של דבר קולאז'ית. המחשב כן מחפש הקשרים רחבים ולפעמים אמנותיים. לא תמיד זה עמוק אבל זה בהחלט מעבר לקולאז' סוריאליסטי זול.

שועלים יוצאים מחורבות בית המקדש





כאן ביקשתי מהתוכנה לייצר לי דימויי השראה לסרט שכבר יצרתי "ניגון" ובו שועל יוצא מקודש הקודשים. מה היה קורה אם הייתי משתמש בתוכנה להשראה בזמן שעבדתי על הסרט? קשה לדעת בדיעבד אבל אני כבר בודק לגבי הסרטים הבאים. כמה דברים מעניינים עלו מהתוצאות של השועלים האלו: הם לא תמיד מתפקדים כשועלים רגילים. לפעמים הם גדולים, לפעמים קטנים או לא קיימים ולפעמים הם חלק מהתפאורה. באחד האיורים השועל היה נראה כאילו הוא להבה היוצאת מגפרורי רגליים והרגליים עצמן נראו כמו אותיות עבריות. בהחלט הפתעה יצירתית כשמדובר בבינה מלאכותית.

קונספט ארט לסרט: האלמנה והאחים ראם.


פה נעזרתי גם בתוכנת Stable difussion. כיוון שהסרט עוסק בבית דפוס יהודי עתיק חיפשתי קודם השראה טכנית לגבי איך מקום כזה ואנשי הדפוס שעובדים בו היו נראים. זה תחליף מעניין לחיפוש בגוגל. פחות אמין אבל יותר אמנותי ובלי חשש להפרת זכויות יוצרים.
לאחר מכן ניסיתי לשלב בין בית דפוס לבית הלוויות בגלל הרעיון של הסרט:

לאחר מכן חיפשתי השראה אמנותית לעיצוב. בעיקר חיפשתי דרכים לעצב בית דפוס יהודי עתיק וצפוף בו המכונות נראות מאיימות ואולי אפילו כמו מכשירי עינויים. חיפשתי מראה מבחוץ ומבפנים וקיבלתי תוצאות יפהפיות ומגוונות:










פפה פיג מעבירה הרצאה על אנימציה:

כאן ביקשתי מDALL-E להרחיב את תמונה קיימת שהיתה לי. החלק הימני צולם המציאות, וכל החצי השמאלי של הבמה והמסך לא קיים במציאות אלא כולו ממוחשב. שימו לב שהתאורה משכנעת וכך גם החיבור בין המצולם לממומצא. ביקשתי מהתוכנה לשים שם "הרצאה של פפה פיג על אנימציה" וזה מה שיצא. נראה יותר כמו הרצאה של הבת המעוותת של מיס פיגי וקרמיט הצפרדע אבל זה מה יש...

טעימות מנסיונות נוספים:

איור כריכה לספר "חיי פיי"

להשוואה: DALL-E יצר תוצאה "נכונה יותר" אבל הרבה פחות אסתטית.

איור של הסופר והמאייר  של סילברסטיין (העץ הנדיב) ל"חלום ליל קיץ" של שייקספיר:



וזו גרסה של Cartoon Saloon לחלום ליל קיץ. מהמם.

רקעים לסדרת אנימציה בסגנון של גנדי טרטקובסקי:


הברווז הוויטרובי בעקבות "האדם הוויטורבי" של דה וינצ'י


לאונרדו דה וינצ'י נאבק במלאך. שימו לב לכלים בהם הוא נלחם.


משה רבינו בוכה יחד עם הסלע שהיכה



פארק שעשועים בנושא קפקא. פארק שאתה לעולם לא נכנס אליו:


הבית של מרי פופינס. שימו לב שהבית הוא בית אנגלי אבל הוא ממוקם בעננים. יפהפה.


אחרון: יצירת אריחים ופטרנים. אם מקלידים בMJ את המילה --tile מקבלים דימוי שיכול להיות דפוס חוזר. כמו כאן:


מה לא ניסיתי? IMG 2 IMG שזה יצירת דימוי מתמונה לתמונה במקום טקסט לתמונה. ולא נגעתי פה בוידאו אבל הנה לסיום  קליפ שנוצר מחיבור בין עורב ורקדנית בלט (לא אני סינתזתי):

מתי מריאנסקי מ"עליית המכונות" ואופיר שריף שמעצב וחוקר את הכלים הללו התראיינו לפודקסאט מעניין בנושא:

תגובות

הוסף רשומת תגובה