האתגר ביצירת דמויות עקביות בספרי AI

גלעד

אחד האתגרים המורכבים ביותר ביצירת ספרים מאוירים בעזרת בינה מלאכותית (AI) הוא יצירת איורים עקביים לאורך הסיפור. כשאנחנו קוראים ספר ילדים, אנחנו מצפים שהדמות הראשית תיראה אותו הדבר בעמוד הראשון ובעמוד האחרון – אותם תווי פנים, אותו צבע שיער, ואותו סגנון לבוש (אלא אם כן היא מחליפה בגדים, כמובן).

עבור מודלים של בינה מלאכותית, שמייצרים כל תמונה מחדש מאפס, זוהי משימה לא פשוטה. המודל עלול לשכוח פרטים קטנים, לשנות את סגנון הציור או אפילו להחליף את מראה הדמות לחלוטין בין עמוד לעמוד.

הנה שלוש גישות נפוצות להתמודדות עם האתגר, מהפשוטה למורכבת:

1. הפתרון הקיים: תבניות מוכנות (Face Swap)

זוהי השיטה הנפוצה ברבים מהשירותים הקיימים בשוק כיום. בשיטה זו, הספר בנוי על תבניות קבועות מראש. האיורים כבר קיימים, והמערכת רק "מלבישה" את פניו של הילד (מתמונה שההורים העלו) על הדמות הקיימת בציור, ומשנה את השם בטקסט.

יתרונות וחסרונות

שיטה זו מבטיחה שהדמות תיראה אותו הדבר (כי רק הפנים משתנות), והתוצאה לרוב נראית ריאליסטית באזור הפנים. עם זאת, הסיפורים שנוצרים בשיטה זו הם שבלוניים ופחות מותאמים אישית. אין כאן יצירה אמיתית של סצנות חדשות, אלא רק התאמה קוסמטית של תבנית קיימת. הילד הוא "בובה" בתוך הצגה מוכנה מראש.

2. תיאור מילולי מפורט (Text Prompts)

בגישה זו, אנחנו יוצרים "תעודת זהות" טקסטואלית לדמות. אנחנו מתארים ל-AI בפירוט רב את המראה של הילד: "ילד בן 5 עם שיער מתולתל חום קצר, עיניים ירוקות, לובש חולצת פסים אדומה ומכנסי ג'ינס כחולים". בכל פעם שאנחנו מבקשים מה-AI לייצר תמונה חדשה לסיפור, אנחנו מזינים את אותו התיאור בדיוק.

יתרונות וחסרונות

שיטה זו מעניקה חופש יצירתי עצום. אנחנו יכולים למקם את הדמות בכל סיטואציה, בכל זווית ובכל סגנון שנרצה. ה-AI יכול להמציא סצנות דמיוניות ומפתיעות. המחיר הוא פחות עקביות. המודל עשוי "לפספס" חלק מהפרטים בחלק מהתמונות, והדמות עשויה להיראות מעט שונה בין עמוד לעמוד.

3. שימוש בתמונת רפרנס (Character Reference)

זוהי הגישה המתקדמת ביותר כיום. כאן, אנחנו יוצרים תחילה תמונה אחת איכותית של הדמות שתשמש כמודל (Reference). לאחר מכן, בכל יצירה של תמונה חדשה לסיפור, אנחנו מזינים ל-AI לא רק את התיאור המילולי, אלא גם את תמונת המקור ומנחים אותו: "צייר תמונה חדשה בהתבסס על הדמות בתמונה הזו".

יתרונות וחסרונות

שיטה זו שומרת על עקביות ברמה גבוהה מאוד, שכן ל-AI יש מקור חזותי להסתמך עליו ולא רק מילים. עם זאת, המחיר הוא לעיתים תמונות עם יותר דמיון (Similiarity) לתמונת המקור, מה שיכול להגביל מעט את הגיוון בפוזות ובהבעות, שכן המודל מנסה להיצמד חזק למה שהוא כבר מכיר.

דוגמה מהשטח

הנה דוגמה לשימוש בשיטת ה-Reference מתוך ספר מספר 78:

תמונת המקור (Reference):

תמונת רפרנס

איורים מתוך הסיפור:

איור 1איור 2איור 3

כפי שניתן לראות, הדמות שומרת על המאפיינים העיקריים שלה – צורת הפנים, השיער וההבעה – לאורך הסיפור כולו.

סיכום

לכל שיטה יש את היתרונות והמחירים שלה:

  • שיטה 1 (תבניות): יוצרת סיפורים שבלוניים שפחות מותאמים אישית, אך קלה לביצוע.
  • שיטה 2 (תיאור מילולי): נותנת יותר חופש יצירתיות, במחיר של פחות עקביות בפרטים הקטנים.
  • שיטה 3 (תמונת רפרנס): שומרת על עקביות גבוהה, במחיר של תמונות עם יותר דמיון (פחות גמישות) וקושי מסוים בביצוע שינויים דרמטיים.

ב-Sipoor, אנחנו שואפים למצוא את האיזון המושלם, כדי לאפשר לילדים שלכם להיות הגיבורים של סיפורים קסומים, עקביים וייחודיים רק להם.