Marco Trombetti

עתיד

אתה יכול להגביר את סיכויי ההצלחה שלך על ידי זיהוי, ניווט וצפייה מראש של מגמות מאקרו הולכות וגדלות. הדרך הקלה לזהות מגמות כאלה היא לחיות בעתיד. אין עדיין מכונת זמן: כדי לנסות את העתיד, עליך לחיות בהקשר שבעיני רוב האנשים האחרים נחשב לעתיד. מעבדת מחקר, חברה חדשנית וקבוצת חברים בעלי עניין משותף חזק בטכנולוגיה הן דוגמאות מצוינות.

חשוב להבין מגמות מאקרו, אני יכול לחלוק כאן חוויה אישית קצרה בנושא זה.

הבינה המלאכותית מרתקת ומפחידה. שפהאנושית ותרגום בפרט הם אולי האתגרים הקשים ביותר שעומדים בפני המכונות. השפה הטבעית היא ערוץ מידע דחוס מאוד, צפוף במובן של משמעות, והוא דורש מידע קונטקסטואלי מעבר למילים עצמן כדי להיות מובן.

שפה היא האתגר הגדול ביותר שניצב בפני מכונות מאחר שהיא הדבר האנושי ביותר שיש.

משום כך, מערכות תרגום אוטומטי מתקדמות לאט; עם זאת, אין ספק שהן מתקדמות.

ב-Translated, שירות התרגום שייסדתי עם שותף, הטמענו בינה מלאכותית ב-17 השנים האחרונות כדי לסייע למתרגמים מקצועיים לתרגם טוב יותר ומהיר יותר. ניסינו ליצור סימביוזה בין האדם למכונה. עשינו זאת בדרכים רבות, אך גישה אחת חשובה היתה לספק למתרגמים הצעות (תרגומים מקדימים) לכל משפט. פיתחנו כלי תרגום לבלשנים מקצועיים, המשלב את כל החומר שתורגם באופן מקצועי וזמין באינטרנט עם בינה מלאכותית עם יכולת לחזות משפטים שלא ראתה מעולם. זהו הבסיס למוצר הקוד הפתוח שלנו שנקרא MateCat.

אחרים ניסו גישות משבשות יותר, והחליפו מתרגמים מקצועיים בטכנולוגיית תרגום מקצה לקצה. הדוגמה הבולטת ביותר היא Google Translate.

על ידי סיוע למתרגמים מקצועיים, הצלחנו לנצל הזדמנות ייחודית, כלומר למדוד את התקדמות הבינה המלאכותית לאורך תקופה של שנים רבות.

מדדנו עד כמה מתרגמים מקצועיים מתקנים את ההצעות שמספקת הבינה המלאכותית, ועשינו זאת יום אחר יום, חודש אחר חודש ושנה אחר שנה.

ב-2003, עם התמיכה הכספית החשובה של הנציבות האירופית, ערכנו פרויקט מחקר שבמהלכו תירגמנו כמה מאות אלפי מילים, ומצאנו כי שיעור התיקון הכולל (1מאמץ לאחר עריכה) עבור אנגלית> איטלקית ואנגלית> צרפתית נע סביב 43%. בשנת 2015, שיעור התיקון היה 27% עבור אותם צירופי שפות. בפעם השנייה השתמשנו במדגם של 50 מיליון מילים שתורגמו ב-MateCat. הודות ליישום תרגום מכונה עצבי ו-MMT, מערכת תרגום שמסוגלת להתאים עצמה למשתמש, אנו מעריכים שנגיע לשיעור תיקון של בין 22% ל-26% ב-2018.

שיפור זה היה בלתי ניתן לעצירה וקבוע, עם עיכובים מעטים וקטנים ועליות חדות בשל טכנולוגיה אחת שמיצתה את הפוטנציאל המקסימלי שלה וטכנולוגיה חדשה ששולבה. היו שני שינויים עיקריים: תרגום סטטיסטי, שהחל לפעול ב-2006 ולמידה מעמיקה, שהוצגה בסוף שנת 2016.

אם נמשיך בקצב הזה, מתי נגיע למצב שבו לא יהיה עוד צורך לתקן את תרגום המכונה?

אם רק נבחן את המספרים, נראה שזה יכול לקרות בין 2030 ו-2035.

עם זאת, אנו נוטים לשכוח עובדה מעניינת נוספת: בני אדם אינם מושלמים.

כאשר ניתחנו 20 מיליון מילים בהצעות תרגום של מילה כנגד מילה שטופלו בידי בלשנים אנושיים (שנקראות התאמות 100%), ראינו כי להצעות של בני אדם אחרים יש שיעור תיקון ממוצע של 11% ולא 0%. זה משום ש לטעות זה אנושי, וגם בגלל שלכל אחד מאיתנו יש סגנון ייחודי שברצונו לקדם. כאשר אנו מדברים על הייחודיות, עלינו לוודא שאנחנו מגדירים את אמת המידה. האם זו שלמות מוחלטת? המתרגם הטוב ביותר העולם? אם שמא רק המתרגם המקצועי הממוצע?

אם אנו שבעי רצון ממכונה שמתרגמת טוב יותר מהמתרגם המקצועי הממוצע, 2025 יכולה להיות תאריך סביר יותר שבו נגיע לשיעור תיקון של 11% בצירופי השפות הללו. בעיני, מפחיד כמה שזה קרוב.

תהיתי אם עליי למכור את טרנסלייטד עכשיו, מאחר שהשוק לתרגומים מקצועיים יצטמצם במידה ניכרת, או שמא עליי לנסות לרכב על גל השינוי כדי לנצל הזדמנות גדולה עוד יותר. בסופו של דבר, אנשים כנראה יזדקקו ליותר תרגומים, לא פחות. אני מרגיש קצת כמו קודאק במהלך המעבר מסרט לדיגיטלי.

העובדה שאני מודע לכך היא כבר משהו, ובגלל זה כבר החלטתי שנרכב על הגל.

סביר מאוד להניח שבינה מלאכותית תמלא תפקיד מפתח בכל הענפים בעתיד. בעוד השפה היא הדבר שהכי קשה למכונות להתמודד איתו, ייתכן שהשיבוש יקרה אפילו קודם בתחומים רבים אחרים, וזה מייצג מקור מצוין לרעיונות לסטרט-אפים.

1 מאמץ לאחר עריכה: על מנת לחשב את שיעור התיקון, אנו משתמשים באלגוריתם הדומה ל-Fuzzy Match שקיים במקומות אחרים בתעשיית התרגום. Word-Level Edit Distance (מרחק עריכה ברמת מילים) עם תיקונים כדי לקחת בחשבון שגיאות פיסוק, כתיב ומבנה.