Example-based Machine Translation תרגום מכני מבוסס דוגמאות

Example-based Machine Translation תרגום מכני מבוסס דוגמאות
סמינר בבלשנות חישובית – בהנחיית פרופ' עוזי אורנן הפקולטה למדעי המחשב , טכניון מיכאל זמדמל ארתור אומנסקי Example-based Machine Translation תרגום מכני מבוסס דוגמאות Harold Somers, Machine Translation vol. 14 (1999) pp

מה מצפה לנו ? קצת רקע שיטות דומות הסבר כללי על EBMT טיפול בדוגמאות
שלב התרגום – התאמה ויישור שלב ההרכבה סוגים שונים של EBMT סיכום

רקע החל משנות התשעים, חל שינוי בתפיסה של שיטות תרגום מכניות.
השיטות הנהוגות עד אז היו מבוססות על חוקים בלשניים. מחקר רב הושקע בחקר פרדיגמה חדשה: גישות אמפיריות המבוססות על דוגמאות. (EBMT) בשנת 98 במהלך כנס העוסק בתרגום מכני Peter Brown זעזע את הקהל כשהציג את הגישה "הטהורה סטטיסטית" של IBM. “Every time I fire a linguist, my system’s performance improves”

הצגת השיטה לראשונה שיטה אשר עושה שימוש בקורפוס של דוגמאות תרגום במקום בסט של חוקים בלשניים. תדהמה ועוינות מצד החוקרים: היו רגילים לשיטות עבודה אחרות ויכוח בין התומכים והמתנגדים לשיטה Data-driven VS. Theory-driven נוצר מצב של יריבות בין שיטות בלשניות לשיטה הנ"ל יריבות שהפכה במהרה לשיתוף פעולה יצירה של שיטות חדשות היברידיות משלבות תרגום מבוסס חוקים (בלשני) עם תרגום מבוסס דוגמאות

סקירת הגישה – שיטות שונות
קיימות שיטות שונות אשר עושות שימוש בתהליכים אופיינים ל-EBMT קורפוס – מאגר דוגמאות מתורגמות לאחר שעברו עיבוד תהליך של התאמת קלט לדוגמאות תרגום מתאימות מהקורפוס הרכבה אנלוגית ליצירת התרגום הנכון נפרט עליהן בהמשך.... נחשיב את כולן כווריאציות של EBMT Analogy-based Memory-based Case-based Experience-guided

"תרגום מבוסס זיכרון" – Translation Memory (TM)
זו גם גישה המבוססת על קיומו של קורפוס קיים מאגר מידע המכיל טקסט מקור ותרגום תרגום בעזרת TM מעלה מספר הצעות תרגום על סמך התאמות לטקסטים קיימים במאגר המידע. התהליך הוא אינטרקטיבי המשתמש מקבל הצעות תרגום לקלט שהוא מכניס למערכת המשתמש מחליט אם להיעזר בתרגום המוצע ובוחר את התרגום שהכי מתאים לדעתו.

"תרגום מבוסס זיכרון" – Translation Memory (TM)
נהוג לקשר את EBMT לשיטת TM בגלל הדמיון בשימוש חוזר של דוגמאות תרגום קיימות מהקורפוס. שתי השיטות התפרסמו באותה התקופה לעתים תכופות שתי השיטות נחשבו כשיטות זהות השוני בין TM ל-EBMT TM הוא כלי עזר למתרגם אנושי בניגוד ל EBMT שהוא כלי אוטומטי TM אינו מבצע פעולות אוטומטיות בניגוד ל EBMT המייצר אוטומציה של התרגום.

EBMT – הרעיון הבסיסי גישה המבוססת על קורפוס דוגמאות
קיים מאגר מידע המכיל דוגמאות מתורגמות תהליך התרגום מזכיר תהליך תרגום אנושי אין ניתוח לשוני עמוק. פירוק משפט לחלקים , תרגום כל חלק בנפרד והרכבה מחדש. הרעיון של תרגום המבוסס דימיון: תרגום ע"י התאמת דוגמאות קיימות במקום שימוש בחוקים בלשניים “Existing translations contain more solutions to more translation problems than any other available resource.” (P. Isabelle et al., TMI, Kyoto, 1993)

EBMT – הרעיון הבסיסי התאמה (Matching) - מציאת הדוגמאות המתאימות ביותר
עקרונות התרגום: התאמה (Matching) - מציאת הדוגמאות המתאימות ביותר יש לנו קורפוס מוכן מראש עם דוגמאות בשפת מקור והתרגום שלהן לשפת יעד בהינתן קלט שרוצים לתרגם, מחפשים דוגמא מתאימה בקורפוס סידור (Alignment) - זיהוי חלקים מתאימים ולא מתאימים בחירה של חלקי משפט שמתאימים וניפוי של חלקי משפט שלא מתאימים הרכבה (Recombination)- הרכבה של התרגומים החלקיים

EBMT – שיטת עבודה מחלקים לפרגמנטים את משפט הקלט אשר ברצונינו לתרגם
מחפשים התאמה בין דוגמאות מהמאגר לבין הפרגמנטים מתרגמים כל פרגמנט בנפרד מרכיבים את הפרגמנטים השונים ליצירת משפט מתורגם בעל מבנה דקדוקי נכון תוך ביצוע תיקונים נדרשים (שינוי סדר מילים וכו'...)

“Vauquois pyramid”

EBMT – דוגמא (Sato & Nagao 1990) קלט
He buys a book on international politics התאמות He buys a notebook. הוא קונה מחברת. I read a book on international politics. אני קראתי ספר על פוליטיקה בינלאומית . תוצאה הוא קונה ספר על פוליטיקה בינלאומית

ה–"קורפוס" (מאגר של דוגמאות)
זהו אוסף של דוגמאות טקסט בשפת המקור הצמודות לתרגומן בשפת היעד. אורך הדוגמאות אינו אחיד ויכול להשתנות מספר הדוגמאות אינו קבוע גם כן חוקרים יכולים ליצור לעצמם קורפוס משלהם או להשתמש במקורות טקסט קיימים , כגון: הפרלמנט הקנדי וההונג-קונגי מספקים קורפוס דו לשוני גדול של תרגומים של החלטות פרלמטריות האו"ם מספק מקור טוב למסמכים רב לשוניים WWW – מספק מקור מצוין לתרגומים במגוון שפות (אתר חדשות למשל...)

המגבלות של שימוש בקורפוס
קורפוסים קיימים מטבעם ממוקדים לרוב בנושאים מסוימים מה שגורם ל EBMT להיות מתאימה יותר לתרגום של תתי שפות תת שפה היא תחום מסוים בשפה (ספורט, כלכלה, מדע....) קורפוסים קיימים אינם נמצאים לרוב בצורה המתאימה לתרגום ונדרש עיבוד על מנת להתאימם לצורה זו חלוקה לסגמנטים למשל התאמה של סגמנט (בדר"כ משפט) בשפת מקור לסגמנט המקביל בשפת יעד קושי בחלוקה לסגמנטים בשפות בעלות טיפולוגיה שונה עברית-אנגלית קשה אנגלית-גרמנית קל

יצירת הקורפוס נרצה ליצור מאגר דוגמאות המחולקות לסגמנטים מתורגמים
נרצה לבנות מאגר בצורה שתקל עלינו למצוא התאמות כאלו נוצרת השאלה מה הגודל האופטימלי לחלוקת המקטעים ? משפט חלקי משפט מילים אוסף של כמה משפטים

האיזון בין אורך לדימיון של מקטעים
מהו האורך האופטימלי? עבור מקטעים ארוכים מדי הסיכוי להתאמה מושלמת קטן עבור מקטעים קצרים מדי הסיכוי לרב-משמעות גדל לבחירה של אורך המקטעים תהיה השפעה על איכות התרגום בחירה אינטואיטיבית תהיה מקטע באורך משפט נראה כי בדר"כ הוא פשוט ולא מורכב (באורך פסוקית אחת Clause - ) קל לזהות סיום והתחלת משפט למרות שמחקרים מציעים מקטעים קצרים יותר במציאות, משפטים הם מורכבים יותר ומהווים אורך מקטע ארוך מדי למטרות מעשיות תהליך ההתאמה והרכבה דורש חלוקה למקטעים קצרים יותר “the potential of EBMT lies in the exploitation of fragments of text smaller than sentences” Cranias (1994)

דוגמא נרצה לתרגם את המשפט הבא: במאגר הדוגמאות הבאות:
Michael was next to present his work במאגר הדוגמאות הבאות: We have to present our work tomorrow אנחנו צריכים להציג את העבודה שלנו מחר He bought the present yesterday הוא קנה את המתנה אתמול חלוקה למקטעים קטנים מידי עלולה להביא לתרגום לא נכון אם החלוקה היית למקטעים של מילה היינו עלולים לקבל את התרגום הבא: מיכאל היה הבא ל "מתנה" את עבודתו במקום מיכאל היה הבא להציג את עבודתו לכן נדרשת חלוקה למקטעים יותר ארוכים למציאת ההקשר

גודל המאגר נשאלת השאלה , מה מספר הדוגמאות שיש לאחסן במאגר ?
הצורה בה הן יאוחסנו יכולה להשפיע על הכמות הנדרשת המגמה הכללית היא שמאגרים גדולים יותר נותנים תוצאות טובות יותר אבל מניחים שקיים גבול שאותו אין לעבור הגדלה מעבר לא תשפר את התוצאות ויכולה אפילו להזיק מקרה מיוחד הוא ניסוי של עבודה עם WWW כקורפוס Grefenstette’s (1999) expiriment אין מסקנה חד משמעית , רק שיש עוד מקום למחקר רב בנושא

התאמה של דוגמאות אילו דוגמאות עלינו לשלב במאגר ? אין הסכמה גורפת
קיימות מערכות העובדות עם מאגרים שנוצרו בצורה ידנית או ע"י סינון קפדני של סט דוגמאות "טבעיות" מאגרי מידע גדולים המכילים טקסט "טבעי" יכולים להכיל: דוגמאות חופפות שמתחרות זו בזו דוגמאות זהות דוגמאות שסותרות אחת את השנייה כפילויות יכולות לעזור למערכת במידה והן מסכימות על התרגום ולהזיק במידה ויש קונפליקט.

התאמה של דוגמאות (פתרונות)
משתמשים במדד דימיון המבוסס על תדירות תרגום לדוגמאות תרגום שמופיעות באופן תדיר יותר יהיה סיכוי גבוה יותר להבחר בתור דוגמא שעליה יתבסס התרגום ללא שימוש במדד דמיון ריבוי של דוגמאות זהות או חופפות גורמות לנזק מבחינים בין דוגמאות כלליות ודוגמאות חריגות על מנת לדמות התנהגות של שיטות מבוססותו חוקים בלשניים.

התאמה של דוגמאות - דוגמא
נרצה לתרגם את המשפט הבא לאנגלית: "אני משתמש במחשבון" במאגר נמצאות הדוגמאות הבאות: אני חולק את השימוש במחשב I share the use of a computer אני משתמש במכונית I use a car אפשרויות התרגום על סמך הנ"ל יהיו: I share the use of a calculator I use a calculator בגלל הקירבה בין מחשב ומחשבון יבחר תרגום מספר 1 על סמך דוגמא 1 למרות שהתרגום הנכון היה צריך להיות 2. היה ניתן למנוע את זה ע"י הסרה של דוגמא 1 מהמאגר או הגדרתה כדוגמא חריגה.

צורות אחסון של דוגמאות בכדי שהמערכת תהיה יעילה נדרש לאחסן את התרגומים בצורה יעילה קיימות צורות רבות של איחסון String pairs אחסון של טקסט בשפת מקור ממול מחרוזת תרגום בשפת יעד Indexing לקוח מעולם איחזור המידע (IR), עובד בדומה למנועי חיפוש באינטרנט Tree structures הדומאות מאוחסנות בזוגות של מבני עצים בעלי קשרים יש לספק מידע נוסף על הדוגמא פרט לתרגום עצמו לדוגמא המילה OK - פירושה משתנה כתלות בהקשר ("I agree", “I understand” ) במקרה כזה נצטרך לאחסן אותה עם מידע נוסף

1. אחסון בעזרת מבני עצים שיטת אחסון בה הדוגמאות מאוחסנות בעצים מתוייגים (בעלי מידע נוסף). עץ דוגמא בשפת המקור מקושר לעץ דוגמא בשפת היעד קיימות שיטות שונות לבניית העצים, מבוססות על חוקים מהעולם הבלשני . שיטת אחסון זו דורשת ניתוח תחבירי של הדוגמא על מנת לבנות את העץ .

1. אחסון ע"י עצים בשיטה זו מאחסנים את הדוגמאות בעצים.
ישנו עץ לדוגמא בשפת המקור ועץ לדוגמא בשפת היעד יש מספר שיטות לבניית העצים, כולם מתבססים על חוקים תחביריים של השפה . קישורים בין צמתים בשפת המקור לצמתים בשפת היעד. שיטת אחסון זו מזכירה קצת תרגום מבוסס חוקים משום שהיא דורשת ניתוח תחבירי של הדוגמא , על מנת לבנות את העץ.

1. אחסון ע"י עצים - דוגמא aoi nagai Kanojo wa kami ga nagai.
SHE (topic) HAIR (subj) IS-LONG. She has long hair. Kare wa me ga aoi. He has blue eyes. kanojo nagai kami wa ga have she hair long subj obj mod aoi me he kare eyes blue

האינדקסים השמאליים מתארים את השלב בו נקראת המילה במעבר על העץ.
picks[v]up)p) ( /0-5) מרים (פועל) (1-2/0-5) הוא (ש"י) (0-1/0-1) כדור (ש"ע) (4-5/2-5) He [n] (0-1/0-1) ball [n] (3-4/2-4) ה (ידיעה) (3-4/2-4) the[det] (2-3/2-3) את (מ"י) (2-3/2-3) He picks the ball up הוא מרים את ה כדור האינדקסים השמאליים מתארים את השלב בו נקראת המילה במעבר על העץ. האינדקסים הימניים מתארים את התת עץ הנפרש ע"י הצומת (המילה) קיימת בנוסף יחידת קישור בין 2 העצים אשר מקשרת בין תתי העצים

2. אחסון ע"י דוגמאות מוכללות
סוג של תבניות לשוניות המייצגות קבוצה של דוגמאות דומות דוגמאות דומות יכולות להיות משולבות לכדי דוגמא מוכללת חלקים מהדוגמאות מוחלפים בסימנים שמהווים חלק מהתבנית מזכיר מערכת של חוקי המרה בכדי להכניס דוגמא חדשה צריכה להיבחר עבורה תבנית מתאימה ע"י שימוש במילון וסטטיסטיקה.

2. אחסון ע"י דוגמאות מוכללות
במאגר נמצא התרגום הבא: תרגום מקורי משפת המקור לשפת יעד: John Miller flew to Frankfurt on December 3rd. John Miller ist am 3. Dezember nach Frankfurt geflogen. דוגמא מוכללת שבנינו מדוגמת התרגום לעיל: <1stname> <lastname> flew to <city> on <month> <ord>. <1stname> <lastname> ist am <num>. <month> nach <city> geflogen. תרגום ע"י מציאת התאמה: Dr Howard Johnson flew to Ithaca on 7 April 1997. המשפט הנ"ל יכול להיות מתורגם ע"י שילוב הדוגמאות המוכללות הבאות: <person-m> flew to <city> on <date> . < person-m > ist am <date> nach <city> geflogen.

3. אחסון ע"י שיטות סטטיסטיות
לא מאחסנים את הדוגמאות עצמן מאחסנים נתונים סטטיסטיים על מספר ההופעות של מילים ומחרוזות כנגד תרגומים בקורפוס עליו מתבססים תהליך התרגום מורכב מחיפוש מחרוזת בשפת היעד אשר נותנת תוצאה אופטימלית בהנתן מחרוזות המקור

התאמה - Matching שלב מציאת הדוגמא המתאימה עבור הקלט
בעקרון השלב הפשוט בתהליך התרגום תלוי בשיטת האחסון של הדוגמאות יכול להתבצע בצורה יעילה עבור שיטות אחסון המכילות מידע נוסף (POS tags, semantic info, structural representations) בשיטות סטטיסטיות מציאת ההתאמה היא משימה מתמטית התאמת הדוגמא ע"י מציאת הסתברות מקסימלית בשיטות יותר קונבנציונליות משימת ההתאמה בעלת אופי בלשני.

התאמה מבוססת תווים התאמה בין מחרוזות או תווים
מבוססת על דימיון מחרוזות ומרחקים בין מחרוזות המאגר שלנו מכיל טקסטים מתורגמים משפה א' לשפה ב' מחפשים התאמה של מחרוזת קלט למחרוזת במאגר הנתונים אשר קיים עבורה תרגום, ההתאמה תתבצע לפי שיויון של תווים ב-2 המחרוזות בשיטת איחסון דוגמאות כמחרוזות ההתאמה נעשית ברמה של תווים בתחילה היו נדרשות התאמות מדויקת בין 2 דוגמאות. חוץ ממחרוזות אלפאנומריות – זוהי מחרוזת המשלבת אותיות ומספרים

התאמה מבוססת תווים - דוגמא
1. a. This is shown as A in the diagram b. This is shown as B in the diagram בדוגמא 1 תהיה התאמה בין a ל-b כיוון שיש התאמה מלאה פרט למחרוזות אלפא-נומריות (A ו-B) 2. a. The large paper tray holds up to 400 sheets of A3 paper. b. The small paper tray holds up to 300 sheets of A4 paper. בדוגמא 2 לא תהיה התאמה בין a ל-b כיוון שלמערכת אין אפשרות לדעת שיש קשר בין large ל-small.

התאמה מבוססת מילים השיטה ה"קלאסית" למציאת דימיון בין מילים
שיטה שהייתה בשימוש נרחב במערכות מוקדמות מבוססת על שימוש במילון למציאת דימיון בין מילים ההתאמה מתקיימת גם כאשר מילים מסוימות אינן מופיעות אלא מופיעות מילים קרובות אליהן (על סמך תרגום מילוני) מילים קרובות מתגלות ע"י מרחקים יחסיים במילונים הררכים או מדדים משותפים בעיות מהשיטה הקודמת לא קיימות בשיטה זו שיטה יעילה לבחירה בין דוגמאות דומות מתחרות

התאמה מבוססת מילים - דוגמא
המאגר מכיל את הדוגמאות הבאות: A man eats vegetables אדם אוכל ירקות Acid eats metal חומצה מאכלת מתכת הקלט לתירגום: He eats potatoes המילה " “potatoes קרובה יותר למילה"vegetables" מאשר למילה “metal” . המילה "He" קרובה יותר למילה “man” מאשר למילה “acid” לכן, הפירוש של המילה eat יילקח מדוגמא מספר 1 המשפט יתורגם ל: "הוא אוכל תפוחי אדמה"

התאמה מבוססת מילים – דוגמא
המאגר מכיל את הדוגמאות הבאות: A man eats vegetables אדם אוכל ירקות Acid eats metal חומצה מאכלת מתכת הקלט לתירגום: Sulphuric acid eats iron המילה “iron” קרובה יותר למילה “metal” מאשר למילה “vegetables” בגלל השימוש המשותף במילה “acid” הפירוש של המילה eat יילקח מדוגמא מספר 2 המשפט יתורגם ל: "חומצה גפריתנית מאכלת ברזל"

Caroll’s “Angle of Similarity”
מדד דמיון טריגונומטרי המבוסס על אורך יחסי ועל התוכן היחסי של המחרוזות המיועדות להיות מותאמות מדד זה מחפש מילים דומות ולוקח בחשבון השמטות, הוספות והחלפות במסד הנתונים עבור דוגמא נתונה מתבצעת הערכה של העלות ועלות זו יכולה לשקף הכללות לשוניות. לדוגמא, עבור שני משפטים שהקלט מושווה מולם פסיק חסר במשפט אחד יהיה בעל עלות נמוכה יותר מאשר שם תואר או שם עצם חסר חסר במשפט השני כלומר, משפט השונה בפסיק ממשפט הקלט יחשב קרוב יותר אליו

Caroll’s “Angle of Similarity”
: d מרחק בלשני נחשב את d מרחק בלשני טריגונומטרי המרחק בין 2 משפטים מתאים לפונקציה המרחק δ פונקציה זו עובדת בצורה דומה לפונקצית התאמת מחרוזות המשקל מוגדר על פי תחום התרגום של המערכת נבחרת הזווית הקטנה ביותר

דוגמא הקלט למערכת יהיה המשפט הבא (a):
a. Select “Symbol” in the insert menu. b. Select “Symbol” in the insert menu to enter a character from the symbol set c. Select “Paste” in the edit menu. d. Select “Paste” in the edit menu to enter some text from the clip board. רוב שיטות ההתאמה יבחרו ב-c כהתאמה הטובה ביותר (הבדל רק ב-2 מילים) אבל, אינטואיטיבית רואים כי b מתאים יותר עבור תרגום של a בנוסף, בין b ל-d יש דמיון רב יותר מאשר בין a ל-c למרות שהבדל המילים בין b ל-d גדול יותר.

דוגמא a. Select “Symbol” in the insert menu. [השקפים אינם מבהירים את השיטה כראוי ] b. Select “Symbol” in the insert menu to enter a character from the symbol set c. Select “Paste” in the edit menu. d. Select “Paste” in the edit menu to enter some text from the clip board. הזווית 0 בטבלה מראה שההבדל בין a ל- b נובע מהבדלי אורך בלבד הבדל כמותי ולא איכותי בדומה השורות השנייה והשלישית מראות גם הבדל כמותי וגם איכותי בין המשפטים, אבל, ההבדל בין b ל-d קטן יותר (זווית קטנה יותר)

התאמת מילים עפ"י חלקי דיבר
נתייג מילים על סמך חלקי דיבר (POS-Part Of Speech) התג מכיל אינפורמציה על המילה (ש"ע, ש"ת, פועל...) נעשה ניתוח על סמך חלקי דיבר מה ההסתברות של כל חלק דיבר בהינתן מילה נסתכל על כל ניתוחיה לכל ניתוח מסתכלים על חלק הדיבר ונותנים את הניתוח הנפוץ ביותר ההקשר לא נלקח בחשבון ועל כן התוצאות פחות טובות ניתן לשפר את התוצאות אם ננסה לנתח גם את ההקשר (למשל לפני שם תואר יבוא בדר"כ שם עצם)

הרכבה לאחר שהתאמנו סט של דוגמאות והתרגומים שלהן, סיננו מהתרגומים את הפרגמנטים המתאימים, נשאלת השאלה כיצד נרכיב אותם לכדי משפט שיהיה נכון דקדוקית? תלוי איך הדוגמאות מאוחסנות צריך להרכיב את הפרגמנטים בצורה שתיצור תרגום נכון

הרכבה – דוגמא טובה He buys a book on politics התאמות תוצאה
He buys the notebook. הוא קונה את המחברת He buys the pen הוא קונה את העט I read the book on politics. אני קורא את הספר על פוליטיקה She wrote the book on politics. היא כתבה את הספר על פוליטיקה תוצאה הספר על פוליטיקה הוא קונה את.

הרכבה – דוגמא לא טובה הוא הביט באישתו נרצה לתרגם את המשפט הבא לאנגלית:
התאמות He cheated his wife הוא בגד באישתו He looked at his watch הוא הביט בשעונו תוצאה מקבלים תרגום שגוי He looked his wife בשפה העברית מציינים מושא בעזרת הקידומת "ב" בשני המקרים בשפה האנגלית ציון המושא מתרחש פעם על ידי הקידומת “the” ופעם על ידי הקידומת “at the” חוסר מידע בלשני גורם למערכת לתרגם את ציון המושא בצורה לא נכונה --> כדי לקבל תוצאות טובות צריך להכניס גם מידע בלשני ! מילת היחס כרוכה בפועל. במילון צ"ל Look at ולא רק look

בעית - Boundary Friction
ישנן שפות בהן שמות עצם ,למשל, מקבלים צורה שונה בהתאם לתפקיד השם במשפט כאן, דוגמא של תרגום מאנגלית לגרמנית כאשר השם עצם "the handsome boy" מקבל צורה שונה בתרגום לגרמנית במשפט השני כאשר הוא מקבל תפקיד תחבירי שונה (נשוא מושא במקום נושא) קלט: The handsome boy entered the room התאמות: The handsome boy ate his breakfast. Der schöne Junge aß sein Frühstück I saw the handsome boy Ich sah den schönen Jungen.

בעית - Boundary Friction
פתרון אפשרי לבעייה הוא השימוש בדקדוק של שפת היעד ניתן להשתמש בכללי דקדוק על מנת לשכתב את המשפט שנוצר מחיבור המקטעים המתורגמים למשפט נכון דקדוקית דבר זה אפשרי כאשר השימוש הוא במערכות היברדיות, המשלבות כללים בלשניים פתרון זה אינו פשוט , ונכון לזמן כתיבת המאמר לא היה קיים המימוש המוצע כאן פתרון אפשרי נוסף הוא [דרוש הסבר] L abelled fragments שימוש בהקשר שבו הופיע הפרגמנט בזמן הרכבתו לפרגמנט נוסף

מודל הסתברותי שיטה נוספת להרכבת הפרגמנטים
הקורפוס יחזיק מידע סטטיסטיקות של צירופים שונים של פרגמנטים בשפת היעד צירופים של 2 מילים, של 3 מילים (n-גרם) ההסתברויות מחושבות מתוך הקורפוס בחירת הצירוף בעלת ההסתברות הגבוה ביותר אם יש יותר מאפשרות צירוף אחת , בוחרים את השכיחה ביותר

בעיות חישוביות בסופו של דבר מערכת אמיתית תהייה ממומשת על מערכות ממוחשבות דבר שגורר התחשבות במשאבי המערכת מימוש מסובך דורש הקצאות גדולות של משאבים (מקום, זמן) מה שיכול להיות בעייתי אלגוריתמים מסובכים מבני נתונים מורכבים התחזוקה של הדוגמאות ב EBMT תהייה מסובכת ותדרוש משאבי זכרון וזמן לכן, המימוש חייב להיות יעיל מכיוון שזמן מהווה גורם מכריע במערכות תרגום real-time (לדוגמא כנסים באו"ם) קיימים ניסיונות לפתור בעיות אלו ע"י מיקבול ואופטימיזציות הכללה של מספר דוגמאות לדוגמא אחת כללית (תבנית)

EBMT – when to use ישנם מצבים בהם גישת EBMT היא עדיפה על פני גישות אחרות במצבים הבאים יש יתרונות רבים ל EBMT קושי ביצירת חוקי תרגום בין שפת המקור ושפת היעד כאשר המערכת מיועדת לשמש תת שפה מסוימת קיומם של מאגרי מידע גדולים היכולים לשמש כקורפוס הרכבה של מילים לשפת היעד הינה קשה במיוחד

Pure EBMT כעקרון מערכות הנוקטות בגישה של תרגום על בסיס דוגמאות טהורה כמעט ולא נמצאות בשימוש לרב מערכות תרגום משלבות בין השיטה הנ"ל לשיטות נוספות על מנת לספק פתרון טוב היה ניסיון של המחבר לבדוק מערכת כזו שהסתיים במסקנה שעדיף להשתמש במערכות היברידיות

EBMT – למקרים מיוחדים אחד מהשימושים בשיטת ה- EBMT היה שימוש בה כמודול נוסף במערכת עבור מקרים מיוחדים, מקרים בהם הפעלת שיטה מבוססת חוקים היא מאד מסובכת דוגמא לכך היא, השימוש במודול זה עבור תרגומים מאנגלית לשפה היפנית במקרים מיוחדים דוגמא נוספת, היא שימוש בה עבור תרגומים של compound nouns ו- noun phrases מאנגלית הינם בעלי מיבנה פשוט אבל ייחודי

סיכום שיטה המתבססת על מידע שקיים במאגר המידע ולא על סט של חוקים ידועים
שיטה המתבססת על מידע שקיים במאגר המידע ולא על סט של חוקים ידועים מערכת הרבה יותר פתוחה לשינויים בשפה יש צורך בעדכון מאגר הדוגמאות, לא צריך לשנות או להוסיף חוקים מצד שני, יש צורך במאגר גדול של דוגמאות שאותו לא תמיד פשוט להשיג למרות שעם הזמן זמינות מקורות אלו גדלה, במיוחד בעקבות התפתחות האינטרנט

סיכום לסיכומו של עיניין, סקרנו הרבה מערכות הטוענות להיות מערכות "EBMT"
נשאל את השאלה מהי מערכת כזו ? מערכת בעלת קורופוס דו לשוני המכיל תרגום של דוגמאות ? EBMT אומר שהמערכת מתבססת ברובה על דוגמאות, אבל כמו שראינו דוגמאות אלו יכולות לשמש לא רק לתירגום ישיר אלא כקיצורי דרך במערכות מבוססות חוקים מטרות של מערכת כזו הן להכליל כמה שיותר את הדוגמאות הקימות במאגר אין מסקנה וודאית לגבי שימוש בשיטה ככלי היחיד בתהליך התרגום לכן אנו נניח כי קיימים סוגים שונים של תופעות, עבור חלקם היא כדאית ועבור חלקם היא לא (למשל תרגום בזמן אמת)

סיכום EBMT מאפשר לנו לפתח במהרה מערכת תרגום דו-לשונית על סמך קורפוס מקביל ומיושר בלבד. זה מהווה יתרון במקרים בהם אין לנו בהישג יד מקורות כמו מילון או כלים לניתוח תחבירי. EBMT היא בהחלט שיטה ראויה שיש לשקול בעת תכנון מערכת תרגום לא כשיטה שבאה על חשבון מערכת מבוססת חוקים אלא כשיטה שבאה לשפר תוצאות ולספק אלטרנטיבה במקרים בהם חוקים בלשניים נכשלים. המחקר עוד לא הסתיים והוא רק בתחילת דרכו מערכת התרגום של Google זכתה בניצחון סוחף בתחרויות תרגום סינית- ערבית (won 35 out of 36 categories) אף חבר בצוות הפיתוח של המערכת אינו דובר סינית או ערבית

EBMT IS: DATA DRIVEN NOT THEORY DRIVEN

ועכשיו סרט קצר על Google Translate
Inside Google Translate

Example-based Machine Translation תרגום מכני מבוסס דוגמאות

Similar presentations

Presentation on theme: "Example-based Machine Translation תרגום מכני מבוסס דוגמאות"— Presentation transcript:

Similar presentations

About project

Feedback

Log in

Auth with social network:

Example-based Machine Translation תרגום מכני מבוסס דוגמאות

Similar presentations

Presentation on theme: "Example-based Machine Translation תרגום מכני מבוסס דוגמאות"— Presentation transcript:

Similar presentations

About project

Feedback