חוקרים באוניברסיטת בן- גוריון מציגים שיטה אוטומטית לתמצות טקסטים בכל שפה
השיטה נבדקה בתשע שפות: אנגלית, עברית, ערבית, פרסית, רוסית, סינית, גרמנית, צרפתית וספרדית, ואיכות התמצות שלה נבחנה עד כה בארבע שפות – אנגלית, עברית, ערבית ופרסית, והראתה דמיון רב לתקצירים שנעשו על ידי בני אדם
עם הגידול העצום בטקסטים מקוונים, עולה הצורך בשיטות אוטומטיות לתמצות קבצי טקסט, כמו מאמרים או ראיונות, לצורך המשך העיבוד, ובמקביל, מתקצר והולך הזמן העומד לרשותנו על מנת לעבור על הכמויות העצומות של טקסטים שמתפרסמים. משום כך, נחוצות שיטות אוטומטיות לתמצות טקסטים כתובים.
רוב השיטות האוטומטיות הקיימות כיום הן תלויות-שפה והאלגוריתמים שבבסיסן צריכים לעבור אימון מוקדם על כמויות גדולות של טקסט. כעת Technologies BGN, חברת מסחור הטכנולוגיה של אוניברסיטת בן-גוריון בנגב, מציגה כלי חדש, אוטומטי, לתמצות טקסטים שאינו תלוי שפה . השיטה ישימה לתמצות מאמרים, כתבי עת, מסמכים וטקסטים אחרים במסגרת המאגרים עצמם או עבור משתמשי קצה כמו ספריות, מכוני מחקר או מנועי חיפוש כלליים.
השיטה החדשה, שהומצאה על ידי פרופ' מרק לסט, ד"ר מרינה ליטבק וד"ר מנחם פרידמן, מהמחלקה להנדסת מערכות תוכנה ומידע באוניברסיטת בן-גוריון, מספקת תקצירים של טקסטים בשפות שונות, על סמך אלגוריתם שמדרג את המשפטים במסמך, בעזרת מאפיינים סטטיסטיים של המשפטים. את הדירוג הזה ניתן לבצע למשפטים בכל שפה שהיא, ואז לחלץ משפטים בעלי דירוג גבוה לכדי תקציר. השיטה, שקרויה MUSE (קיצור של מחלץ משפטים רב-לשוני), נבדקה בתשע שפות: אנגלית, עברית, ערבית, פרסית, רוסית, סינית, גרמנית, צרפתית וספרדית ואיכות התמצות שלה, נבחנה עד כה בארבע שפות – אנגלית, עברית, ערבית ופרסית, והראתה דמיון רב לתקצירים שנעשו על ידי בני אדם.
ניסויים מראים שלאחר אימון ראשוני של האלגוריתמים על מאגר מוער של תקצירי מסמכים, שבו כל מסמך מלווה במספר תקצירים מעשה ידי אדם, התוכנה אינה חייבת לעבור אימון מחדש על תקצירים ידניים בשפות חדשות, ואותו מודל לדירוג משפטים יכול לשמש מספר שפות שונות.
פרופ' מרק לסט אמר, "תמצות מסוג זה, שבוחר את המשפטים הרלוונטיים ביותר מתוך הטקסט, על ידי דירוגם, חיוני כדי לייצר במהירות סיכומים של כמויות טקסט גדולות בשפות שונות. יכולת זו חשובה ביותר למנועי חיפוש, כמו גם עבור משתמשי קצה כמו מכוני מחקר, ספריות והמדיה".
צפריר לוי, סמנכ"ל פיתוח עסקי ב-BGN Technologies, הוסיף, "כלי זה יהווה תוספת רבת ערך ליכולת שלנו להפיק תועלת מהכמויות העצומות של טקסט שזמינות באופן מקוון. לאחר שהגשנו בקשת פטנט עבור הטכנולוגיה, אנחנו מחפשים כעת שותפים פוטנציאליים להמשך הפיתוח והמסחור של המצאה מבטיחה זו".
אודות BGN Technologies
BGN Technologies היא חברת הטכנולוגיות של אוניברסיטת בן-גוריון בנגב. החברה ממסחרת את המצאות חוקרי האוניברסיטה ומטפחת שיתופי פעולה ויזמות בקרב חוקרים וסטודנטים. BGN Technologies הקימה מעל 100 חברות הזנק במגוון רחב של תחומים טכנולוגיים כגון ביופארמה, סייבר, קלינטק, מכשור רפואי, אופטיקה ועוד. בנוסף, הקימה BGN Technologies חממות ומאיצים טכנולוגיים בשיתוף עם גופים מובילים בשוק הישראלי. בעשור האחרון יצרה החברה שותפויות ארוכות טווח עם חברות רב-לאומיות כגון דויטשה טלקום, באיירDell-EMC, PayPal ואחרות ובכך היא מסייעת ליצירת ערך ולצמיחת אוניברסיטת בן-גוריון, כמו גם הנגב כולו. למידע נוסף בקרו באתר האינטרנט של . BGN Technologies