Page 182 - גנזי קדם ז
P. 182

‫‪ 180‬אהרן שויקה‪ ,‬יעקב שויקה‪ ,‬ליאור וולף‪ ,‬נחום דרשוביץ‬

‫א ת ה מערכת במשך כשלושה שבועות‪ .‬בהרצה זו נבדק רק הדמיון בין כ תיבו ת היד ולא‬
                                      ‫נעשה שימו ש במאפיינים א חרים של הקטע שצוינו לעיל‪.‬‬

‫בדיקה רא שונית של כחמ שת אלפים זוגות‪ ,‬מתוך אלפים רבים של זוגות שהתוכנה‬
‫סי מנה כצירופים‪ ,‬העלתה כחמ ש מאות וחמי שים צירופים חזקים וכשלוש מאות ע שרים‬
‫וחמישה צירופים חל שים‪ .‬הואיל והתוכנה אמורה לזהות כתיבות דומות ואינה מבדילה‬
‫בין צי רו ף חז ק ל צי רו ף חל ש‪ ,‬הג ד רנו א ת שני ה סו גי ם כ תו צ א ה חיו בי ת נ כונ ה )‪true‬‬
‫‪ .(positive‬מ כ אן ש כ ש ב ע ה ע ש ר א חוזי ם של הזוגו ת מ תו ך ה מ דג ם שנ ב ד ק היו תו צ או ת‬

    ‫חיו ביו ת נ כונו ת )‪ ,(true positive‬ו ה ש א ר היו תו צ או ת חיו ביו ת ש גויו ת )‪false positive).‬‬
‫מתוך מאות הצירופים שהתוכנה זיהתה ואו שרו על ידינו כצירופים נכונים‪ ,‬אנו‬
‫מפרסמים כאן מבחר מצומצם של מאה ושלושה ע שר צירופים המורכבים מכשלוש מ או ת‬
‫וע שרים ק טעי גניזה‪ .‬ככל הידוע לנו‪ ,‬כל הצירופים ה מפורס מי ם להלן לא היו ר שומים עד‬
‫עתה‪ .‬קטלוג צירופים זה מוכיח באופן מ שכנע א ת יכולתה של המערכת ל א תר צירופים‬
‫חדשים של ק טעי גניזה‪ .‬יש לציין כי היכולת המוכחת של התוכנה אינה תלויה בסגנון‬
‫הכתב‪ ,‬ובין הצירופים שזוהו ניתן למצוא א ת כל סגנונו ת הכתב‪ :‬מרובע‪ ,‬בינוני או רהוט‪,‬‬

                                                         ‫ובכתב מזרחי‪ ,‬ספרדי‪ ,‬איטלקי או אשכנזי‪.‬‬

                                                   ‫‪ .5‬המשך הפיתוח‬

‫פיתוח המערכת עדיין לא הס תיי ם‪ .‬בימים אלה אנו מכינים א ת ההרצה הבאה של‬
‫ה מ ע ר כ ת‪ ,‬ש ת כ לו ל יו ת ר מ מ א תיי ם אל ף ת מונו ת )‪ 20x109‬ה שוו או ת(‪ .‬בז מן ש ח ל ף מן‬
‫ההרצה הרא שונה שיפרנו א ת אלגורי ת ם הה שוואה בין כתבי היד שיפור של ממש‪ ,‬פי ת חנו‬
‫אלגוריתמים נוספים לגזירה אוטומטית של מאפייני הקטעים‪ ,‬ושילבנו א ת בסיס הנ תוני ם‬
‫באופן שיאפ שר למערכת לשקלל לצורך הה שוואה פרמטרים נוספים של הקטעים‪ ,‬כמו‬
‫מידות הדף‪ ,‬מספר ה שורו ת ותוכן הק טעי ם‪ .‬כמו כן הוספנו ל מערכת יכולת להת מודד‬
‫עם תוצ או ת שגויות שיוצרים קטעים בעייתיים‪ ,‬והתחלנו לגבש דרך לעיבוד חכם של‬

                   ‫ה תו צ או ת ה מ תקבלו ת כדי ל א תר בהן ב מהירות תו צ או ת חיוביות שגויות‪.‬‬
‫אנו מעריכים שבהרצות הבאות יהיו התוצאו ת טובות יו תר במידה ניכרת‪ ,‬ואנו מקווים‬
‫שהן יגיעו לרמה מ שביעת רצון ונוכל להעמיד אותן בעתיד לר שות ה חוקרים ב מסגרת‬
‫ה א תר של פרויקט פרידברג ל חקר הגניזה‪ .‬בכך נתקרב מאוד לקר א ת מה שנראה כרגע‬
‫כחלום רחוק‪ :‬העמדה חדשה של כל הגניזה הקהירית‪ ,‬על כל אוספיה‪ ,‬מ שוחזרת לטפסים‬
‫המקוריים ככל ש שרדו בזמן גניזתם‪ .‬מימו שו המוצלח של חזון זה עדיין מחייב עבודה רבה‪,‬‬
‫ובין ה ש אר י ש צורך בבדיקו ת מדגמיות ר חבו ת של ה תו צ או ת‪ ,‬בעדכונים של ה אלגורי ת מי ם‬
   177   178   179   180   181   182   183   184   185   186   187