Page 181 - גנזי קדם ז
P. 181
׳וקרב אותם אחד אל אחד׳ :זיהוי כתיבות יד וצירוף קטעי גניזה באמצעות מחשב 179
נתונים שבו הצירופים האמיתיי ם ידועים מראש .ואכן ,מדגם כזה של מספר אלפי מסמכים
נבנה לצורך בחינת המערכת.
להלן יובא גרף ro cהמציג א ת רמת הביצועים הנוכחית של המערכת לזיהוי כתב יד,
ללא ה ת ח ש בו ת ב מ א פייני ם א ח רי ם 14.בנוב מבר 2010עו מד ת ר מ ת ה א חזור של ה מ ערכ ת
על ,(true positive rate) 90%ו א חוז ה שגיא ה עומד על .(false positive rate) 0.1%מ עבר
לנקודה זו ,ככל שאנו עולים ברמת הא חזור כך גדלה והולכת ר מ ת השגיאה ,והמחיר שאנו
צריכים לשלם עבור שיפור רמת האחזור אינו משתלם יותר.
.4הרצה ראשונה
הרצת הגרסה הראשונה של המערכת התבצעה במעבדות החוג למדעי המחשב של
אוניברסיטת תל אביב ביולי .2009בהרצה זו נכללו כל האוספי ם שהיו בידינו צילומים
דיגיטליים שלהם באותו הזמן .ר שימת אוספים זו חופפת לרשימה הנ מצא ת כיום
באתר פרויקט פרידברג לחקר הגניזה ,למעט אוסף קמברידג׳ ואוסף הספרייה הבריטית,
שצילומיהם עדיין לא היו מוכנים לשימוש ,וכן מספר אוספים ק טנים שנוספו בשלב
מאוחר יותר .לפיכך אין נכללים בהצעות הצירוף קטעים מספריות אלה .בהרצה זו נכללו
בסך הכול קרוב לשמונים אלף תמונות ,והיא התבצעה בעשרים וארבעה מחשבים שהריצו
14גרסה רחבה יותר של גרף זה נמצאת במאמר הנזכר לעיל ,הערה .12