Page 181 - גנזי קדם ז
P. 181

‫׳וקרב אותם אחד אל אחד׳‪ :‬זיהוי כתיבות יד וצירוף קטעי גניזה באמצעות מחשב ‪179‬‬

       ‫נתונים שבו הצירופים האמיתיי ם ידועים מראש‪ .‬ואכן‪ ,‬מדגם כזה של מספר אלפי מסמכים‬
                                                                             ‫נבנה לצורך בחינת המערכת‪.‬‬

       ‫להלן יובא גרף ‪ ro c‬המציג א ת רמת הביצועים הנוכחית של המערכת לזיהוי כתב יד‪,‬‬
       ‫ללא ה ת ח ש בו ת ב מ א פייני ם א ח רי ם‪ 14.‬בנוב מבר ‪ 2010‬עו מד ת ר מ ת ה א חזור של ה מ ערכ ת‬
       ‫על ‪ ,(true positive rate) 90%‬ו א חוז ה שגיא ה עומד על ‪ .(false positive rate) 0.1%‬מ עבר‬
       ‫לנקודה זו‪ ,‬ככל שאנו עולים ברמת הא חזור כך גדלה והולכת ר מ ת השגיאה‪ ,‬והמחיר שאנו‬

                                        ‫צריכים לשלם עבור שיפור רמת האחזור אינו משתלם יותר‪.‬‬

                                                        ‫‪ .4‬הרצה ראשונה‬

       ‫הרצת הגרסה הראשונה של המערכת התבצעה במעבדות החוג למדעי המחשב של‬
       ‫אוניברסיטת תל אביב ביולי ‪ .2009‬בהרצה זו נכללו כל האוספי ם שהיו בידינו צילומים‬
       ‫דיגיטליים שלהם באותו הזמן‪ .‬ר שימת אוספים זו חופפת לרשימה הנ מצא ת כיום‬
       ‫באתר פרויקט פרידברג לחקר הגניזה‪ ,‬למעט אוסף קמברידג׳ ואוסף הספרייה הבריטית‪,‬‬
       ‫שצילומיהם עדיין לא היו מוכנים לשימוש‪ ,‬וכן מספר אוספים ק טנים שנוספו בשלב‬
       ‫מאוחר יותר‪ .‬לפיכך אין נכללים בהצעות הצירוף קטעים מספריות אלה‪ .‬בהרצה זו נכללו‬
       ‫בסך הכול קרוב לשמונים אלף תמונות‪ ,‬והיא התבצעה בעשרים וארבעה מחשבים שהריצו‬

                                            ‫‪ 14‬גרסה רחבה יותר של גרף זה נמצאת במאמר הנזכר לעיל‪ ,‬הערה ‪.12‬‬
   176   177   178   179   180   181   182   183   184   185   186