Page 180 - גנזי קדם ז
P. 180

‫‪ 178‬אהרן שויקה‪ ,‬יעקב שויקה‪ ,‬ליאור וולף‪ ,‬נחום דרשוביץ‬

‫הטבלה הבאה מסכ מת א ת מספר הה שוואות הנדר ש כדי ל מצות א ת כל קורפוס‬
                                                                                                  ‫הגניז ה‪13:‬‬

‫מספר ההשוואות‬       ‫מספר הפריטים‬     ‫מספרי מדף‬
                                         ‫תמונות‬
        ‫‪26.5 x 109‬‬         ‫‪~230,000‬‬
      ‫‪211.2 x 109‬‬          ‫‪~650,000‬‬

            ‫א ם כן‪ ,‬מדובר ב סדר גודל של ע שרו ת ו מ או ת מילי ארדי ם של פעולות ה שווא ה‪.‬‬
‫כ מו כל מ ע ר כ ת א חזו ר‪ ,‬בי צו עי ה מ ע ר כ ת נ מ ד די ם ב א מ צ עו ת גרף ‪Relative) r o c‬‬
‫‪ ,(Operating Characteristic Curve‬ה מ ציג א ת הי ח ס בין שני פ ר מ ט רי ם‪ :‬ר מ ת ה א חזו ר‬
‫ורמת ה שגיאות‪ .‬רמת האחזור נמדדת על פי אחוז ה תוצ או ת הנכונו ת שאוחזרו מסך‬
‫ה תוצ או ת הנכונו ת הקיימות‪ .‬כלומר‪ ,‬במקרה שלנו‪ :‬אחוז הצירופים הנכוני ם שהמערכת‬
‫אי ת ר ה מ ס ך ה צי רו פי ם ה קיי מי ם ב מר ח ב‪ .‬מ קו ב ל ליי צג א ת ה פ ר מ ט ר ב ע ר כי ם ש בין ‪ 0‬ל־‪,1‬‬
‫כא שר ‪ 1‬פירו שו א חזור מלא‪ .‬כמובן‪ ,‬ה שאיפה היא שהפר מטר הזה יהיה קרוב ככל האפ שר‬
‫ל־‪ .1‬ר מ ת ה שגי או ת נ מדד ת ב א מ צ עו ת א חוז ה תו צ או ת ה חיו ביו ת ה שגויות ש ה מ ערכ ת‬
‫מחזירה מתוך סך הזוגות‪ ,‬דהיינו אחוז הזוגות שהמערכת מ ס מנ ת כצירוף‪ ,‬אף שאינם‬
‫כ אל ה‪ ,‬מ תו ך מ ס פ ר הזוגו ת שנ ב ד קו‪ .‬תו צ א ה כז א ת נ ק ר א ת ‪ ,false positive‬ו ה ש אי פ ה הי א‬
‫כ מובן שי היו כ מ ה ש פ חו ת תו צ או ת מ עין אל ה‪ .‬ג ם נ תון זה נ מ ד ד ב ע ר כי ם ש בין ‪ 0‬ל־‪,1‬‬
‫כא שר ‪ 1‬פירו שו שה מערכ ת מחזירה תוצ א ה חיובית עבור כל זוג בין א ם הוא צירוף ובין‬

                                                        ‫אם לאו‪ ,‬ואילו ‪ 0‬פירו שו שאין כל שגיאות‪.‬‬
‫ככלל‪ ,‬בכל אלגורית ם שנפעיל אנו יכולים לשלוט בר מ ת הא חזור וב מספר ה שגיאות‪.‬‬
‫ואולם שני פרמטרים אלה תלויים זה בזה‪ :‬ככל שר מת הא חזור תהיה גבוהה יו תר כך‬
‫גם יגדל אחוז ה שגיאות‪ ,‬וככל שאחוז ה שגיאות יהיה נמוך יו תר כך תקטן רמת האחזור‪.‬‬
‫ההבדלים בין ה אלגורי ת מי ם ה שונים י תב ט או בי חס שבין שני הפר מ טרי ם הללו בנקודות‬
‫שונות‪ .‬על כן עלינו לקבוע מהו ה מ חיר שנרצה ל שלם כדי להעלו ת א ת ר מ ת הא חזור‬
‫או להוריד את ר מת ה שגיאות‪ .‬לשם בחינת ביצועי המערכת יש לנסו ת אותה על מרחב‬

‫‪ 13‬נכון לנובמבר ‪ 2010‬נמצאים באתו מעל מאתיים אלף תמונות‪.‬‬
   175   176   177   178   179   180   181   182   183   184   185