Page 180 - גנזי קדם ז
P. 180
178אהרן שויקה ,יעקב שויקה ,ליאור וולף ,נחום דרשוביץ
הטבלה הבאה מסכ מת א ת מספר הה שוואות הנדר ש כדי ל מצות א ת כל קורפוס
הגניז ה13:
מספר ההשוואות מספר הפריטים מספרי מדף
תמונות
26.5 x 109 ~230,000
211.2 x 109 ~650,000
א ם כן ,מדובר ב סדר גודל של ע שרו ת ו מ או ת מילי ארדי ם של פעולות ה שווא ה.
כ מו כל מ ע ר כ ת א חזו ר ,בי צו עי ה מ ע ר כ ת נ מ ד די ם ב א מ צ עו ת גרף Relative) r o c
,(Operating Characteristic Curveה מ ציג א ת הי ח ס בין שני פ ר מ ט רי ם :ר מ ת ה א חזו ר
ורמת ה שגיאות .רמת האחזור נמדדת על פי אחוז ה תוצ או ת הנכונו ת שאוחזרו מסך
ה תוצ או ת הנכונו ת הקיימות .כלומר ,במקרה שלנו :אחוז הצירופים הנכוני ם שהמערכת
אי ת ר ה מ ס ך ה צי רו פי ם ה קיי מי ם ב מר ח ב .מ קו ב ל ליי צג א ת ה פ ר מ ט ר ב ע ר כי ם ש בין 0ל־,1
כא שר 1פירו שו א חזור מלא .כמובן ,ה שאיפה היא שהפר מטר הזה יהיה קרוב ככל האפ שר
ל־ .1ר מ ת ה שגי או ת נ מדד ת ב א מ צ עו ת א חוז ה תו צ או ת ה חיו ביו ת ה שגויות ש ה מ ערכ ת
מחזירה מתוך סך הזוגות ,דהיינו אחוז הזוגות שהמערכת מ ס מנ ת כצירוף ,אף שאינם
כ אל ה ,מ תו ך מ ס פ ר הזוגו ת שנ ב ד קו .תו צ א ה כז א ת נ ק ר א ת ,false positiveו ה ש אי פ ה הי א
כ מובן שי היו כ מ ה ש פ חו ת תו צ או ת מ עין אל ה .ג ם נ תון זה נ מ ד ד ב ע ר כי ם ש בין 0ל־,1
כא שר 1פירו שו שה מערכ ת מחזירה תוצ א ה חיובית עבור כל זוג בין א ם הוא צירוף ובין
אם לאו ,ואילו 0פירו שו שאין כל שגיאות.
ככלל ,בכל אלגורית ם שנפעיל אנו יכולים לשלוט בר מ ת הא חזור וב מספר ה שגיאות.
ואולם שני פרמטרים אלה תלויים זה בזה :ככל שר מת הא חזור תהיה גבוהה יו תר כך
גם יגדל אחוז ה שגיאות ,וככל שאחוז ה שגיאות יהיה נמוך יו תר כך תקטן רמת האחזור.
ההבדלים בין ה אלגורי ת מי ם ה שונים י תב ט או בי חס שבין שני הפר מ טרי ם הללו בנקודות
שונות .על כן עלינו לקבוע מהו ה מ חיר שנרצה ל שלם כדי להעלו ת א ת ר מ ת הא חזור
או להוריד את ר מת ה שגיאות .לשם בחינת ביצועי המערכת יש לנסו ת אותה על מרחב
13נכון לנובמבר 2010נמצאים באתו מעל מאתיים אלף תמונות.