הורדת מימדיות 10 : פרק - Technion moodle
Transcription
הורדת מימדיות 10 : פרק - Technion moodle
הטכניון – הפקולטה להנדסת חשמל אביב תשס"ט הרצאות במערכות לומדות מאת :שי מנור פרק :10הורדת מימדיות 10.1 מבוא ופירוק SVD 10.2 קירובים ליניאריים מדרגה נמוכה וישומים 10.3 Lassoו Ridge Regression 10.1 מבוא ופירוק SVD ראשית נזכיר משפט מאלגברה ליניארית .תהא Sמטריצה MxMמדרגה .Mאזי ניתן לרשום אותה בתור: −1 S = U ΛUכאשר Uמטריצת הו"ע של Sו Λמטריצה אלכסונית שכניסותיה הע"ע של .S מטריצות ריבועיות נדירות בישומים ולכן ,למרות האטרקטיביות של משפט הפירוק לעיל ,נשתמש במשפטי פירוק למטריצות מלבניות .בהינתן מטריצה Cבגודל ,MxNנגדיר את: U .1היא המטריצה MxMשעמודותיה הו"ע האורתוגונליים של . CC T V .2היא המטריצה NxNשעמודותיה הו"ע האורתוגונליים של . C T C משפט (Singular value decomposition) :תהא rדרגת המטריצה .Cאזי ניתן לרשום: C = U ΣV T כאשר: λ1 ,…, λr .1הם הע"ע של ) CC Tושל ) ( C T Cהמסודרים מגדול לקטן( .2המטריצה Σהיא מטריצה MxNהמקיימת ( 1 ≤ i ≤ r ) Σii = λi :ו Σ ij = 0 -אחרת. למספרים ( 1 ≤ i ≤ r ) Σii = λiקוראים הערכים הסינגולריים של .C אם נכפיל את Cב C T -מקבלים: = U Λ 2U T ) T ( CC T = U ΛV −1 U ΛV −1 ומכאן שהערכים הסינגולריים מכלילים את הע"ע. 10.2קירובים ליניאריים מדרגה נמוכה הבעייה המרכזית עם גישת ה SVD -היא שבאופן שללי המטריצה Cהיא מדרגה מלאה .על מנת לאפשר הורדת דרגה יש להשתמש בשיטות קירוב .תהא Cמטריצה בגודל MxNונניח ש Ck פרק : 10הורדת מימדיות הרצאות במערכות לומדות )תשס"ט( מטריצה מדרגה kלכל היותר .נגדיר את Xלהיות מטריצת ההפרש . X = C − Ck :נורמת פרוביניוס של ההפרש מוגדרת כ: N ij M ∑∑ X = i =1 j =1 F X מטרתנו למצוא את המטריצה Ckשמביאה למינימום את נורמת ההפרש תוך שמירה על דרגה .k כאשר kקטנה משמעותית מ) r -דרגת (Cאנו אומרים שיש לנו קירוב מדרגה נמוכה. משפט ה SVD -יכול לשמש על מנת לפתור את בעיית הקירוב מדרגה נמוכה .ניתן להפעיל את התהליך הבא: .1בהינתן ,Cבנה את ה SVD -בצורה C = U ΣV T .2מתוך Σצור את המטריתה Σ kעל ידי איפוס r-kהערכים הסינגולריים הקטנים על האלכסון של . Σ .3הפלט של הבעיה הוא Ck = U Σ kV Tבקירוב מדרגה נמוכה. קל לראות שדרגת Ckהיא לכל היותר .k ניתן להוכיח שהתהליך לעיל אופטימלי במובן נורמת פרובניוס: = λk +1 F = C − Ck F C−Z min Z :rank ( Z ) = k ישומים אחד היישומים הנפוצים של קירוב מדרגה נמוכה הוא אינדוקס סמנטי ).(semantic indexing במסגרת אינדוקס סממנטי מיצגים מסמך )עמוד ,WEBמסמך משפטי ,וכ"ו( כשורה במטריצת כניסה שעמודותיה המילים האפשריות באנגלית .מובן שהמטריצה דלילה ביותר .שאילתא במקרה זה תחפש מילה במסמך .למשל ,המסמך dמתואר כוקטור והשאילתא ) qשניהם במרחב המילים( ונגדיר את הקורלציה כ q ⋅ d -כמדד הקרבה )בד"כ מנרמלים(. ראשית ניתן קצת מוטיבציה :יש שתי בעיות מרכזיות בגישה :סינונימיות )(synonymyty ופוליסמיות ) .(polysemyסינונימיות מתארת את המקרה ששתי מילים דומות מאוד מבחינת משמעות )מכונית ואוטו( .ולכן לקיחת השאילתא מכונית ומסמך מסויים בו המילה אוטו ומכונית מופיעול לסירוגין תוביל להערכת חסר ) (underestimationשל הקשר למילה מכונית .הבעייה השניה היא הבעייה ההפוכה :יש מילים כגון מטען שיש להן משמעויות שונות )חשמלית, (luggageולכן כ q ⋅ d -כמדד הקרבה עלול להעריך יתר ) (overestimateאת הקרבה .היינו רוצים שמילה כגון מטען תקושר לחשמל כרכיב אחד. 2 פרק : 10הורדת מימדיות הרצאות במערכות לומדות )תשס"ט( השימוש ב SVD -לפיכך משרת שתי מטרות: .1חישובית עבודה במרחב ממימד נמוך יותר קלה הרבה יותר. .2אני מצפים שאיכות הסיווג תשתפר )!( מאחר ומילים נרדפות ישוייכו לאותו כיוון בפירוק ומילים בעלות משמעויות רבות יהפכו למספר כיוונים שונים. על מנת לחשב את השאילתא המצומצמת )ל k -מימדים( נחשב: qk = Σ −k 1U k T q דוגמאhttp://nlp.stanford.edu/IR-book/html/htmledition/latent-semantic-indexing-) : (1.html נתונה מטריצת האינדקס הסמנטי הבאה: 0 0 0 1 0 1 ship 0 0 0 0 1 0 boat 0 0 0 0 1 1 ocean 0 1 1 0 0 voyage 1 1 0 1 0 0 trip 0 המטריצה Uמפירוק SVDהיא: 3 2 1 5 4 0.73 0.00 boat 0.00 ocean ship 0.16 0.15 0.58 3 0.35 voyage 0.65 trip פרק : 10הורדת מימדיות הרצאות במערכות לומדות )תשס"ט( הערכים הסינגולריים ) ( Σ 2.16 0.00 0.00 0.00 0.00 0.00 1.59 0.00 0.00 0.00 0.00 0.00 1.28 0.00 0.00 0.00 0.00 0.00 1.00 0.00 0.00 0.00 0.00 0.00 0.39 על ידי איפוס כל הערכים הסינגולריים למעט שני הגדולים וחישוב המטריצה C2מקבלים: 1 0.65 0.35 1.00 2 0.00 0.00 0.00 0.00 0.00 0.00 3 0.00 0.00 0.00 0.00 0.00 0.00 4 0.00 0.00 0.00 0.00 0.00 0.00 5 Lasso 10.3וRidge Regression - 10.3.1מבוא לפני שנדון ברגרסיה נתבונן בבעיית שערוך ממוצע תחת אילוצים: subject to μ 2 ≤ C 2 n ) ∑ (Y − μ i i =1 בעזרת כופלי לגרנז הבעייה שקולה ל: +λC μ 2 2 n ) ∑ (Y − μ i Minimize i =1 נגזור: μˆ C = 0 n ∑ (Y − μˆ ) +2λ C C i 4 i =1 -2 Minimize פרק : 10הורדת מימדיות הרצאות במערכות לומדות )תשס"ט( ונקבל: n n n + λC = K CY , = KC ∑Y i i =1 n + λC = μˆ C )*( ורואים שהאפקט של Cקריטי: C → 0, μˆC → Y C → ∞ μˆ C → 0 מסקנה :האפקט של רגולריזציה הוא אפקט מכווץ ).(shrinking בתרגול נראה ש: +λC μ 2 2 n ) ∑ (Y − μ i Minimize i =1 שקול לשערוך (maximum a-posteriori) MAPשל μעם פריור גאוסי. הסתכלות שקולה לפיכך היא להטות את הפתרון ) (biasבכיוון רצוי .השאלה היא כיצד למצוא הטייה מועילה .האינטרפרטציות הן: .1בייסיאנית :מציאת פריור מתאים .2סיבוכיות :פתרון פשוט )נורמה קטנה( לעומת פתרון מסובך )נורמה גדולה( Ridge Regression 10.3.2 נתבונן כעת ברגרסיה רב מימדית ונניח: .1ל X -ממוצע ,0וקטור pמימדי. .2ל Y -ממוצע 0 נחפש רגרסור מהצורה . Y ≈ β T Xלמודל כזה קוראים המודל הסטנדרטי. נגדיר את הפונקציה הבאה: 2 2 +λ β 2 ) ∑ (Y − X β n T i i i =1 = ) SSE λ ( β ה β -שמביא למינימום את ) SSEλ ( βהוא הפתרון של בעיית ה:ridge regression - 2 2 β ) +λ β 2 ∑ (Y − X n T i i Minimize i =1 5 פרק : 10הורדת מימדיות הרצאות במערכות לומדות )תשס"ט( קל לראות שהבעייה שקולה לבעיית אופטימיזציה עם אילוצים על הנורמה של הרגרסור β )מכופלי לגרנז'( ולפיכך בעיית האפוטימיזציה היא בעיה קמורה. LASSOהיא בעיית האופטימיזציה בה נורמת 2של איבר הרגולריזציה מוחלף ע"י נורמת ,1ז"א: ) β ) +λ ∑ β ( k p 2 ∑ (Y − X n T i k =1 i Minimize i =1 נחזור לבעיית ה .Ridge regression -נגזור לפי βונקבל: ) SSE λ ( β ) = 2∑ (Yi − X iT β ) X iT ( k ) +2λβ ( k n i =1 ∂ ) ∂β ( k וברישום מטריצי לאחר השוואה ל 0-נקבל: −Y T X + βˆλ T ( X T X + λ I ) = 0 )נשים לב βλ :היא וקטור pמימדי Y ,וקטור nמימדי ו X -מטריצה (.nxp ולכן: −1 ) βˆλ T = Y T X ( X T X + λ I )היפוך המטריצה מותר תמיד כי (. λ > 0 זו הגרסה הוקטורית של משערך הממוצע )*( .נעיר שהאינטרפטציה הבייסיאנית עובדת גם כאן )ראה תרגול( LASSO 10.3.3 אלגוריתם LASSOמבוסס על פתרון בעיית האופטימיזציה: p ) +λ ∑ β ( k k =1 2 ) ∑ (Y − X β n T i i Minimize i =1 קל לראות שזוהי בעייה קמורה עם אילוץ על נורמת 1של . βלמרבית הצער ,הערך המוחלט מונע מאיתנו גזירה נוחה של פונקציית המטרה .למרות זאת ניתן לחשב את הפסאודו-גרדיאנט של פונקציית המטרה וקיימים אלגוריתמים יעילים לפיתרון בעיית האופטימיזציה. אלגוריתם ה LASSO -עובד היטב אם קיימים פתרונות דלילים )ז"א רוב הקאורדינטות של βהם .(0 10.3.4בחירת λ אם היינו יודעים את ה MSE -של מסווג מסויים היינו בוחרים את המסווג עם הMSE - המינימלי .ניתן לשערך את ה MSE -ע"י אימות צולב ).(Cross Validation 6 פרק : 10הורדת מימדיות הרצאות במערכות לומדות )תשס"ט( שיטה אחרת היא לרשום חסם הכללה התלוי ב , λ -כפי שנעשה בהרצאה הדנה בתיאוריה. נסיים בהבחנה מעניינת .ניתן להתבונן במטריצה הבאה: Sλ = ( X T X + λ I ) X T −1 המקיימת )עבור . βˆλ = Sλ Y :(Ridge Regressionניתן לחשוב על Sλכהטלה ממרחב nמימדי למרחב pמימדי .עבור λ = 0מספר דרגות החופש הוא ,pוככל שנגדיל את λיקטן מספר דרגות החופש האפקטיביות שניתן להעריכו ע"י ) . n − TR ( Sλ 7