מבנה דוח פרויקט - SIPL

Transcription

מבנה דוח פרויקט - SIPL
‫הפרדה תופים מאות‬
‫אינסטרומנטלי‬
‫מגישים‪ :‬אדיר ירמיהו ואוהד גל‬
‫מנחה‪ :‬יונתן אפללו‬
‫המעבדה לעיבוד אותות ותמונות‬
‫הפקולטה להנדסת חשמל ‪ -‬הטכניון‬
‫‪1‬‬
‫תקציר‬
‫‪2‬‬
‫• בנגינה‪ ,‬זיהוי הקצב של השיר ושמירה עליו הינה האתגר המרכזי של‬
‫המתופף בפרט ונגני הלהקה בכלל‪ .‬פרוייקט זה מציג כלי עזר להפרדת‬
‫תופים משיר‪ .‬כלי זה יכול לשמש מתופפים שירצו להאזין לרצועת‬
‫התופים בלבד בשיר מסויים‪ ,‬ויאפשר למדוד את הקצב של השיר‪.‬‬
‫• נציג ונתעמק בשיטות הפרדת הקול והשמע העדכניות ביותר‪ ,‬ונממש‬
‫בעזרת השיטות הנבחרות אלגוריתם להפרדת תופים מרצועת שיר‬
‫אינסטרומנטלי (ללא שירה)‪ .‬חלק מהאלגוריתמים אותם נציג ישתמשו‬
‫במילון תופים ידוע מראש וחלק ללא כל מידע אפריורי‪.‬‬
‫• בפרוייקט נראה כי התופים הינם כלי נגינה בעלי מאפיינים ספארסים‬
‫בתחום התדר‪ ,‬כמו לשירה‪ .‬כלי נגינה אחרים (כלי מיתר‪ ,‬נשיפה ועוד)‬
‫הינם בעלי מאפיינים הרמוניים בתדר ולכן ניתנים לייצוג במימד נמוך‪ .‬על‬
‫כן – לקטעים בעלי מנגינה בלבד ניתן לבצע הפרדה איכותית בין תופים‬
‫לכלי הנגינה השונים‪ .‬לצורך הפרדת שירה מהאות המוזיקלי ניאלץ‬
‫להוסיף מאפיינים ייחודיים של כלי ההקשה‪.‬‬
‫הסבר על הבעיה‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫‪3‬‬
‫הפרדת כלי מוזיקלי משאר כלי הליווי בשיר הינו תהליך מורכב עקב‬
‫חפיפת התדרים בין הכלים השונים‪.‬‬
‫בהנתן שהפרדת תדרים איננה הפתרון – נחפש אלטרנטיבות‬
‫שיאפיינו את התופים אל מול שאר כלי הנגינה האחרים‪.‬‬
‫תופים‪ ,‬בדומה לשירה אך בשונה משאר כלי הנגינה‪ ,‬הינם כלים‬
‫שמאפייני התדר שלהם ספארסים ולא הרמונים‪.‬‬
‫מאפיין נוסף של התופים הינו פרץ אנגריה גבוה‪ ,‬זמן דעיכה מהיר‬
‫ואמפליטודה חזקה ביחס לכלים האחרים‪.‬‬
‫כיצד אם כן נכון יהיה להפריד את רצועת התופים משאר כלי‬
‫המוזיקה ומהשירה בשירים השונים?‬
‫רקע כללי‬
‫• שיטה נפוצה לביצוע דיקומפוזיציה של רצועות שמע ספארסיים‬
‫מאלמנטים הרמונים הינה‬
‫‪RPCA – Robust Principal Component Analysis‬‬
‫• בשיטה זו נגדיר ‪ 3‬אלמנטים שונים המרכיבים את סיגנל הכניסה ‪:X‬‬
‫• ‪ - L‬מטריצה המייצגת מרחב מופחת שיאפיין את חלק מהאלמנטים‬
‫• ‪ -N‬מטריצת רעש ביחס למרחב ‪L‬‬
‫• ‪ - O‬מטריצה ספארסית הכוללת דגימות היוצאות דופן מהמודל ובעלות‬
‫אמפליטודה גבוהה‪:‬‬
‫‪4‬‬
‫‪X  L N O‬‬
‫רקע כללי‬
‫• פתרון המטריצות המייצגות את המרחבים המדוברים יהיה על סמך‬
‫מציאת הביטוי הבא‪:‬‬
‫‪1‬‬
‫‪2‬‬
‫‪‬‬
‫‪‬‬
‫‪min L ,O  X  L  O F  * L *   O 1 ‬‬
‫‪2‬‬
‫‪‬‬
‫‪‬‬
‫‪2‬‬
‫‪F‬‬
‫‪s.t. X  L  O‬‬
‫• פירוק ‪ SVD‬יאפשר לחלץ את מטריצת ההטלה ומטריצת ההגברים‬
‫המתאימה‬
‫• שיפור לשיטה המתוארת לעי"ל יהיה שימוש במטריצות אי שליליות‬
‫‪RNMF – Robust low-rank non-negative matrix factorization‬‬
‫תוך מציאת הפתרון למשוואה הבאה‪:‬‬
‫‪5‬‬
‫‪‬‬
‫‪  O 1‬‬
‫‪‬‬
‫‪‬‬
‫‪2‬‬
‫‪F‬‬
‫‪ S‬‬
‫‪U‬‬
‫‪‬‬
‫‪2‬‬
‫*‪‬‬
‫‪2‬‬
‫‪F‬‬
‫‪‬‬
‫‪2‬‬
‫‪F‬‬
‫‪1‬‬
‫‪minU , S ,O0  X  L  O‬‬
‫‪2‬‬
‫רקע כללי‬
‫• אמצעי נוסף שמסייע בהפרדת תופים הינו אלגוריתם זיהוי התחלות‪.‬‬
‫היות ולתופים יש זמן התפרצות‪ ,‬אמפליטודה וזמן דעיכה שונים‬
‫מהותית משאר המרכיבים בשיר נחפש את השינויים בתחום האנרגיה‬
‫ותחום הפאזה‪.‬‬
‫מייצג שילוב קומפלקסי של השינוי‬
‫• הביטוי‬
‫בפאזה והשינוי באמפליטודה של הפריים ביחס לפריים הקודם‪,‬‬
‫ומביטוי זה נגדיר את גודל השינוי בעזרת הביטוי הבא‪:‬‬
‫‪6‬‬
‫• פונקציה זו מגבירה פריימים בהם יש שינויים גדולים בפאזה‬
‫ובאמפליטודה ומשתיקה פריימים ללא שינויים אלו‪.‬‬
‫אפשרויות פתרון‬
‫• שימוש ב – ‪ RPCA‬תוך הפרדה בעזרת‪:‬‬
‫• מסנן וינר‬
‫• מסנן זמן תדר – מיסוך תדרים בינארי על סמך השוואת הערך המוחלט של‬
‫כל תדר בין המטריצה ממימד נמוך ‪ L‬למטריצה הספארסית ‪.O‬‬
‫• שימוש ב – ‪ RNMF‬תוך הפרדה בעזרת מסנן וינר‬
‫• שימוש בזיהוי התחלות‪ ,‬תוך ביצוע אופטימיזציה בעזרת ‪NMF‬‬
‫‪7‬‬
‫השיטה שנבחרה ‪ +‬סביבת מימוש‬
‫• בשל העובדה שתופים ושירה הינם ספארסים באותה מידה‪ ,‬ההפרדה‬
‫ביניהם תהיה קשה בעזרת מתודות הפחתת המימדים‪.‬‬
‫• זיהוי התחלות מוכיח את עצמו ככלי יעיל מאוד לזיהוי התופים‬
‫והנחתת כלל האלמנטים הנוספים‪ ,‬כולל השירה‪.‬‬
‫• מימוש כלל הניסויים נעשה בסביבת מתלב באלגוריתמים שבוצעו על‬
‫קטעים של כ‪ 15-‬שניות משירים מוכרים – לטובת קיצור זמן החישוב‪.‬‬
‫• במימושים נעשה שימוש באלגוריתמי ספרייה לפתרון מטריצות ‪SVD‬‬
‫‪ RPCA‬ו‪.NMF -‬‬
‫‪8‬‬
‫תוצאות ומסקנות‬
‫•‬
‫•‬
‫•‬
‫•‬
‫‪9‬‬
‫אלגוריתם ‪ RPCA‬הוכיח את התאוריה וראינו כי ניתן לבצע הפרדה‬
‫איכותית של התופים משאר הכלים‪ ,‬אך במידה וישנה שירה בקטע‬
‫היא מודגשת על חשבון התופים‪ ,‬ופוגעת בביצוע ההפרדה‪.‬‬
‫מסנן וינר הוכיח את עצמו כטוב יותר להפרדת תופים מאשר מסנן‬
‫מיסוך זמן‪-‬תדר‪.‬‬
‫התוצאות הטובות ביותר בניסויים התקבלו בשימוש בזיהוי התחלות‬
‫– אלגוריתמים אלו הצליחו להנחית את כלל הרעשים שבין התופים‬
‫השונים כמו גם השירה‪ .‬עם זאת לאלגוריתם זה חסרון שכאשר‬
‫נשמעים התופים ניתן לשמוע גם כלים נוספים ברקע בעוצמה‬
‫המקורית שלהם‪.‬‬
‫נדרש אתחול של המערכת באלגוריתם – ‪ RNMF‬עפ"י מסד נתונים‬
‫של דגימות תופים‪ .‬איתחול זה מורכב ודורש המשך עבודה בתחום‪.‬‬