ביואינפורמטיקה
Transcription
ביואינפורמטיקה
שיעור :01הקדמה לביואינפורמטיקה 1 שיעור :01הקדמה לביואינפורמטיקה אתר הקורס הוא .moodle.tau.ac.ilבאתר יועלו שאלות סקר כקבלת פידבק ,כאשר יש דרישה לענות על לפחות 10שאלות .יש גם קורס תרגול אופציונאלי",כלים בביואינפורמטיקה" ,בסמסטר ב'. המהפכה הגנומית ופרוייקט הגנום האנושי הרבה מתייחסים לפרוייקט האדם הראשון בחלל כהישג משמעותי של האנושות; אולם לצד הישג זה עומד פרוייקט הגנום האנושי – פרוייקט יקר הרבה יותר שההצלחה שלו עשויה לעלות על זו של הפרוייקט של נאס"א גם מבחינת יישומים רפואיים עתידיים וגם מבחינת הדברים שניתן ללמוד על העבר. פרוייקט הגנום האנושי ריצף 3מיליארד אותיות נוקליאוטידים; הקראת הגנום בקצב של אות בשנייה הייתה אורכת כ 100-שנה .הפרוייקט המורכב הזה ספג הרבה ביקורת ציבורית בתחילתו ,שכן כשהוא התחיל בשנות ה – 90-ומתוך הבנת ההיקף שלו והעובדה שעד כה לא הצליחו לרצף את כל הגנום האנושי – חששו שלא ניתן יהיה לסיים את הפרוייקט בזמן ובתקציב שניתנו. גם לאחר שעברו 2/3מהזמן הקצוב לפרוייקט לא הצליחו לרצף אלא 10%מהגנום .בשליש האחרון השלימו את השאר – עדות להתקדמות הטכנולוגית ולמה היא מאפשרת. המירוץ לגנום פרוייקט הגנום האנושי התחיל מקונסורטיום של מעבדות תחת ה ,NIH-שעבדו יחד .הגישה שלהן הייתה הגיונית אך איטית :מכיוון שהגנום גדול ומחולק לכרומוזומים ,כדי חילקו אותו לסגמנטים קטנים וכל מעבדה הייתה צריכה לרצף חלק קטן ,שהוא יותר נשלט מהגנום העצום. השיטה הייתה איטית כאמור ודרשה התערבות ידנית ,כך שהיה קשה ליישם התערבות מחשבית ורובוטית להאצתה .אחד מהשותפים לפרוייקט בתחילתו ,קרייג וונטר ,חשב על רעיון להאצת הפרוייקט אך לא הצליח לשכנע את הקונסורטיום לשנות את הגישה. בשל האטימות לרעיונותיו ,ונטר הקים חברה בשם ,Celera Genomicsשהתחילה לרצף מחדש לפי שיטתו וניסתה לרצף מספיק מהר כדי לנצח את ה .NIH-היה לו היתרון של פרסומים פומביים של הקונסורטיום את הקטעים המרוצפים; אבל הגישה של סלרה הייתה לרצף את כל הגנום בבת אחת ולהרכיב את זה אחר כך .לשם כך סלרה בנו את המחשב השלישי החזק ביותר בעולם באותו זמן .ב- 2001הם כבר הודיעו על סיום הטיוטא הראשונה. בעזרת טכנולוגיה מתקדמת התגברו ואף ניצחו את היתרון שהיה למעבדות שהתחילו כעשור קודם. הריצוף בקצב של המעבדות היה אורך כ 500-שנה; אך הריצוף הולך ונעשה מהיר יותר – היום מדברים על מכונות ריצוף מהדור השני שיכולות לרצף בשבועות ספורים את הגנום ,והתוכנית היא שמכשירי הדור השלישי ייפעלו בקצב יהיה כה מהיר ויעילות כה גבוהה; הביטחון בכך כה רב שקיים פרס גבוה על פריצת דרך זו כי הוא יאפשר יישום של ריצוף גנטי גם באפליקציות רפואיות. בינואר השנה ניתן אבטיפוס למכונה שתאפשר גנום ב $100-ובפחות משעה. החוג לביולוגיה ,אוניברסיטת תל אביב2011 , חמוטל בן דב ביואינפורמטיקה -שיעור 2 חשיבות ריצוף הגנום האנושי אז הגנום ידוע ,אבל מהי באמת החשיבות של הדבר? רוב האנשים לא חשים את המהפכה הביואינפורמטית על בשרם ,ביום-יום .איפה הפריצה? פרנסיס קולינס ,יו"ר הקונסורטיום אמר כי יש חוק שאומר שכשיש מהפכה משמעותית מבחינה טכנולוגית אנחנו מבצעים הערכת-יתר בנוגע להשלכות המיידיות ותת-הערכה של ההשלכות לטווח הארוך .ניתן להקביל זאת למהפכת האינטרנט :בתחילת שנות ה 2000-כמעט כל מניה של חברה שהודיעה שתעלה תכנים לאינטרנט העלתה את ערך מניותיה ,אך בועה זו התנפצה .יחד עם זאת עשור מאוחר יותר ניתן לראות כיצד הציפיות לטווח הארוך של השלכות מהפכת האינטרנט נכנסות לחיינו. לאחר שרוצף כל הגנום ,התהליך של זיהוי גנים – שבעבר היה לוקח חודשים ושנים – יכול לקחת דקות וימים .דוגמה לכך היא מחלה כמו .Duchenne's Muscular Dystrophyהאחראי למחלה הזו ,שתוקפת ילדים בגיל 4בערך ,הוא גן ענק המכונה dystrophinשמכיל למעלה מ 74-אקסונים .לגן הזה יש גן חלופי ,utrophyn ,שמתבטא יחד עם דיסטרופין .אם יש מחיקה של דיסטרופין ,גם אוטרופין מתבטא בחסר ולכן הקיום הטבעי שלו אינו יכול לבטל את ביטוי המחלה; אך עם הטכנולוגיה של היום ,ניתן לגרום לעירור של הגן – כל שנדרש היה לדעת על קיומו ולחקור אותו. לפני פרוייקט הגנום ,מציאת הגן אוטרופין ,גן הומולוגי שעשוי לעזור בביצוע אותה פעולה כמו גן המחלה ,היתה יכולה לקחת שנים; היום עם הגנום המרוצף ניתן לחפש הומולוג בעזרת BLASTובהמשך לבודד את הגן בתוך שבועות ספורים בלבד .זוהי התקדמות המאפשרת לחוקרים לבצע את המחקר שלהם במהירות וביעילות. חמוטל בן דב החוג לביולוגיה ,אוניברסיטת תל אביב2011 , שיעור :01הקדמה לביואינפורמטיקה 3 סקירה היסטורית • – 1859דארווין היה בעל הרעיון הטוב ביותר ,יש הטוענים ,שמישהו העלה .הרעיון שלו הוא שניתן לקבל משהו שנראה כמו designבלי שיעמוד מאחוריו .designerזהו רעיון חשוב גם מבחינה אוניברסלית – דארווין דיבר על ביולוגיה ,אך הכלל שלו יכול להיות רלוונטי לא רק בביולוגיה ואולי לא רק על פני כד"א .ברגע שיש שונות וחלק מהווריאנטים מצליחים יותר מאחרים יתקבל תהליך שנראה כמו עיצוב. • – 1866מנדל גילה את חוקי התורשה .אומנם בני אדם ידעו על תורשה עם המהפכה החקלאית ,בה ידעו כי הורים מוצלחים מולידים צאצאים מוצלחים ,אך התרומה של מנדל הייתה שהוא הבין שחוקי התורשה הם משהו בדיד – הורים יכולים להיות בעלי תכונה מסויימת אבל התינוק לא יהיה איחוי שלהם אלא תכונותיו נעות על ספקטרום מסויים בהתאם לתכונות ההורשה השונות, לדומיננטיות שלהן וכדומה. • – 1928גריפית תרם להבנה מהו החומר התורשתי .ידוע שצאצא יהיה מאותו המין ודומה להוריו; גריפית עשה ניסוי שבו הראה שהחומר התורשתי הוא חומצות גרעין – ,DNAנושא עליו הקהילה המדעית הייתה חלוקה בזמנו. • – 1953ווטסון וקריק בנו את מודל ה ,DNA-החומר התורשתי ,והצליחו להבין איך המכאניזם של התורשה מתרחש על ידי הזיווג בין ארבעת הנוקליאוטידים. החוג לביולוגיה ,אוניברסיטת תל אביב2011 , חמוטל בן דב 4 ביואינפורמטיקה -שיעור • – 1961נירנברג קיבל נובל על פיצוח קוד המעבר מאינפורמציה של ארבע אותיות )נוקליאוטידים( ל 20-אותיות )חומצות אמינו( .הוא בנה את הקידוד והבין שהקוד הגנטי אוניברסלי בכל האורגניזמים הקיימים בכדור הארץ.1 • – 1970סאנגר המציא את הטכנולוגיה הבסיסית לריצוף ה .DNA-כל הטכנולוגיות המתקדמות יותר ופחות שיש היום מתבססות עליו .בשיטה זו יוצרים עותקים רבים של ,DNAחותכים אותם ומרכיבים אותם יחד על בסיס החפיפה ביניהם. • – 2003פרוייקט הגנום האנושי. • מ 1940-והלאה – הולדת המחשב הדיגיטלי הראשון ,התפתחות המחשבים והטכנולוגיה שלהם מתרחשת ברקע לאורך ההיסטוריה הזו. המהפכה הגנומית מתכנסת עם מהפכת טכנולוגיית המידע – מהפכת המחשבים .גם היא ,כמו המהפכה הגנומית ,מתקדמת בקצב אקספוננציאלי .מעניין לראות שבמעבר למתמטיקה ולפונקציה התיאורטית קיימות התנהגות תופעות כלל-עולמיות אקספוננציאלית. בעולם הקצב בעלות בטכנולוגיית הריצוף מוכפל מדי 10חודשים בערך ,והמהפכה הדיגיטלית ממשיכה ודוחפת אותו אל הקצה. מדע הביואינפורמטיקה מדע זה נולד מתוך הצורך להתגבר על פרוייקט הגנום האנושי – פרוייקט גדול שהביולוגים ניסו להתגבר עליו .המחשבים שימשו בתחילה רק כדי לאחסן את כמויות הנתונים העצומות ומאוחר יותר גם לעשות סדר בערימות המידע העצום הזה. המחשב ,עוד לפני פרוייקט הגנום ,ידע לטפל במחרוזות – למצוא מחרוזות ,תת מחרוזות ,וכדומה .גם DNAוחלבונים הם מחרוזות – ולכן ניתן לומר שכבר אז היה הבסיס האלגוריתמי לחיפוש גנים וחלבונים ברצף. הדוֺגמה של שהאינפורמציה הביולוגיה נמצאת היא בגרעין, בצורת ,DNAוהיא יוצאת החוצה בפורמט קריא בתור mRNA המאפשר תרגומה לחלבונים. 1לא מדוייק ,אבל לצורך הדיון נגיד שזה נכון לגבי כל האורגניזמים. חמוטל בן דב החוג לביולוגיה ,אוניברסיטת תל אביב2011 , שיעור :01הקדמה לביואינפורמטיקה 5 הגנומים עצמם – גנומיקה משווה תחום זה נועד ליישום עימוד – – alignmentשל גירסאות .השוואה גנומית דורשת עימוד – לדעת מה עומד מול מה – כדי שניתן יהיה לחפש טעויות או סטיות .לשם כך אוספים רצפים מכמה אורגניזמים שונים ,מעמדים אותם ומחפשים את ההבדלים בעמודות .בהמשך מחפשים את ההבדלים החשובים – אלו שממש משפיעים על יכולת החיות והויאביליות של האורגניזמים ,ואלו שמהווים את הדומה והשונה בין אורגניזמים. עוד לפני פרויקט הגנום היו גנומים מרוצפים בשלמותם – של חיידקים ,שמרים ובהמשך גם הנמטודה .C.elegansהשוואה בין הנמטודה לאדם מגלה אותו סדר גודל של גנים. ההשוואה הזו מוזרה היות ו C.elegans-היא כה קטנה ,כה פשוטה עד שיש לה רק 32נוירונים – לעומת מליארדי נוירונים בבני אדם ,מדד המעיד על היבט של מורכבות .לפיכך הניחו שאין קשר ישר בין גודל הגנום לבין היכולת של הגנום לתמוך באורגניזם מורכב. לאמבה דביה ,בעלת גודל מיקרוסקופי ויכולות רגילות של אמבות, יש גנום המכיל 600מיליארד בסיסים – למעלה מפי 200מגודל גנום האדם .היום ידוע שיש הרבה חלקים בגנום שהפונקציה שלהם אינה בקידוד לחלבונים ,אשר כונו בעבר ,Junk DNAוזוהי דוגמה קיצונית לכך. מקטעים שמורים = מקטעים חשובים ,לא בהכרח חלבונים גנומיקה משווה אומרת שאם יש מקטע שמור – מקטע דומה בגנומים של אורגניזמים שונים – סימן שהאיזור מקודד למשהו בעל פונקציה חשובה ולכן האבולוציה לא איפשרה למקטע להשתנות. במסגרת מחקר כזה בחנו מספר גנומים ,למשל של עכבר ,חולדה ואדם ,וניסו לחפש מקטעים שמורים לחלוטין – שלא השתנו אפילו בבסיס אחד – ושמהווים סגמנטים של כ 200-זוגות בסיסים .נמצאו כמעט 500סגמנטים כאלה שמקודדים לחלבונים והיו ובעיקרם אקסונים; יחד עם זאת היו גם מקטעים שלא היו חלק מגנים שמקודדים לחלבונים .זה הראה שאחוז מאוד משמעותי של הגנום יכול להיות שמור ופונקציונאלי אבל לא מקודד לחלבונים .זה מתחיל לענות על שאלת הפער הגנומי בין הנמטודה לאדם – יכולים להיות איזורים רגולטוריים ולא מקודדים בגנום – המשנים תזמון וביטוי של חלבונים בהתאם למצב של הגוף; הם מהווים כעין אבני בניין ואם יוצרים תבנית אחרת של ביטוי ניתן לקבל תבנית אחרת בתוצאה – אדם או נמטודה. החוג לביולוגיה ,אוניברסיטת תל אביב2011 , חמוטל בן דב 6 ביואינפורמטיקה -שיעור ...האומנם? מאוחר יותר חוקר מאוני' תל אביב ,נדב אחיטוב ,לקח את הגנים ה) UC-אולטרא-שמורים( ועשה להם מחיקה .הוא ראה שיש מקטעים שמחיקה שלהם עדיין תוליד עכבר ויאבילי ובריא ,מה שמעלה שאלה בנוגע לכלל האצבע הזה ששמירות = חשוב או פונקציונאלי. במה נבדל האדם מהשימפנזה? הגנום של השימפנזה רוצף כחמש שנים לפני הגנום האנושי .זמןר ב ידוע ששימוש בכלים אינו מבחין בני אדם בלבד – שהרי שימפנזות יכולות ללמוד להשתמש בכלים לשם ציד טרמיטים .גם שפה היא לא דבר הייחודי לאדם – חוקרים בשנת 2008לימדו שימפנזים שפת סימנים ,פתחו להם עמוד בפייסבוק ,וארבעת השימפנזים האלה מנהלים חיי חברה פוריים דרך פייסבוק – הם משתמשים בשפת הסימנים שלמדו כדי להעביר מסרים די מורכבים. בגנום של השימפנזה נמצאה 96%זהות בין המקטעים שניתן להשוות ישירות יחד עם אלו שלא ניתן להשוות ישירות ) 97%בחלקים שניתן להשוות ישירות בלבד( .משמעות הדבר היא שניתן לקבל שונות גדולה באורגניזם גם עם אחוז שונות מאוד קטן בגנום. ההבדל טמון גם בשמירות וגם בהבדלים שבין האדם לשימפנזה .לשם כך חיפשו מקטעים שמורים מאוד בין האדם והשימפנזה לחולייתנים שונים ,עד תרנגולת – כאשר המקטעים אינם בהכרח גנים – ודורשים בנוסף לשמירות הגבוה מתרנגולת לשימפנזה שבין אדם לשימפנזה המקטעים האלה כן ישתנו באופן יותר משמעותי .קטעים אלו אולי מעידים על מקור ההבדל בין השימפנזה לאדם. בתהליך זה נמצא מקטע אחד שבין תרנגולות לשימפנזה היו בו שני שינויים בלבד אולם בין שימפנזה לאדם היו 18שינויים באותו המקטע )ניתן להניח שפרק הזמן בין אדם לשימפנזה קצר יותר מאשר לתרנגולת ולכן נראה שהאבולוציה לא רק משמרת אלא יכולה בתנאים מסויימים להאיץ שינויים(. במחקר התגלה שהמקטע אינו מקודד לחלבון כי אם לגדיל RNAבעל קיפול ייחודי ,המתבטא במוח באיזור הקורטיקלי בתקופה העוברית .זהו מועמד שכנראה הינו בעל תפקיד רגולטורי ויכול ליצור את ההבדלים השכליים בין האדם לשימפנזה. חמוטל בן דב החוג לביולוגיה ,אוניברסיטת תל אביב2011 , שיעור :01הקדמה לביואינפורמטיקה 7 ובמה נבדל האדם המודרני מהאדם הנאנדרטלי? בין אדם לשימפנזה קיימות בין 5-6מיליון שנים; מה עם ההיסטוריה הקרובה יותר? גם אוכלוסיית האדם, כמו אוכלוסיית השימפנזה ,התפצלה – למרות שרק ההומו ספיינס שרדו .יחד עם זאת היו גם הניאנדרטאלים ,שחוקרים הצליחו להוציא את דגימות גנום שלהם מעצמות קבורות .2לא ניתן היה לרצף הכל ,אבל מהחלק שרוצף עלו כמה מסקנות: • יש הרבה גנים משותפים לספיינס ,שזה הגיוני וצפוי; אבל יש גם גנים שונים .ביניהם גנים שפגמים בהם יוצרים אוטיזם או סכיזופרניה; היו גם גנים שקשורים לצורת השלד העשויים להסביר את מבנה השלד המשוער של ניאנדרטלים. • ישנן עדויות ל .Inter breeding-האדם היה באפריקה כשהניאנדרטלים חיו באירופה; כשהאדם יצא לאירופה הוא תפס להם את הנישה ,אך ככל הנראה הם התרבו ביניהם לפני שהספיקו להיכחד ,כי מוצאים אוכלוסיות של אדם מודרני שיותר דומות לאוכלוסיה הניאנדרטלית מאשר לאוכלוסיה שיצאה מאפריקה. וריאנטים אנושיים /אדפטציות הפונקציה של גלוקוז-6-פוספט דהידרוגנאז ) (G6PDהיא פונקציה נפוצה בגוף ,אבל בתאי דם אדומים תפקידה חשוב במיוחד כי היא מונעת עומס חימצון של הכדורית האדומה .הווריאנט אינו מבצע את הפונקציה באופן מלא – הוא עושה אותה באופן חלקי ולכן גורם לעומס חימצון לא קטלני .אנשים שיש להם את הווריאנט עמידים לטפיל המלריה ,ולכן הווריאנט הגיע לאחוזים גבוהים באוכלוסיה. הרצפטור CCR5משמש את נגיף האיידס לכניסה לתאי הדם הלבנים .בימי הביניים השתוללה באירופה מגיפת המוות השחור; היא קטלה שליש מהאוכלוסייה אבל מהשורדים היו בעיקר בעלי חסר ברצפטור .CCR5הדבר יצר עלייה בשכיחות של הרצפטור המוטנטי בקהילה האירופאית אשר תודות לה יש להם גם עמידות חלקית לנגיף האיידס. פרויקט מיפוי הוריאנטים של הגנום האנושי הרעיון היה ליצור קטלוג של סניפים ) (SNPsשונים בין בני אדם .השם החדש של הפרוייקט הוא 1000 ,Genomes Projectאשר ירצף מאות ואלפי גנומים שילמדו אותנו על דופליקציות של מקטעים ,שונות בין בני אדם וכדומה. 2זה היה עניין מאתגר ,כי צריך למצוא עצמות טובות – שרוב הגנום שלהם הוא של ניאנדרטאלים ולא של חיידקים או פטריות שגדלו על העצם. החוג לביולוגיה ,אוניברסיטת תל אביב2011 , חמוטל בן דב ביואינפורמטיקה -שיעור 8 הפרוייקט נשמע שאפתני אבל המכונות היום יכולות לייצר ב 12-שעות את כל מה שייצרו בפרוייקט הריצוף של הגנום האנושי הראשון. היום ניתן להשוות בין בני אדם ולקבל אינפורמציה על ההבדלים והווריאנטים .האפליקציה הראשונה בה הציבור מעוניין היא רפואית – מציאת התאמה בין וריאנטים גנטיים לבין מחלות כך שניתן לזהות סיכוי מוגבר למחלות מסויימות בהתאם לווריאנטים הגנטיים. אפילו בתאומים זהים ,שיש להם אותו הגנום ,ניתן לכמת באופן שונה את הסיכוי למחלה עקב הבדלים לא בגורם הסיכון הגנטי אלא בגורם הסיכון הסביבתי .השיטות עד כה יכלו להסביר רק כ 10%-מהווריאנטים הגנטיים שאחראים לסיכון הגנטי ,המהווה 50%מהסיכון; פרוייקט 1000הגנומים מבקש למצוא את 40% הנותרים. בעתיד שבו ריצוף גנום אנושי יהיה מהיר וזול ניתן יהיה לתת לאנשים פרוגנוזה על בסיס הגנום; יישום זה לא קיים כרגע ברפואה אבל הוא נכנס כבר לתחום הפרמקוגנומיקה – זיהוי גנים שמעידים על היכולת להגיב טוב יותר או פחות לתרופה מסויימת .התחום הזה קיים במספר תרופות וכנראה יהיה תקן העתיד. בצורה זו ניתן יהיה לשווק תרופות המספקות תועלת מירבית ונזק מינימלי. גנומיקה של סרטן פרוייקטים מסויימים מרצפים גנום מתאים סרטניים במקום מתאים בריאים .בצורה זו ניתן למצוא מהם הדומה והשונה בין הסרטן לתא הרגיל – במיוחד מהן האדפטציות הדרושות על מנת שהתא יוכל להיות סרטני .כאשר סוקרים הרבה מאוד תאים סרטניים אפשר לחקור את הגנים האלה וליצור תרופות שיכוונו ספציפית אל אותם גנים סרטניים. תרופה שכזו היא LPX4032המשמשת לסרטן העור – מלנומה .זוהי תרופה עם תגובה מאוד מועילה שפותחה לאחר שריצפו תאים עם מלנומה לעומת תאים בריאים ומצאו שינוי בגן .BRAFהתרופה מביאה לשיפור משמעותי במצב התאים הסרטניים ומצב הגן – זוהי תרופה שפוגעת ספציפית בגן. בצורה כזו נחסכות תופעות הלוואי הרבות של הכימותרפיה ,כי זו תרפיה נקודתית. שיטת ה Genes Microarrays-מאפשרת בעזרת כרטיס אחד ,שגודלו לא עולה על זה של כרטיס אשראי ,להשוות בין מאות ואלפי גנומים ולראות את נקודות ההבדל והדמיון ביניהם .ניתן להפעיל DNA CHIPSעל חולי לוקמיה למשל ,סרטן חמור בעל מאפיינים דומים בין מטופלים ,להשוות בין הגנומים של החולים ולראות שטיפול תרופתי מתאים לבעלי גנום מסויים אך פחות לבעלי ורייאנט אחר או שהם בעלי גן אחר שגרם ללוקמיה. בצורה זו מסתכלים על הנתונים ומפתחים כלים חישוביים לניתוחם. חמוטל בן דב החוג לביולוגיה ,אוניברסיטת תל אביב2011 , שיעור :01הקדמה לביואינפורמטיקה 9 ביואינפורמטיקה מבנית תחום זה מתאר את נסיונם של הביואינפורמטיקאים לקבל רצף של חומצות אמינו ו"לקפל" אותו במחשב לקבלת המבנה המרחבי של החלבון .זה עדיין לא אפשרי היום ,אבל כן ניתן ללמוד על האינטראקציה בין חלבונים בעלי מבנה ידוע – למשל לאתר את נקודות המגע והעיגון שלהם. כלים נוספים באשפתו של הביואינפורמטיקאי הם – machine learningקבלת אינפורמציה עם תיוג, סיווג מסויים ,ויצירת תיוג מחדש .הדוגמה הבאה לקוחה מתוך מטופלים שמקבלים תרופות נגד וירוס ה- HIVוהאופן בו הן משפיעות על הוירוס. הוירוס עובר אבולוציה מהירה עקב הרבה מוטציות, היוצרות ,בחלקן ,עמידות לתרופות שמקבל המטופל, שאמורות למנוע את התקדמות המחלה .זהו למעשה מירוץ חימוש בין המטופל הלוקח תרופות לבין הוירוס. בקבלת מטופל חדש ,מומלץ לדעת אם הוא נדבק בוירוס העמיד לתרופות מסויימות או לא .ניתן להשוות בין גנומים של הוירוס העמיד לוירוס שאינו עמיד )וירוסים ממטופלים שקיבלו את התרופה לעומת כאלו שלא( ולמצוא את ההבדלים בגנום – ולהניח שהבדלים אלו הם ההבדלים שמביאים לעמידות .כאשר מגיע המטופל החדש מרצפים את הגנום של הוירוס שלו וכך ניתן לדעת עוד לפני שהוא יקבל את התרופה האם הוירוס שלו עמיד לה או לא. לסיכום ביואינפורמטיקה חוקרת גנומים שלמים ,רמות ביטוי של גנים ברמת ה RNA-ויכולה לשמש גם למחקר בחלבונים .כשחושבים על כלל האורגניזמים בכדור הארץ התמונה שלנו מעט מעוותת :מיקרואורגניזמים הם יצורים שלא נראים לעין ואנו נוטים לשכוח שהם מהווים למעלה ממחצית הביומסה על כדור הארץ – כלל בעלי החיים תופסים רק כ 1/1000-מהביומסה. היום קיים מעבר מעידן של קריאת הקוד הגנטי לרצון לכתוב את הקוד הגנטי .הדבר הברור העיקרי הוא שהמטען הגנטי הוא מעין תוכנית בעלת פונקציות והוראות רבות. אחת מהוראות התוכנית שלנו ,למשל ,היא שכדאי לשמור כל קלוריה ולאגור אותה לתאי שומן; בעכברים מצאו שאם עושים נוקאאוט לגן מסויים הם חיים יותר ורזים יותר – תוך אכילת אותה כמות מזון .העתיד עשוי לצפון לא רק מחיקת קטעים מתוך הקוד ,אלא גם מניפולציה ושכתוב של הקוד הגנטי. החוג לביולוגיה ,אוניברסיטת תל אביב2011 , חמוטל בן דב ביואינפורמטיקה -שיעור 10 שיעור :02עימוד – דמיון בין רצפים וחיפוש במאגרי נתונים מהי המוטיבציה לחפש אחר דמיון בין רצפים? מהןת הבעיות החישוביות העולות מן החיפוש? אנו שואפים ללמוד על ההומולוגיה .הומולוגיה היא דמיון בין עצמים ,הנובע מאב קדמון משותף. משמאל :שלוש דוגמאות לגפיים קדמיות – של אורנגאוטן ,כלב וחזיר .ניתן להבחין בהומולוגיה. הומולוגיה לא מתקיימת רק באיברים; ניתן לבחון גם הומולוגיה של חלבונים מאורגניזמים שונים ולהסיק מידע על המבנה ואולי גם התפקוד של חלבון לא מוכר בהתבסס על ההומולוגיה שלו לחלבון מוכר. כיצד מגדירים מה דומה ומה שונה? בהתאם לאחוז הזהות בין חומצות האמינו ובהתאם ליכולת לעמד את הרצפים בצורה מדוייקת אחד מול השני. עימוד רצפים העימוד בין שני רצפים יכול להראות דמיון מוחלט או דמיון חלקי; ניתן גם לאתר insertionsאו ) deletionsהמכונים " .("in-delsבסופו של דבר כל אלו עוזרים למצוא עד כמה הרצפים דומים אחד לשני על מנת למצוא את מידת ההומולוגיה הגנטית. מדוע לעמד? • בין שני חלבונים דומים מאוד ,על פי רוב הפונקציה תהיה דומה .אם נשווה חלבון חדש לחלבון מוכר, מידת דמיון גבוהה תעזור לכוון את מחקר הפונקציה של החלבון החדש כי היא כנראה תהיה דומה לפונקציה של החלבון המוכר. • אם נתון רצף גנומי ממקור לא ידוע ,ניתן להשוות mRNAלרצף הגנומי למציאת גן המקור .העימוד מאפשר להבין היכן נמצא הגן של ה .mRNA-בהתאם למיקום ניתן להרחיב ולהעמיק את המחקר. • אם מרכיבים עץ פילוגנטי שעוזר להבנת אירועי התפצלויות שונים של מינים לאורך האבולוציה, אפשר להשתמש באנטומיה אבל הרבה אינפורמציה מתקבלת גם מהשוואת גנומים וחלבונים מאורגניזמים שונים .על ידי השוואה בין רצפים שונים מאורגניזמים שונים ,ועל ידי מדד שניתן לכמת בעזרתו את מידת השוויון או השוני של ההומולוגיה בין הגנומים השונים ,ניתן ללמוד על המרחק האבולוציוני בין שני האורגניזמים להם היו שייכים הגנומים. • ברצף חומצות האמינו )למעלה משמאל( ניכרות חומצות אמינו שמורות מאוד ואחרות שמתחלפות. ניתן להבין מכך שאם נשווה בין כמה חלבונים כאלה ממקורות שונים ,נלמד לאילו חומצות אמינו בחלבון יש תפקיד ועל כן מקומן נשמר באדיקות לאורך האבולוציה לעומת חומצות אמינו אחרות שיכלו "לספוג" שינויים. חמוטל בן דב החוג לביולוגיה ,אוניברסיטת תל אביב2011 , שיעור :02עימוד – דמיון בין רצפים וחיפוש במאגרי נתונים 11 ההבדלים המתקבלים אם שני רצפים חולקים אב קדמון משותף ,ניתן לצייר את היחסים האבולוציונים שלהם בעזרת עץ פילוגנטי .אם משווים בין שני הרצפים לאב הקדמון, מקבלים שלוש אפשרויות: • התאמה מושלמת – אותה חומצת אמינו נמצאת באותו המיקום בשני החלבונים; ההשערה היא שהסיבה היא שאותה חומצת אמינו הייתה קיימת גם באב הקדמון. • שיחלוף – זוהי מוטצית missenseבה חומצת אמינו אחת הוחלפה באחרת .התוצאה לא הייתה ליתאלית ולכן המוטציה שורדת .באב הקדמון ישנם סיכויים שווים לכאורה שתהיה כל אחת מחומצות האמינו שיש במולקולות הבת )הסיכויים יורדים אם יש מולקולה שלישית שמחזקת אפשרות אחת או אחרת( .ייתכן שיש מצב סביר יותר מהשני בהתבסס על נתוני ההסתברות שמוטציה כזו או אחרת תקרה ,או שגם – בסבירות מאוד נמוכה – במולקולת האב היה משהו שונה לחלוטין וכל אחת ממולקולות הבת היא מוטציה חדשה. • מחיקה – לפעמים רואים מחיקה של חומצות אמינו מהאב הקדמון לצאצאים; יתרה מזאת ,כל דבר שנדמה כמחיקה יכול באותה המידה )אם יש רק שתי מולקולות בת( להיות בעצם הכנסה של חומצת אמינו .משום כך המצב הזה מכונה לעיתים קרובות ).indel (insertion-deletion אבולוציונית ,בכל אחד מהמצבים יש גורם נעלם ולא ידוע ,גורם הגיוני המביא לתוצאה וגורם שהוא הסביר ביותר לתוצאה. הקונטקסט של העימוד כשמעמדים שני רצפים של DNAויודעים שהאיזור הנבדק מקודד לחלבון ,ידיעה זו לבדה יכולה לספק אינדיקציה לאינדקס נוסף לחיפוש :אם ידוע שזהו indelומתלבטים בנוגע לשאלה האם זו מחיקה או הוספה ,ניתן לבדוק מי מהאפשרויות מאפשרת שמירה על קיומה של המחיקה כמחיקה או ההכנסה כהכנסה תוך כדי שמירה על מסגרת הקריאה) Squience Alighnment .עימוד רצפים( בא להגיד עד כמה שני רצפים דומים אחד לשני ,והתשובה לכך תלויה מאוד בקונטקסט :הקונטקסט שיוצרת מחיקה יש לו השלכות שונות לחלוטין מאשר הוספה על התוצר הסופי ,למרות ששניהם יוצרים .missense מה עשו בפרוייקט הגנום האנושי בכדי למצוא איזורים המקודדים לחלבון? לאחר קבלת הגנום השלם מעמדים את הרצפים ומחפשים " "indelבמקטעים מסויימים .על ה" "indelsלהיות בגודל ) 3Kכאשר … ,K=1,2,3כלומר כפולות של .(3ניתן להניח ש indels-של פחות מ 3K-לא שורדים ,כי האיזורים החוג לביולוגיה ,אוניברסיטת תל אביב2011 , חמוטל בן דב ביואינפורמטיקה -שיעור 12 שבין indelsמקודדים לחלבון ואם אינם כפולות של 3הם גורמים ליציאה ממסגרת הקריאה .באופן זה ניתן לזהות חלבונים לפי גדלי ה" "indelsהמותרים בהם. עימוד גלובלי לעומת עימוד מקומי נתונים שני רצפים ורוצים לעמד רצף אחד מול השני .בחלבונים זה קורה לעיתים קרובות ,כי domainsשונים יכולים להיות שמורים מאוד או לא. בדוגמה משמאל נראה שכמחצית מהרצף מהווה לכאורה mismatches היוצרים חוסר עימודיות גבוהה; אולם בעזרת עימוד מקומי מתגלים איזורי דמיון הנמצאים בחלק מהרצפים. לסיכום • בעימוד גלובלי חובה לעשות עימוד עד הסוף. • בעימוד מקומי מחפשים איזורים בהם החלקים הדומים יהיו האתרים שמעוררים דמיון. • בעימוד מקומי מחפשים קטעים שמגיעים ממקומות זהים באבולוציה ,כאשר לכל הקטעים המקומיים היה אב קדמון משותף ,למרות שהקטעים באמצע יכולים להיות ממקור אחר ,משותף להם או שלא, ועל כן יכולים להיות שונים מאוד. דוגמה החלבון PTK2שמור בין אדם לקוף. בכל שורה נתונות חומצות אמינו, האחת של אדם והשנייה של הקוף .Rhesusהעימוד בין הקוף לאדם גדול מאוד ,או לפחות כך נראה – עדות למרחק האבולוציוני בין האדם לרהסוס. בבחינת את הגן האנושי נראה שיש לו כמה דומיינים; ביניהם ,דומיינים Aו .B-בחלבון אחר דומה הקיים בלויקוציטים ,יש דומיין Aודומיין Xבמקום דומיין .Bבין שני הדומיינים Aיש דימיון כי לחלבון יש אב קדמון משותף .דומיינים אחרים לא מעניינים אותנו כרגע. חמוטל בן דב החוג לביולוגיה ,אוניברסיטת תל אביב2011 , שיעור :02עימוד – דמיון בין רצפים וחיפוש במאגרי נתונים 13 אנליזת עימוד גלובלי הייתה מבטלת כמות גבוהה מהחלבון; כאן מתאים השימוש בעימוד מקומי – עימוד שמסמן מתי יש דמיון בתכונות למרות שידוע שהחלבונים אינם בהכרח זהים לחלוטין .כעת נראה שיש דווקא דמיון די גבוה בין שני הקטעים האלה. מסקנה: כשמחפשים עימוד גלובלי מצפים שהשאלה תהיה האם כל הרצף צריך להיות אותו דבר או לא; מחפשים גלובאלית כאשר מחפשים דימיון בין רצפים שונים. חישוב עימודים כיצד המחשב יכול להבחין בין קטעים דומים לקטעים שונים? בין שני רצפים נתונים קיים מגוון עימודים אפשריים, כאשר הם נבדלים בשינויים שיש לבצע כדי להגיע אליהם: הבחירה בעימוד הנכון אינה אינטואיטיבית .היא נעשית על בסיס הטענה שנדרשות מקסימום התאמות מושלמות ומינימום " ."indelsמאידך ,יכול להיות גם שיש להעדיף mismatchעל פני מחיקה ,כי מחיקה עשויה להביא למוטציה שתשנה את הפונקציה בעוד ש mismatch-יכול עדיין לשמור על הפונקציה )למשל אם יש לשתי חומצות האמינו המוחלפות אותן התכונות זה פחות משנה את ההתאמה של החלבון ואת הפונקציה שלו(. חוקי אצבע • התאמה מושלמת זה טוב. • לא ברור אם " "indelטוב יותר או פחות מ ,mismatch-ויכול להיות ש" "indelאחד יהיה דווקא יותר גרוע משלושה ברצף )שלא משנים את מסגרת הקריאה(. • באופן כללי שואפים לכמה שפחות mismatchesו"."indels • גם הרציפות של ההתאמה המושלמת חשובה – האם עדיפות 50התאמות מושלמות שמפוצלות מאוד לאורך חלבון של 100חומצות אמינו ,או 30התאמות מושלמות הצמודות יחד? 3 השיטה היא לתת ציון לאירועים :נניח שהציון מתבסס על כך שהתאמה מושלמת מקבלת ציון ,+1 mismatchמקבל ציון ) -2כי הוא יותר גרוע מ" ("indelו" "indelמקבל .-1כעת סופרים כמה התאמות מושלמות mismatch ,ו" "indelsיש בכל אחד מהעימודים ומחשבים את הציון שמתקבל. 3במודל שנתאר לא נתייחס לנתון זה למרות שאפשר במקרים מסויימים. החוג לביולוגיה ,אוניברסיטת תל אביב2011 , חמוטל בן דב ביואינפורמטיקה -שיעור 14 לפי שיטת הניקוד הזו העימוד השמאלי הוא הטוב יותר ,כי יש לו ציון גבוה יותר. המחשב נדרש לברור בין העימודים האפשריים השונים ולקבוע מי מהם הוא הכי טוב; אם אין ערך מספרי המחשב לא יוכל לקבוע זאת. מערכת ניקוד )(Scoring System נניח שיש אי-תלות בין העמדות השונות .משמעות הדבר היא שכל עמדה בתוך העימוד היא בלתי תלויה במקומות האחרים – במובן הזה ,אם מופיעות חמש התאמות מושלמות צמודות או מפוזרות ייתקבל עדיין אותו הציון .4העקרון הוא לתת ציון חיובי על התאמה וציון שלילי על שוני ,כאשר מידת הניקוד משתנה בהתאם למערכת הניקוד. איך מחליטים על מערכת הגיונית? אחד הדברים החשובים שיש להתחשב בהם הוא ששינוי הערכים הנבחרים יכול לשנות את הניקוד הסופי; משום כך יש לנסח מערכת ניקוד מוצלחת. הסתברות מול ניראות בסטטיסטיקה ,קיים תחום בדיקת ההשערות וערכים כמו p-valueוהתפלגות נורמלית אשר מציגים את הסבירוּת של התוצאות .ניתן לשאול מהי ההסתברות לקבל תוצאה מסויימת בקובייה נתונה; מושג זה הוא ההסתברות – .Probabilityמושג נוסף הוא הניראות – .likelihoodמושג זה מבטא את ההסתברות לאחר שכבר יש תוצאה לניסוי – אם מטילים קוביה עשר פעמים ותמיד יוצא ,1הניראות תבטא את הסבירות לכך שהקובייה אינה הוגנת. • הסתברות – סיכוי לקבל תוצאה מסויימת באופן עיוור. • ניראות – סיכוי לקבל תוצאה בהתבסס על תוצאות ניסוי קודמות .על מנת לחשב ניראות צריך לחשב הסתברות ,בהתבסס גם על תוצאות עבר. מונחים אלה מופיעים כל הזמן – למשל ,בדוגמה שעסקה באב הקדמון המשותף לשני חלבונים שיש להם שתי חומצות אמינו שונות באותה נקודה ,הניראות של האב המשותף להיות בעל אחת מהחומצות אמינו האלה גדולה מכך שתהיה לו חומצת אמינו שאין לאף אחד מחלבוני-הבת. 4הנחה זו היא כמובן שגויה ומערכות משוכללות יותר מהמודלים שנכיר אכן מתחשבות בתלות הקיימת בין עמדות. חמוטל בן דב החוג לביולוגיה ,אוניברסיטת תל אביב2011 , שיעור :02עימוד – דמיון בין רצפים וחיפוש במאגרי נתונים 15 המטריצה מושג נוסף הוא מטריצה – טבלה .הטבלה משמשת לתיאור מטריצת ניקוד .הטבלה היא בגודל ,n x nכאשר nהוא מספר המשתנים – 20חומצות אמינו 4 ,נוקליאוטידים וכו' .כעת ניתן לדרג התאמות ואי-התאמות בין כל שני נוקליאוטידים :התאמה מקבלת +2נקודות ואי-התאמה מקבלת -6נקודות .המטריצה מתארת את הניקוד שניתן עבור כל התאמה או אי-התאמה ברצף המושווה .ניתן ליצור מטריצות שונות לאתרים מקודדים לעומת לא מקודדים ,האתר הפעיל בחלבון לעומת איזור שאינו האתר הפעיל וכדומה. שימו לב שהמטריצה סימטרית – אין הבדל בין חילוף של Cל A-לעומת חילוף של Aל.C- ניתן גם לבחון את הנוקליאוטידים יותר לעומק ולטעון שהפורינים דומים יותר אחד לשני מפירימידין לפורין; במידה כזו ניתן ליצור מטריצה שמבטאת את הדימיון על ידי ניקוד שונה לאי-התאמה בתוך קבוצה לעומת הניקוד של אי-התאמה בין הקבוצות השונות )פורין לפורין לעומת פירימידין לפורין ,למשל( .ערכי הניקוד מתארים את הניראות של השינוי שאנו דורשים שקרה על מנת להגיע לעימוד מסויים. ניקוד ""indels כיצד indelsמשתלבים במטריצות הניקוד? ל indels-יכולים להיות ניקודים מאוד שונים – לפעמים עדיף לנקד אותם אחרת אם הם כפולה של ) 3ולא מפריעים למסגרת הקריאה( ,כך שיקבלו ערך שלילי יותר מ indels 2-אך קטן יותר מכפולה של 3מ indel-בודד. לצורך כך ניתן להגדיר Gap openו .Gap extension-אם מתקבל " "indelמסויים של מחיקה למשל ,הוא יקבל ניקוד מסויים; אבל אם מייד אחריו גם יש " ,"indelזה יותר סביר אבולוציונית מאשר אם היו לנו שני " "indelsשביניהם משהו שהוא לא " ."indelמסיבה זו gap openיהיה בעל ציון אחיד – ה" "indelשפותח את המרווח – אבל gap extensionשבא באופן רציף לו יקבל ציון מצטבר נמוך יותר מאשר שני .gap open החוג לביולוגיה ,אוניברסיטת תל אביב2011 , חמוטל בן דב ביואינפורמטיקה -שיעור 16 שיעור :03עימוד רצפים – המשך בעימוד של איזור מקודד ,איזורים של שלוש מחיקות סבירים יותר אבולוציונים כי הם לא גורמים לשינוי במסגרת .מבין הרבה עימודים אפשריים יש לבחור מה העימוד הכי טוב ,ולשם כך יש להגדיר דירוג עימודים .הישטה הפשוטה היא דירוג נאיבי שמתייחס לכל חומצת אמינו או נוקליאוטיד בצורה בלתי תלויה מהאחרות ואז כמות ה ,indels-חוסר התאמות והתאמות מושלמות מהוות בסיס לדירוג .העימוד המקבל את הדירוג הגבוה ביותר הוא העימוד הטוב ביותר. יש שיטות שונות לדירוג ,כאשר השיטה השרירותית שלעיל היא מעט עיוורת ולכן יש לחשוב על דרך חכמה יותר .אפשר לייצג את מערכת הדירוג בתור מטריצה – טבלה – שמתאימה לכל אפשרויות ההתאמות או ההחלפות בין נוקליאוטידים או חומצות אמינו ולהחליט מה יהיה הדירוג של כל החלפה בהתחשב בהשפעה )למשל החלפת פורין בפורין לעומת פורין בפירמידין(. המטריצה מתארת את הדירוג אבל היא לא מדרגת כראוי ,indelsכי המרווחים שיוצרים indelsצריכים להיות מנוקדים אחרת אם הם יוצרים מרווח של נוקליאוטיד אחד ,שניים או שלושה .בצורה כזו ניתן גם לגלות טעויות של מכשיר הריצוף עצמו ,כאשר מניחים שאם המכשיר מדלג על שתי אותיות הדבר נובע מדילוג על אות אחת לפחות ואז ה indels-יהיו רצופים ולא נפרדים במרחק כמה נוקליאוטידים .כשם שזו יכולה להיות טעות של מכשיר הריצוף זו יכולה להיות גם מוטציית שיכפול גנום .הסבירות שמוטציה/טעות שכזו תקרה פעם אחת על שני נוקליאוטידים גבוה מהסבירות שהיא תקרה פעמיים על נוקליאוטיד אחד כל פעם. ניקוד מרווחים במצב כזה יש לדרג באופן שונה את האירועים השונים – כאשר שתי המחיקות נפרדות יש לתת ציון נמוך יותר מאשר כאשר שתי המחיקות סמוכות .אם האירוע נמצא באיזור מקודד ,יש לתת ציון יותר טוב לשלושה indelsמאשר לindel- אחד ,שניים או ארבעה .ארבעה indels פחות סבירים משלושה וגם פחות סבירים מאחד. הערכים של הדירוג עצמו לא משנים – אם מציעים דירוג שערכיו הם מחצית מדירוג אחר ,עימוד שיהיה טוב לפי דירוג אחד יהיה טוב לפי דירוג שערכיו חצי מהראשון .חשוב לציין שבדירוג השני ,הכל צריך להתחלק בחצי – לא רק הדירוג של ה indels-אלא גם הדירוג של חוסר ההתאמה וההתאמה המלאה. חמוטל בן דב החוג לביולוגיה ,אוניברסיטת תל אביב2011 , שיעור :03עימוד רצפים – המשך 17 מטריצות BLOSUM בחלבונים יש 20חומצות אמינו ולכן המטריצה בגודל ,20 x 20ומכניסה כמות גדולה של אלמנטים במטריצה .מספרים לא נכונים לא יוכלו להניב עימוד מתאים .כיצד ניתן להעריך את הפרמטרים האלה? כיצד ניתן לדרג אותם? • לקבץ לקבוצות – כמו בנוקליאוטידים עם פירמידינים ופורינים ,אפשר לחלק את חומצות האמינו לקבוצות לפי שייריהם ותכונותיהם הכימיות. • סיכויים למוטציות – מה הסיכוי שמוטציה בקודון תביא לשינוי משמעותי בחומצת האמינו? • השוואה בין אורגניזמים – לבדוק מה השכיחות של המעבר בין חומצות אמינו בין אורגניזמים שונים בחלבונים שמורים .שיטה זו יוצאת מתוך הנתונים הקיימים אל הביולוגיה – וזו השיטה שמשמשת בביואינפורמטיקה ,הטוענת שלביולוגיה לבדה יש מעט מדי ידע. קיבוץ לתכונות כימיות בשיטה זו ניתן ליצור חמש קבוצות של חומצות אמינו וכך לצמצם מעט את המטריצה. מטריצת BLOSUM מזינים את הנתונים ומתוכם מנסים לחלץ את המספרים הרלוונטים שמצביעים על מידת השכיחות של החלפה בין שתי חומצות אמינו נתונות .ב 1992-הניקוף והניקוף ) (Henikoff & Henikoffהעמידו רצפים שונים שהוכרו עד אז ממאגר נתונים של אינפורמציה גנומית ובדקו בהם רצפי חומצות אמינו של חלבונים שמורים .המטרה הייתה למצוא חומצות אמינו שמורות מאוד לעומת לא שמורות ולבדוק באיזו תדירות התחלפו חומצות האמינו ולאילו חומצות אמינו הן הפכו .הרבה החלפות בין Dו ,E-למשל ,מעידות שהתהליך שכיח יחסית ולכן יש להעניק להחלפה זו בציון פחות מחמיר. החוג לביולוגיה ,אוניברסיטת תל אביב2011 , חמוטל בן דב ביואינפורמטיקה -שיעור 18 מתוך מחשבה זו נבנה מודל מתמטי שמנסה לתת את הסבירות של קבלת Dבחלבון אחד ו E-בשני ,או כל שתי חומצות אמינו אחרות באותו המקום .החוקרים השתמשו במאגר נתונים של 500משפחות ובלוקים – איזורים מאוד מאוד שמורים – באורכים שונים ) 3-60חומצות אמינו( ובדקו כמה פעמים מחליפים בין כל שתי חומצות אמינו. הוצע כבר להסתכל על החלפות שהיו שכיחות יותר; אבל איך ניתן לדעת שזו גם הייתה השכיחות כאשר האירוע התרחש? לשם כך יש לבחון שני חלבונים הידועים כקרובים ולבדוק מה הסבירות להחלפה של D ו ,E-למשל .אפשר לקבוע שהסבירות גבוהה יחסית מהסבירות ל V-ו ,M-אבל זה בעיקר תלוי במרחק האבולוציוני של החלבונים או הפרטים .בכדי למדוד סבירות יש להתחשב במרחק הזה :ההסתברות לחוסר התאמה למשל בשני חלבונים שעד לא מזמן היו אותו חלבון תהיה קטנה יותר. BLOSUM = Blocks Substitution Matrix כיצד ניתן להפריד בין חלבונים רחוקים או קרובים אבולוציונית? • על סמך רצפים אחרים שכן ידוע מה קורה בהם .יחד עם זאת זה אפקט מעגלי – כי איך ניתן לדעת על הרצף החיצוני מבלי לחקור אותו? ואיך ניתן לחקור אותו מבלי לדעת עליו? • אם נראה שבבלוק אחד יש הרבה שינויים בין החלבונים ניתן להניח שהבלוק פחות שמור מאשר בלוקים אחרים .השיקול הוא כמה פעמים נראה זהות – זיהוי מדוייק של אותה חומצות אמינו. יש הרבה סוגים של בלוסומים; בלוסום 62יהיה קרוב יותר לרצף מאשר בלוסום .45המספר של הבלוסום מציין את אחוז חומצות האמינו הזהות לחלבון– אם הכמות שנמצאה גבוהה מזה הבלוק נשמר, אם לא – הבלוק עף .במטריצה של בלוסום 100ניתן לצפות לראות את הבלוקים באלכסון ,במספרים חיוביים ,ומחוץ לאלכסון מספרים מאוד שליליים. משמאל מופיעה תמונת מטריצה של בלוסום.62 באלכסון מתקבלים מספרים חיוביים – כי התאמות הן טובות – אבל הערכים אינם זהים ,שלא כמו בנוקליאוטדים .גם חוסר התאמות מתפזרות בטווח של 0עד ,-4כאשר 0אומר שלא ניתן לקבוע אם החלבונים קרובים או רחוקים על בסיס חוסר ההתאמה הנתון .ניתן לראות גם ציון חיובי בהחלפה בין Dל – E-ציון .+2משמעות הדבר היא שאם מחליפים Dב E-זה לא רע ,כי שתי חומצות האמינו האלה מתחלפות לעיתים קרובות. מה צפוי להתקבל באלכסון? בחומצת אמינו עם ארבעה קודונים אפשריים לעומת אחרת עם שניים יש סיכוי נמוך יותר להחלפת חומצת האמינו גם במקרה של מוטציה .גם חומצות אמינו פונקציונאליות – כמו ציסטאין ,היחידה שיוצרת קשרים די-סולפידים – ייטו פחות לשינוי .הנטייה הנמוכה תבוטא באלכסון. חמוטל בן דב החוג לביולוגיה ,אוניברסיטת תל אביב2011 , שיעור :03עימוד רצפים – המשך 19 אבל בבלוסום קיים דבר נוסף .ניתן לראותו כשבוחנים את השכיחות של חומצות אמינו ספציפיות בבעלי חוליות. נראה שככל שחומצת אמינו נדירה יותר הניקוד שלה גבוה יותר .הסיבה היא שהופעה של חומצת אמינו נדירה ,למשל ,Wבשני רצפים מעידה על עימוד תקין – בשל נדירות חומצת האמינו. לסיכום מערכת הניקוד מכילה את מטריצת ההחלפות יחד עם ה gap penalty-שנקבע .כעת יש לקבוע האם מחפשים עימוד גלובאלי או לוקאלי – יש להגדיר למחשב איזה עימוד יהיה הטוב ביותר .השיטה הזו טובה לשני סוגי העימודים. ההיבט המחשבי יש לחשב עימוד בין שני רצפים; אולם אם יש 10נוקליאוטידים בין שני הרצפים מספר העימודים האפשריים הוא לפחות מיליון; אם יש 20 נוקליאוטידים יש לפחות 100,000מיליארד .אם פונים לרצפים באורך 30 נוקליאוטידים מתקבל מספר עם 22אפסים אחריו; כאן מתחילים להכנס לקושי חישובי מבחינת המחשב. כיצד ניתן ,לאחר שנקבעה מערכת הניקוד ,לדעת אילו עימודים מבין העימודים האפשריים יש לבדוק ואילו לא ,מתוך הנחה שלא ניתן לבדוק את כולם? לצורך כך יש שני אלגוריתמים לעימוד אופטימלי ,האחד לעימוד גלובאלי ) (Needleman-Wunschוהשני לעימוד לוקאלי ).(Smith-Waterman האלגוריתם מקטין את כמות הפעולות של המחשב פי עשרות ומאות אלפי מונים ,כך שהמספרים לא יעלו אקספוננציאלית אלא כמו ,n2כאשר nהוא מספר האותיות ברצף. העקרון :להכניס את תוצאות הדירוג של העימוד כולו במטריצה. האלגוריתם בונה מטריצה שבכל אחד מתאיה מוזן הדירוג הטוב ביותר שניתן היה לקבל עבור כל תת-רצף .למשל ,הדירוג של AAACלעומת (-1) AGCאו AAAלעומת .(-2) AG האלגוריתמים עובדים על ידי בנייה של מטריצה אשר אינה נותנת ציון עבור החלפה של נוקליאוטיד בנוקליאוטיד אלא שבכל תא נמצא הציון הכי טוב של העימוד של שני הרצפים שניתנים בין העמודה החוג לביולוגיה ,אוניברסיטת תל אביב2011 , חמוטל בן דב ביואינפורמטיקה -שיעור 20 והשורה של אותו ציון .בדוגמה ,הציון -1הוא הציון הטוב ביותר עבור שילוב הריצופים AAACו- .AGCהיות ומספר הפעולות שנעשות במטריצה קטן יחסית ,העלייה של העימודים היא ריבועית ולא אקספוננציאלית. הומולוגיה לעומת הסיכוי לדמיון לקבל דירוג הכי טוב אינו כמו להבין מה המסקנה המתקבלת מהדירוג הזה .איך ניתן לדעת עד כמה הדירוג של העימוד הטוב ביותר מעיד על עימוד טוב או שמא הוא מקרי לחלוטין? אולי הדירוג הכי גבוה הוא נמוך ,או לא מובהק ,באופן אוניברסלי? לשם כך נבדקת האקראיות .אלגוריתם זה מערבל לחלוטין את אחד הרצפים ומחשב את דירוג העימוד בינו לבין הרצף השני שהתקבל בעימוד עם הציון הגבוה .כעת מחשבים שוב את הציון של העימוד בין הרצף המעורבב לרצף השני: • אם בכל הערבובים מתקבל דירוג נמוך מהדירוג הראשון שקיבלנו ,אזי הדירוג הזה הוא חזק. • אם מתקבלים דירוגים גבוהים יותר סימן שהסדר היה פחות חשוב – או פחות חזק – ואז הדירוג חלש יחסית. אם המספר של העימוד המקורי שלילי הרי שברור שאין דמיון במיוחד ,אבל ההבדלים בין ציונים 10או 100או 1000עשויים לנבוע גם משיטת הניקוד עצמה; ערבוב אקראי של אחד הרצפים ובדיקת ציון העמוד של הרצף המעורבב והלא מעורבב כמה וכמה פעמים מוודאת האם תמיד מתקבלים ציונים נמוכים יותר .אם אחוז הציונים של הרצף עם הרצף האקראי הגבוהים מהרצף הראשוני מהווים 50%או יותר, סימן שהעימוד הנבחר באמת היה אקראי; אם אף ציון לא היה גבוה יותר ,סביר להניח שיש דמיון אמיתי. אם הציון נמצא ב 5%-העליונים של הציונים ,אזי הדמיון מובהק. מה בנוגע להשוואת רצף אחד לרצפים רבים אחרים? במסע של וונטר לפי המסלול של הביגל ,הוא ריצף דגימות מים רנדומליות מבלי שידע אילו חיידקים היו באיזורים השונים של הדגימות .בשביל לעשות את זה הוא ריצף את החיידקים בכל אחת מהנקודות וביקש לראות לאילו חיידקים שהוא מכיר הם מתאימים – בעזרת מאגר נתונים מוכר ורצף זר מהים ניתן לראות לאן הרצף מתאים במאגר הנתונים הקיים. לא ניתן לדעת מאיזה אורגניזם הגיעו הרצפים המתקבלים מתוך הדגימות של ונטר; זה גם יכול להיות אורגניזם שאינו מוכר למדע כלל .משום כך מחפשים במאגר הנתונים את הרצף הדומה ביותר או הזהה לחלוטין לרצף )במקרה והיה מאגר נתונים של כל האורגניזמים בעולם( וכך ניתן היה לדעת בדיוק לאיזה אורגניזם הרצף שייך. טענה זו מציגה שתי בעיות :גם אם היה מאגר נתונים של כל המיקרואורגניזמים ,הריצוף עשוי להיות קלוקל – בין אם עקב תקלה במכשיר או מוטציה – ואז יש לנו טעויות ריצוף שמונעות הומולוגיה של .100%כמו כן ,גם ללא מוטציה שגורמת לבעיה ,בין פרטים שונים יש מוטציות ושינויים גנומיים .בעיה אחרת היא שהגנומים הזמינים מהווים רק חלק קטן מהמיקרואורגניזמים המוכרים )שהם חלקיק מהמיקרואורגניזמים הקיימים שאינם מוכרים( ,ולכן יש סיכוי קטן שהרצף יהיה דומה בלבד לרצף מוכר וסיכוי אפסי שהרצף יהיה באמת זהה לחלוטין לרצף קיים ומוכר. חמוטל בן דב החוג לביולוגיה ,אוניברסיטת תל אביב2011 , שיעור :04עימוד רצפים – המשך 21 שיעור :04עימוד רצפים – המשך חיפוש במאגר נתוני רצפים הבעיה שעולה בריצופים והעימודים של ונטר – אוזלת היד של הידוע למול הלא מרוצף והלא מוכר – היוותה את מוטיבציה לדבר הבא :כאשר נתון מאגר נתונים של רצפים ,למשל גנומים של חיידק או רצפי חלבונים וכו' ,ויש לבדוק אם רצף חדש שהתקבל קיים במאגר הנתונים ,ניתן לקחת את הרצף הזה ,רצפים מתוך מאגר הנתונים ,ולעשות אלגוריתם סמית-ווטרמן על מנת לראות איזה רצף הוא המתאים ביותר. השאילתא ) (queryהוא הרצף שבעזרתו בודקים האם יש רצף אחר דומה במאגר הנתונים .פגיעה ) (Hitהיא מצב שבו מוצאים עימוד טוב וציון טוב בין השאילתא ואחד הרצפים ממאגר הנתונים. סמית-ווטרמן שייעשה לכל רצף מול מאגר של 107 רצפים ,למרות קיצור הזמנים ,ייקח 11.5ימים. משום כך צריך לחשוב על אלגוריתם מהיר יותר. אחת הסיבות לאיטיות היא שמאגר הנתונים ,שהוא מאגר גדול ,יושב במקום מרכזי – NIHלמשל –אליו ניתן לשלוח שאילתות לספריית הרצפים .אולם בצורה זו כולם מריצים את הנתונים שלהם באותו מאגר הנתונים ,באותו מתקן ,ולכן יוצרים עומס שאילתות ברשת .לונטר למשל יש עשרות מיליוני רצפים; גם אם כל רצף כזה לוקח 10שעות או אפילו דקה – זה עדיין הרבה .לפיכך יש לחשוב על דרכים יותר יעילות .פעולה זה מכונה יוריסטיקה.5 BLAST אחת היוריסטיקות הנפוצות לחיפוש במאגר נתונים היא ,BLASTאשר נכתבה לפני כ 15-שנה .ה- BLASTמחפש עימוד במהירות מקסימלית תוך התחשבות בסיכוי הפסד מינימלי .לפיכך,שני רצפים הומולוגי או דומים שהינם באורך כמה עשרות או מאות נוקליאוטידים צריכים להכיל קטע קצר בו הם מתאימים בדיוק – כאשר יש לזכור שאפילו הומולוגים לא נראים בדיוק אותו הדבר .משום שהמקטעים מתאימים באופן אקראי ,יכולות להתקבל פגיעות באורכים קצרים מאוד ,אך אלו יהיו פגיעות מדומות; יחד עם זאת אם הרצף ארוך מדי פגיעות אמיתיות עשויות להתפספס .מסיבה זו נקבע סף מינימלי :בחלבונים צריך 3 חומצות אמינו ,ב DNA-צריך 11 נוקליאוטידים. 5שם כללי לשיטות ואלגוריתמים שהם טכניקות לשיפור זמנים ,מהירות וכדומה. החוג לביולוגיה ,אוניברסיטת תל אביב2011 , חמוטל בן דב ביואינפורמטיקה -שיעור 22 בצורה זו מחפשים ברצף כל מיני "מילים" אפשריות – רצפים בני 11חומצות גרעין .לאחר מכן שומרים במסגרת חיצונית את כל המילים שנמצאו .בצורה כזו יוצרים אינדקס שמציין עבור כל מילה מאילו רצפים במאגר הנתונים היא הגיעה. ה"מילון" הזה נעשה עבור כל אחד מהרצפים במאגר .חשוב לדעת לשייך כל מילון לרצף ממנו הוא בא. אז ניתן להשוות את השאילתא למילונים השונים ולאתר באילו רצפים מופיע רצף מתוך המילונים .לאחר מכן מריצים סמית-ווטרמן עבור הרצפים המתאימים .בצורה זו חוסכים בכמות הסמית-ווטרמן שמריצים, אבל מפסידים את הרצפים הפוטנציאלים שחסרים את רצף האינדקס. אם יש רצפים דומים ,ניתן לצפות שהם יכילו כמה מילים דומות .לכן דווקא רצף שיש לו מילה אחת בלבד פחות מועדף והחיפוש הוא אחר רצפים בעלי כמה וכמה מילים משותפות. טריק נוסף שניתן לעשות הוא להתרחב ימינה ושמאלה מהמילה המשותפת – אם הניקוד של המילה המשותפת הוא ,11 ככל שמרחיבים הניקוד משתנה בהתאם – לפי אי התאמות והתאמות .בתוך העימוד הזה ניתן לזרוק החוצה את העימודים שרק במקרה נראו טוב ,כי הם מתחת לאיזשהו ניקוד מינימלי שנקבע מראש .להבדיל מלקחת מילה יותר ארוכה ,כאן מאפשרים גם אי התאמות שעשויות להיות מפוצות על ידי התאמות נוספות לאורך ההרחבה. מושג הE-value- כאשר משווים רצפים יש לדעת מה הסיכוי שהעימוד הטוב הזה קרה במקרה. E-value הוא הסיכוי הזה. לאחר שהתקבל ניקוד מסויים ,יוצרים רצף אקראי ומאגר נתונים אקראי; מערבבים את שניהם ובודקים כמה פעמים מתקבל הניקוד הראשוני .אם הניקוד מתקבל לעיתים קרובות סימן שהוא שכיח ולכן אינו מהווה אינדיקציה טובה לעימוד; אם הממוצע נמוך ממה שהתקבל סימן שהתוצאה אינה אקראית ועשויה להיות מובהקת. בהסבר משמאל Y ,היא התוצאה של סמית-ווטרמן שנקבעה כתוצאה שצריכה להתקבל בעימודים האקראיים .ככל שהרצף יותר ארוך וציונו יותר גבוה ,הסיכוי לרצפים אקראיים רבים הוא נמוך מאוד. חמוטל בן דב החוג לביולוגיה ,אוניברסיטת תל אביב2011 , שיעור :04רפואה אישית 23 שיעור :04רפואה אישית תחום הרפואה האישית שואף שרופאים יוכלו לשקלל את הגנום של המטופל ,יחד עם פרמטרים נוספים כמו ביטוי גנטי וגורמים סביבתיים ,ויידעו מה הסיכוי של המטופל להגיב לטיפולים מסויימים ,ללקות במחלות או אירועים מסויימים וכדומה. דוגמה לשימוש כזה הוא תרופת ה Warfarin-המשמשת למניעת מחלת הטרומבוזיס )פקקת( .בשנות ה- 50היא שימשה כרעל חולדות וכאשר אדם ניסה להתאבד בעזרת החומר הוא לא הצליח – כי הגוף שלו יכול היה לספוג את הוורפרין בצורה טובה יותר משחשבו .מתוך העובדה שיש אנשים שמסוגלים לעמוד בכמויות גבוהות של הסם והידע שהתרופה מדללת דם ,חשבו שאולי הוא יעזור לדלל את הדם במידה כזו שתעזור למנוע טרומבוזיס .מסתבר שאנשים שונים מגיבים לכמויות וורפרין באופן שונה ,והתגובה הזו תלויה במוטציות מסויימות בשני הגנים VKORC1ו ;CYP2C9-אדם שיש לו את המוטציות האלה יוכל לקבל גם פי 10ממנה רגילה. במטופל שרוצים לתת וורפרין ,יש לתת לו את המקסימום האפשרי כדי לדלל את הדם כמה שיותר ,מבלי להרוג אותו .אם ניתן היה לדעת מה הגנום של המטופל הרי שניתן היה לכוון ישירות לכמות הוורפרין המקסימלית. מפת הדרכים של הרפואה הגנומית על מנת לדעת האם למטופל תהיה מחלה כלשהי מראש ,כדי שאולי ניתן יהיה לטפל בה או אפילו למנוע אותה ,צריך לדעת כמה דברים: • האם המחלה גנטית? צריך להבין את ההריטביליות של המחלה ולמדוד אותה .מדידה זו נעשית לרוב על די השוואה בין תאומים זהים – אם תמיד כשלתאום אחד יש את המחלה יש אותה גם לשני הרי שזה הריטבילי; לרוב יש איזושהי שונות ולכן מקבלים מדד חלקי של הריטביליות. • מהן אבני הבניין של המחלה? אילו דברים משפיעים עליה מבחינת גנים ,גורמים סביבתיים? ברגע שיודעים דברים אלו ניתן לדעת מה המנגנון שגורם למחלה מלכתחילה – חשוב לאתר מהם הגורמים השותפים להתפרצות של המחלה. בסופו של דבר ,עם הידע הזה ניתן יהיה למצוא טיפול. חיפוש אחר גורמים גנטיים • מחלות מנדליות – מחלות שמושפעות על ידי מוטציה אחת .אם יש את הגן – יש את המחלה .6מחלות כאלה הן למשל הנטינגטון ,CF ,אנמיה חרמשית. • מחלות מורכבות – מחלות שלמיטב הבנתנו מושפעות על ידי גנטיקה וסביבה יחד ,כשלרוב זה לא על ידי גן אחד אלא על ידי גנים רבים .דוגמאות לכך הן סרטן ,אלצהיימר ,סכרת ,התקפי לב. 6זה לא לגמרי מדוייק כי יש עניין של חדירות ,אבל עדיין זה עובד ככה במודל הזה. החוג לביולוגיה ,אוניברסיטת תל אביב2011 , חמוטל בן דב ביואינפורמטיקה -שיעור 24 הגרף מראה מוטציות שונות הקשורות למחלות קומפלקסיות מסויימות )אלצהיימר ,סרטן שד, סוכרת IIו .(BMI-המוטציות שנלקחו שכיחות באוכלוסיה אך בניגוד למחלות מנדליות יכול להיות שאנשים נושאים את המוטציה ללא אפקט המחלה. על סמך המוטציות האלה בחנו כמה טוב ניתן לעשות פרדיקציה לגבי הסיכוי לחלות במחלה. באלצהיימר למשל 15% ,מהאנשים בכלל יילקו באלצהיימר למרות שיש אנשים שהסיכוי שלהם קרוב ל- 70%בהינתן המוטציה המסויימת שנבדקה .הגרף מראה את הסיכוי המינימלי ,המקסימלי והסיכוי הממוצע באוכלוסיה .בגרף חסר נתון השכיחות של המקרה החמור – במקרה של האלצהיימר למשל זה נפוץ ב 2-3%-מהאוכלוסיה ,שזה די נפוץ .במקרה של סרטן השד זה שקלול של הרבה מאוד מוטציות בגנים שונים ולכן המרווח בין המקסימום לממוצע באוכלוסיה מאוד קטן יחסית. ניתוח תורשה מנדלית במחלות מנדליות משתמשים בעצי שושלות כאשר ידוע שחלק מחברי העץ הם חולים וחלק בריאים, ואז מנתחים באיזה גן המחלה נמצאת .בדוגמה מופיעה שושלת עם מחלה מסויימת; ניתן להניח שהמחלה דומיננטית כי היא לא מדלגת בדורות .הלוקוס הנבדק מכיל שני אללים – Aו ,a-והשושלת בודקת האם המוטציה Aגורמת למחלה .התשובה היא שלא – לפי פרט 4שיש לו את Aואינו חולה וגם לפי פרט 7שיש לו aaוהוא נושא את המחלה. האם יכול להיות ש A-הוא בכלל לא המוטציה ,ואולי המוטציה Dהיא על כרומוזום שונה? זה ייתכן ,אך פחות סביר כיוון שנראה שיש התאמה בין Aלבין המחלה – Dרק פעמיים לא הייתה התאמה בין המחלה להופעה של האלל .Aאז אולי הם על אותו כרומוזום ו A-הוא מרקר של .D אם כן ,כיצד ניתן לדעת מה התלות ביניהם? ניתן לחשב בדרכים סטטיסטיות עם יותר מדגמים מהו מרחק המפה שבין Dו A-ואז להבין את התלות .באמצעות מודל שכזה מצאו מוטציות למחלות רבות – על ידי זה שתחילה איתרו איזשהו גן עם תלות. הרעיון הזה עובד טוב עם מחלות מנדליות ,אבל זה לא עובד במחלות קומפלקסים .ב 1996-יצא מאמר של ניל ריש ועמיתיו שטענו שדרך המחשבה אינה נכונה :אולי במקום לבדוק משפחות צריך לבדוק קונפיגורציית מחקר אחרת .ריש הציעו לקחת אוסף של חולים ולהשוות אותם לאוסף של בריאים ,כאשר האנשים אינם קשורים אחד לשני משפחתית וגנטית .המאמר טען שמחלות מורכבות מתנהגות לפי העקרון – CD-CVמחלה שכיחה עם ווריאנטים שכיחים .למחלות מסויימות יש מוטציות מגוונות ושונות, כשלכל אחת מהמוטציות יש אפקט מאוד קטן .רק השילוב בין מספר רב של מוטציות גורם לפרוץ המחלה. חמוטל בן דב החוג לביולוגיה ,אוניברסיטת תל אביב2011 , שיעור :04רפואה אישית 25 אך מי יודע מהו "סיכון קטן"? לשם כך קיים מדד בשם :relative riskהמדד מחשב את הסיכוי ללקות במחלה עם כל אחת מהמוטציות ,משקלל עם הסיכוי ללקות במחלה עם מוטציות שלא גורמות למחלה ,ואז ניתן לדעת באיזה מידה המוטציות הקיימות מגדילות את הסיכוי של הפרט ללקות במחלה .ברוב המקרים המוטציה השכיחה תהיה המוטציה עם הסיכוי הנמוך יותר ללקות בה ,אבל לפעמים המוטציה הנדירה היא דווקא המוטציה בעלת הסיכון הכי גבוה ,ולמעשה המוטציה השכיחה היא מוטציה שמגנה על הפרטים מפני המחלה. ניל ריש ועמיתיו הראו שאם מניחים שהסיכון היחסי הוא נמוך ,כלומר שמתקיים ,CD-CVשהווריאנטים הגורמים למחלה הם שכיחים א לכל אחד מהם גורם סיכון מאוד נמוך ,הרי שהעבודה עם משפחות אינה יעילה כי העובדה שלשני אנשים במשפחה יש את אותה מחלה לאו דווקא מצביעה על כך שהם נושאים את אותו מכלול גנים – אולי יש להם מכלול שונה של ווריאנטים גנטיים. אם הסיכון היחסי המתקבל הוא ,1המוטציה אינה משפיעה במחלה קומפלקסית; לעומת זאת ,במחלה מנדלית שבה קיום המוטציה גורם למחלה נראה שסיכון יחסי יהיה 1או אינסוף – או שיש מחלה או שאין. החוג לביולוגיה ,אוניברסיטת תל אביב2011 , חמוטל בן דב ביואינפורמטיקה -שיעור 26 שיעור :05רפואה אישית מחקרי אסוציאציה של מחלות – SNPs אם יש למחלות סיכון יחסי והן מושפעות מהרבה גנים שלכל אחד מהם סיכון יחסי נמוך ,גם אם יש להורה מחלה מסויימת הסיכוי שהיא תעבור במשפחה בצורתה הפתולוגית נמוך יחסית .משום כך עבודה עם שושלות ,תחת ההנחה הזו ,אינה רעיון טוב; עדיף יהיה במחקר של מחלות אלו לקחת קבוצות מדגם של חולים ) (Casesובריאים ) (Controlsשאף אחד מהם אינו קשור אחד לשני מבחינה שושלתית. מחקר מסוג זה מכונה ,Disease Association Studiesבהם מרצפים את הגנום של החולים והבריאים באיזורים בהם נמצאים הגנים הרלוונטים למחלה ומשווים ביניהם .בעקרון ,רוב הגנום האנושי – 99.9% ממנו – זהה בין אנשים שונים ,ומספר ההבדלים נמוך – בערך 1לאלף מקומות בגנום יהיו שונים. מקומות אלו ,השונים ,מכונים – SNPפולימורפיזם בנוקליאוטיד בודד. במחקרי אסוציאציה ,אין טעם להסתכל על מקומות שאינם סניפים – בגלל שהם זהים בין החולים לבריאים .המחקר תר אחר ,Common Variantsשינויים שכיחים באוכלוסיה ,ואלו הם בדיוק הסניפים; אך אלו צריכים להיות סניפים הנמצאים באסוציאציה למחלה – שברוב החולים יש נוקליאוטיד מסויים, למשל ,Gוברוב הבריאים יש נוקליאוטיד אחר – למשל .T אם ידוע על קיומם של הסניפים )כי בכל מחקר שבו מוצאים סניפ חדש מדווחים עליו( הרי שניתן לחפש אותם בגנום של המדגמים .ישנם סניפים שבהם האסוציאציה היא חלשה יחסית – למשל שהיחס נוטה יותר לנוקליאוטיד אחד בחולים מאשר בבריאים אך לא באופן מוחלט – זהו מצב של סיכון יחסי נמוך ,אך קיים .זאת לעומת מצב כמו הראשון שתיארנו ,שברוב המוחלט של המקרים יש נוקליאוטיד אחד בחולים, ואז הסיכון היחסי גדול והאדם שנושא את הסניפ הזה כמעט בטוח חולה. חמוטל בן דב החוג לביולוגיה ,אוניברסיטת תל אביב2011 , שיעור :05רפואה אישית 27 טכנולוגיית Genotyping טכנולוגיה זו בודקת סניפים במקטעים ארוכים מאוד של גנום .נניח שיש מאגר של 10,000זוגות בסיסים; בעזרת טכנולוגיות אלו ניתן להתמקד רק בבסיסים שהם סניפים והרבה יותר קל לחפש אותם ולהשוות רק אותם מאשר להשוות את כל 10,000הבסיסים. לפני 10שנים ,החיפוש אחר סניפ אחד באדם היה עולה .$1,000,000היום זה עולה פחות מדולר אחד – ניתן לחפש מאות ואלפי סניפים ב .$200-מסיבה זו המחקר הזה הולך ותופס תאוצה. חוק מור ) (Mooreטוען שהמידע במחשבים הולך ומוכפל מדי שנה וחצי .כשמסתכלים על מה שקורה בעולם הריצוף והגנוטיפינג,הנתונים מוכפלים אפילו מהר יותר – מדי 10חודשים ולאחרונה אפילו פחות. כמות הנתונים עולה מאוד מהר וזה מספק הרבה מידע לגבי מחלות ,גנוטיפינג וכדומה. בשלב מסויים עוד עלולה להיות בעיה להחזיק את כל המידע הזה; בשיטות החדשות של הריצוף מבקשים להחזיק גנומים שלמים – 3מיליארד נוקליאוטידים – למאות ואלפי בני אדם; למחשבים של היום אין זיכרון המסוגל להחזיק את הכמויות האלה. בעקרון ,זוהי עיצומה של מהפכה שהתחילה לפני כשנתיים מבחינת כמות האינפורמציה הקיימת ומבחינת הטכנולוגיות הקיימות .באיור )בן שנה( רואים את הכרומוזומים השונים וכל עיגול מציין סניפ ,כאשר הצבע של העיגול מציין מהי המחלה שבאסוציאציה אליו .בתוך שנתיים נמצאה אסוציאציה של כ440- סניפים למחלות שונות .בגירסה העדכנית של האיור יש כבר 800-900סניפים חדשים. למשל לפני כשנה ידעו על כ 2-גנים הקשורים למחלת הקרוהן והיום מכירים כבר למעלה מ.30- החוג לביולוגיה ,אוניברסיטת תל אביב2011 , חמוטל בן דב ביואינפורמטיקה -שיעור 28 הגדרות ראשוניות • – SNPמוטציות הנמצאות באחוזים גדולים באוכלוסיה )< .(1%לרוב ה SNP-יש שני אללים בלבד ,למרות שיש יוצאים מן הכלל. • – Risk Allele, Nonrisk Alleleברגע ש SNP-בעל אסוציאציה למחלה ,הוא מחולק לאללים בסיכון ואללים ללא סיכון .אללים ללא סיכון נפוצים יותר בקבוצת הביקורת הבריאה )(Controls ואללים בסיכון נפוצים יותר בקבוצת החולים ).(Cases שימו לב :אין זה אומר שהסניפ השכיח בקרב הבריאים הוא הסניפ השכיח באוכלוסיה! אסוציאציה אמיתית או מקרית? במידה ומוצאים סניפ שנראה כאילו יש לו אסוציאציה ,יש לבצע מבחנים סטטיסטיים שיבדקו מהי מובהקות התוצאה .השערת אפס טוענת שאין הבדל בהתפלגות האללים בין קבוצת הניסוי והביקורת. ההשערה האלטרנטיבית טוענת שהשכיחות הזו שונה .לאחר הגדרת ההשערות ,המבחן הסטטיסטי בודק האם השערת האפס נכונה; אם ההסתברות לכך נמוכה ניתן לדחות אותה ולהגיד שההשערה האלטרנטיבית היא הנכונה. לצורך כך בונים טבלה של :2x2בציר אחד יש ניסוי וביקורת; בציר שני יש אלל בסיכון ) (Rואלל ללא סיכון ).(N כעת מזינים את מספר הפעמים שכל אלל הופיע בכל קבוצה ומחפשים סטטיסטי לפי התפלגות של .χ2 אם הניסוי והביקורת היו מתנהגים אותו דבר ,הרי ש T-יהיה קטן מאוד )כי .(a~cאם הם שונים Tצריך להיות יחסית גדול. בטכנולוגית הגנוטיפינג בוחנים כמיליון סניפים; כך שיש כמיליון השערות .ריבוי ההשערות מוביל לכך שגם p-Valueשל 5%ומטה יכול להראות 50,000פגיעות ,שכולם יהיו שגיאות .מסיבה זו אנחנו צריכים p-Valueמאוד נמוך )נהוג להשתמש בערך של .(5x10-8 התמונה משמאל מראה תוצאות של .p-Valueציר Yהוא לוגריתם של – p-Valueככל שהנקודה גבוהה יותר הסניפ יותר מעניין למחלה .התמונה היא תמונה טיפוסית למחקר :מתוך כמה מאות אלפי סניפים שנחקרו ,יש סניפ אחד שנמצא מעל הקו. חמוטל בן דב החוג לביולוגיה ,אוניברסיטת תל אביב2011 , שיעור :05רפואה אישית 29 זה עדיין לא מבטיח שזה סניפ אמיתי :יכול להיות שהמדגם היה קטן מדי ,דבר המגדיל את הסיכוי לתוצאה ;false-positiveיכול להיות שהמדגם היה מוטה – הניסוי והביקורת נאספו בצורה מעט שונה כך שזה היטה את התוצאות; יכול להיות שהיו טעויות בריצוף ,שכן בריצוף יש מקומות שנוטים להכיל טעויות וכאלה שפחות ויכול להיות שבסניפ הספציפי הזה הייתה נטייה גבוהה לטעות. כיצד מתמודדים עם הבעיות האלה? כיצד מזהים מהו סניפ אמיתי? אפשר להשתמש בטכנולוגיית גנוטיפינג נוספת או שונה כדי לוודא שבאמת הריצוף היה נכון; אבל זהו שלב הוכחה אחרונה ,לפני ריצוף מחדש של כל הגנומים .אפשר גם לבצע אימות עם קבוצה נוספת ,על מנת לבטל האפשרות שהמדגם היה מוטה .כמו כן ,אם הסניפ הזה קיים ואין בו טעות ,הסניפים הסמוכים לו צריכים להיות בקורלציה עם ההתנהגות שלו – מכיוון שסניפים עם מרחקי מפה נמוכים יחסית עוברים ביחד תורשתית הם צריכים להתנהג בצורה קורלטיבית. אם יש סניפ אחד עם אסוציאציה ,סניפים סמוכים צריכים גם להיות באסוציאציה ,אולי לא חזקה כמו הראשון אך עדיין די חזקה; מכאן שקבלת סניפ בודד שעולה מתוך מאות או אלפי סניפיםהינה כנראה טעות כי אין סניפים אחרים קורולטיביים. שימו לב :אין זה אומר שכל הסניפים ,או אפילו מי מהסניפים האלה ,גורם למחלה; אבל אחד מהם מעיד על קיום הווריאנט הגנטי שבאמת גורם למחלה. אתגר ראשון :תיקון טעויות בגנוטיפינג במקרה שיש הורים או ילדים של הנבדקים ,אפשר לעשות גנוטיפינג לאמא ,אבא וילד .העלות אומנם גבוהה יותר אבל האיכות של הגנוטיפינג טובה יותר .במקרה כזה ניתן לאתר סתירה מנדלית :בדוגמה, בצורות כתוב הגנוטיפ הקיים ותחתן מופיעה הקריאה .בשושלת שבה לילד יש AAכי לאמא יש ATאבל המכשיר קרא אצלה TTניתן להבין שהמכשיר טעה – אחרת לילד לא היה .AAיכול להיות גם שהייתה מוטציה de-novoבילד ,אבל הסיכוי הזה קלוש; אם הטעות היא טעות גנוטיפינג ,לא ניתן לדעת אם הטעות הייתה באמא או בילד. ניתן להשתמש גם בשיווי משקל הארדי-וויינברג :בעזרת נוסחאות הארדי וויינברג ,מתוך הנחה שקיים שיווי המשקל )כאשר האוכלוסיה הומוגנית יחסית( ,ניתן לנבא מה תהיה התפלגות הגנוטיפים באוכלוסיה. אם רואים שאוכלוסיית הביקורת שונה מאוד מהמספרים שיוצאים בהארדי ווינברג ,ניתן לטעון שהסניפ הזה חורג מכללי הארדי וויינברג.חריגה כזו מתרחשת לרוב כתוצאה מטעות גנוטיפינג ולא מהסבר ביולוגי-אבולוציוני אחר שגרם לסטייה. אתגר שני :תת-מבנים של אוכלוסיות נניח שכל המקרים של החולים הגיעו מאפריקה וכל הביקורות הגיעו מאירופה; במקרה כזה ,שתי האוכלוסיות מאוד שונות עקב היסטוריה ומיקום ,הן מבודדות יחסית אחת מהשנייה ולכן הרבה סניפים החוג לביולוגיה ,אוניברסיטת תל אביב2011 , חמוטל בן דב ביואינפורמטיקה -שיעור 30 יהיו שונים בין שתי האוכלוסיות אך דומים בתוך האוכלוסיה האחת עצמה .יכולים להיות גם תנאים מסויימים שגורמים לסלקציה לגן מסויים באוכלוסיה אחת ולא באחרת או מקרים של bottle neck בהיסטוריה של האוכלוסיות וכו'. ההבדלים האלה קיימים בין ביקורת לניסוי אבל הם לא קשורים למחלה; דבר ראשון שאפשר לעשות כדי להימנע מזה הוא להימנע מהטיות כאלו – אם דוגמים מקרי ניסוי ממקום מסויים יש לנסות להשיג משם גם את הביקורת; יחד עם זאת זה לא תמיד עובד – אולי אדם מחשיב עצמו אירופאי למרות שאחת מהסבתות שלו אפריקאית ,אולי הוא ממקומות שונים באירופה וכדומה. אמצעי המניעה הבסיסי יהיה שאלון שיבדוק את השושלת של האדם; במידה והוא עצמו לא יוכל לענות עליו הגנים שלו יוכלו לעשות זאת .מעניין לראות עד כמה מבנה האוכלוסיה יכול לנבוע מתוך מבנה הסניפים; ואם ניתן לדעת על אבותיו של אדם – אולי אפשר למצוא היסטוריה של אוכלוסיות שלמות ,כמו לגלות מתי יצא האדם מאפריקה או לגלות גנים וסניפים שהיו תחת סלקציה מבחינה היסטורית על מנת לגלות אירועים שונים שהיו בהיסטוריה המקומית .האנליזה הופכת מורכבת יותר ב"בני תערובת" – אנשים שהם גם אירופאים ,אינדיאנים ,אפריקאים וכדומה. מפת שושלות בהרכת מפה של שושלת ,ממפים נקודות כאשר כל אחת מייצגת אדם .השאיפה היא למפות אנשים לפי מוצאם על מפה דו מימדית ,כאשר שתי נקודות קרובות מציינות כי הנדגמים קרובים יחסית אחד לשני מבחינת המקום ממנו הם באים .מצד ימין נמצאת קבוצה שמקורה מסין ,מצד שמאל קבוצה שמתאימה לאפריקה ולמעלה נמצאים האירופאים .ואכן ניתן לצייר מפה על סמך סניפים שמאפיינים היסטוריה גיאוגרפית )בין האירופאים והסינים מופיע קו מרוח יותר השייך למקסיקנים ולהודים(. הצירים של המפה נקבעים לפי שיטה בשם .Principal Component Analysisמתייחסים לסניפים בתור קואורדינטות )האם האלל של הסניפ קיים פעמיים ,פעם אחת או לא קיים כלל – (0,1,2של נקודה הנמצאת במרחב רב-מימדי המכיל מיליון מימדים )או כמספר הסניפים שבדקנו( .על מנת לפשט את הקונספט האבסטרקטי של מרחב רב-מימדי ,ניתן להצר אותו למשטח דו-מימדי שעובר במרכז הנקודות הרב-מימדיות ,ואת המשטח הזה ניתן למקם על המפה הדו-מימדית שלנו .באופן דומה ,יש באיור אוסף גדול של נקודות בעלות קואורדינטות דו-מימדיות ועל מנת לבטא אותן בציר חד-מימדי מוצאים קו מגמה שעובר דרך רוב הנקודות המוגדר כציר המרכז של הנקודות. אפשר להפעיל עקרון זה על כל אוכלוסיה ,כאשר הדוגמה שאובה מפרויקט ,Hap-Mapשהוא פרויקט המשך של פרויקט הגנום האנושי; בפרויקט הגנום נבדק הגנום של אדם אחד; בפרויקט Hap-Mapנבדקו חמוטל בן דב החוג לביולוגיה ,אוניברסיטת תל אביב2011 , שיעור :05רפואה אישית 31 מיליוני סניפים של 270אנשים שונים מאוכלוסיות שונות )בפעם הראשונה מיליון ,בשניה 3מיליון ובשלישית 1.5מיליון על 1150איש(. האוכלוסיות האלה הגיעו מכל מיני אוכלוסיות בעולם .כשיוצרים להן מפת אוכלוסיות במבצע Hap- ,Mapהמפה המתקבלת היא תלת מימדית )עכשיו רואים שההודיים מופרדים ממקסיקנים – הם יותר למעלה( .באחת הדוגאות למפות האלו דגמו את האוכלוסיה האירופאית והתאימו צבעים למדינות שונות באירופה; דגמו 1300איש ,כאשר כל נקודה היא אדם ממדינה אחרת ,וחילקו אותן לשני צירים ראשונים .ניתן לראות שהתמונה ממש מקבילה לתמונת המפה של אירופה .המיפוי מקביל כמעט 1:1 בין הגיאוגרפיה הפיזית והגנומית של האוכלוסיה )בשני צירים(. מתוך זה ניתן ללמוד על צירי הגירה לאורך השנים ,איך סניפים עוברים סלקציה מסויימת באיזורים מסויימים וכדומה .ניתן להשתמש בנתונים האלו על מנת להכיר את עצמנו יותר דרך הגנים שלנו. סיכום המחקר מחפש גנים הקשורים למחלות .יש מחקרים חשובים וסטטיסטיים הבאים להתמודד עם טעויות בגנוטיפינג ,הטייה של המדגם ,אימות אי-תלות בין הנבדקים ושאר טעויות .עד כה נמצא במחלות רבות קשר בין סניפים למחלות ,אבל כשמנסים להסביר תורשתיות – מידת ההשפעה של הגנים על המחלה – ברוב הגנים ניתן להסביר רק 5-15%מהתורשתיות .משמעות הדבר היא שרוב התורשתיות אינה מוסברת ,יש עוד הרבה גנים שצריך למצוא. איפה התורשתיות מתחברת? • יש סניפים נדירים – סניפים כאלה תורמים כל אחד קצת למחלה .הבעיה היא שבגנוטיפינג אי אפשר לבצע את הבדיקה הזו. • הדור הבא של מחקרי אסוציאציה מדבר על הבעיות האלה ומתחיל לנסות לעשות גנוטיפינג עם טכנולוגת ביו-נאנו. • יש אינטראקציה בין הגנים לסביבה. הסבר השאלה לבית :יש 200,000רצפים במאגר ,כל אחד באורך 100נוקליאוטידים .יש מילה אקראית באורך 11נוקליאוטידים .מסתכלים על 200,000x100=2x107נוקליאוטידים .ההסתברות שמילה באורך 11נוקליאוטידים תתאים היא ) 1/(411כפול מספר הנוקליאוטידים .התוצאה היא .4.79 בפועל כל רצף מכיל 90אפשרויות של מילה בת 11אותיות כי החל מהנוקליאוטיד ה 90-אין מקטע באורך 11עד סוף הרצף; בגלל זה מכפילים 200,000x90ולא כפול .100התוצאה הסופית של זה היא .4.29 התוצאה שניתן היה לסמן הייתה בין .4-5 החוג לביולוגיה ,אוניברסיטת תל אביב2011 , חמוטל בן דב ביואינפורמטיקה -שיעור 32 שיעור :06רפואה אישית – המשך גנטיקה של מחלות קומפלקסיות ניתן למדוד את ההריטביליות של מחלות קומפלקסיות רבות – עד כמה אב יכול להעביר אותן לילדיו – אבל יש מחלות שמושפעות גם מהגנטיקה וגם מהסביבה .על מנת למדוד את זה בודקים את ההריטביליות בין תאומים זהים ולא זהים – לתאומים זהים יש אותו DNAוללא-זהים אין אותו DNAאך יש אותה סביבה. אם ההשפעה העיקרית הייתה סביבה ,אין הכרח שמחלה בתאום זהה אחד תופיע בשני; אם ההשפעה העיקרית היא תורשתית ,בתאומים לא זהים יש סבירות טובה שאם האחד חולה גם השני יחלה ,אבל בתאומים הזהים שניהם יהיו חולים לבטח .אם זה לא תורשתי לא ניתן ִלצפות דבר. כשמודדים הריטביליות ונתונים סניפים הקשורים למחלות ,ניתן לבדוק – בהינתן אחוזים מסויימים של ההריטביליות המסוברים על ידי הגנים – כמה מתוך זה מוסבר על ידי הסניפים? הסניפים מסבירים לכל היותר 15%אחוז ,כלומר הרוב אינו מוסבר בפן הגנטי .גם היום ,רב הנסתר על הגלוי. היכן ההריטביליות החסרה? • וריאנטים נדירים – הסניפים קיימים ב 5-10%-אחוזים מהאוכלוסיה; ההסתכלות מצומצמת למיליון סניפים במקום לשלושה מיליארד נוקליאוטידים .יכול להיות שיש מוטציות נדירות ,עם שכיחות למשל של ,1:1000אבל כאשר הן רבות מאוד בגנום הן גורמות למחלה .במחקר של נדב אחיטוב ,בו הוא ריצף גנים של אנשים עם BMIגבוה )השמנת יתר( ועם BMIנמוך ,הוא ראה שבעוד שאין סניפים משותפים יש הרבה גנים עם מוטציות מאוד נדירות ביניהם. • אינטראקציות בין גנים לגנים ובין גנים וסביבה. • מיקרוביום – הבקטריות שחיות בגוף ,הגנום שלהן וההשפעה של המיקרוביום הזה על הגוף. חיפוש אחר וריאנטים נדירים בחיפוש הזה לא ניתן להשתמש בסניפים המוכרים; הסניפים המוכרים קבועים מראש ,שכיחים .כאשר מחפשים סניפים נדירים יש להניח שאיננו יודעים היכן הם יהיו .מכאן שצריך לרצף. השאיפה היא לרצף את כל הגנום של מקרי הבדיקה והביקורת ולהשוות ביניהם; אך היום פעולה זו יותר מדי יקרה )למרות שזה הכיוון העתידי( .בינתיים ,אפשר להסתכל על גנים שנראים כמעניינים בהקשר של המחלה הנחקרת. קריאות של Deep Sequencing טכנולוגיית הריצוף ,כמו הגנוטיפינג ,התקדמה מאוד בשנים האחרונות .הטכנולוגיה המובילה היום היא Deep Sequencingשנותנת מיליוני רצפים מאוד-מאוד קצרים .הריצוף בשיטה זו מספק קריאות מאוד חמוטל בן דב החוג לביולוגיה ,אוניברסיטת תל אביב2011 , שיעור :06רפואה אישית – המשך 33 קצרות – כמה עשרות בודדות של נוקליאוטידים בכל קריאה .בצורה כזו כל מקום בגנום מרוצף הרבה מאוד פעמים .לאחר מכן ,מעמידים את הרצפים האלה מול הרפרנס המתאים ורואים שהרבה רצפים נופלים בחפיפה גבוהה יחסית. עכשיו יש לעבד את מאגר הנתונים הגדול שנוצר .בתהליך העימוד משתמשים בשיטה דמויית .BLAST הרפרנס של העימוד הוא הגנום האנושי שפותח בפרויקט הגנום האנושי ,שסיפק גנום שלם של אדם אחד. מסיבה זו יכול להיות שהעימוד החדש לא יצליח להיות תואם לחלוטין – כי אנשים נבדלים במוטציות, ברקע ,בסניפים וכדומה. בדומה לפרוייקט ה HAP-MAP-והגנום האנושי ,יש פרוייקט חדש בשם 1000 genome project המנסה ליצור מאגר של 1000-2000אנשים מאוכלוסיות שונות ומגוונות ,כך שניתן יהיה גם להשתמש ברפרנס הקרוב ביותר לנבדק במחקר האסוציאציה – במחקר עם אפריקאים לא רצוי להשתמש ברפרנס של אדם אירופאי ,וההיפך .כמו כן הפרוייקט מלמד על הבדלים בין אוכלוסיות ברמת הרצף. האתגרים בריצוף מהדור השלישי הבעיה הראשונה היא המיפוי של הקריאות לגנום; הבעיה הזו מורכבת יותר מבחינה חישובית מאשר ,BLASTמשום שמאגר הנתונים הרבה יותר גדול – יש 10מיליון קריאות לאדם ואם עושים מחקר עם כמה מאות או אלפי אנשים קבוצה מימדי נתונים נעשים עצומים .קשה להחזיק כמות נתונים כזו בזיכרון, ולכן האלגוריתמים צריכים להשתנות. יש להבדיל גם בין סניפים לבין טעויות בריצוף; אם כסף לא היה בעיה ,ניתן היה לרצף שוב ושוב וליצור מאגר גדול יותר של קריאות למקום עם ה"סניפ" החשוד ,על מנת לוודא מה היחס ביניהם :אם היחס גבוה לטובת נוקליאוטיד מסויים ניתן להבין שזהו הנוקליאוטיד הנכון וכי האדם הוא הומוזיגוט לנוקליאוטיד; אם היחס הוא 50:50כנראה האדם הוא הטרוזיגוט ושתי הקריאות נכונים. איך ניתן לאסוף אנשים באופן כזה שנוכל לשלם פחות כסף ועדיין לקבל תוצאות טובות; איך נוכל להוריד את המחיר של המחקר? דבר ראשון ניתן לרצף פחות – במקום להסתכל על 100עותקים של כל נקודה להסתכל על ;10אפשר גם לקחת את ה DNA-של כל החולים יחד ושל כל הבריאים יחד ולרצף הכל – כך נדרשים לרצף רק פעם אחת. אם החיפוש הוא אחר חוסרים ) (deletionsשמופיעים בנבדק ולא ברפרנס או ההיפך וכן של double ,locationsניתן להשתמש בשיטת השלשות – הבודקת אבא ,אמא וילד למשל – ולבחון את הסניפים כמו טעויות מנדליות .אם לילד יש AAולאמא יש TTמובן שיש פה טעות ,כי הילד היה חייב לקבל A מהאמא; אבל אם יש חוסר אצל האמא ,והילד מקבל את החוסר הזה ,בגנוטיפינג תתקבל קומפנסציה של החוג לביולוגיה ,אוניברסיטת תל אביב2011 , חמוטל בן דב ביואינפורמטיקה -שיעור 34 הקריאה על החסר שתראה כמו הכפלה של האות הקודמתT— : הופך ל A— ,TT-הופך ל .AA-אי אפשר לדעת אם זה Tאחד ומחיקה או שני .TTמשמעות הדבר היא שתמונה כזו – שבה יש ילד עם AAו – TT-יכולה לבטא מחיקה חוסר ולא רק טעות גנוטיפינג. מקרים אחרים ,למשל השושלת הימנית ,אינם מתאימים כלל לחוסר תורשתי ,מכיוון שהילד הטרוזיגוטי .גם בשושלת השמאלית אין התאמה לחוסר ,כי אם שני ההורים היו הטרוזיגוטים סיכוי מזערי שהילד ההומוזיגוט הוא מקרה של חוסר למעשה. אם כן ,יש מקרים שמתאימים למחיקה; מקרים שמתאימים וגם אם לא בטוח שיש חוסר יש בהם בעיה; מקרים שאולי מתאימים אבל לאו דווקא הם בעייתיים; ומקרים שבהם חוסר פשוט לא מתאים .אם יש קטע מאוד ארוך שיכול להתאים לחוסר ונראה כמו חוסר בסינכרון ,ניתן לשער שזה חוסר; שיעור האימות של השערות אלו הוא כ.85%- בטכנולוגיה החדשה של deep sequencingמחפשים אחר קריאות קצרות .אם מוצאים איזור שאף קריאה לא נפלה עליו ,ניתן להבין שכנראה לנבדק היה מחיקה או שלרפרנס הייתה דופליקציה .הבעיה היא שאם המחיקה לא הומוזיגוטית הכמות של הקריאות לא תיעלם כליל אלא תרד לכדי חצי ,וזה לאו דווקא מובהק; קושי שני הוא שזה יכול לקרות במקרה – אם מבצעים מעט קריאות לכל איזור יכול להיות שפשוט באופן אקראי הקריאות לא כיסו את אותה נקודה. חמוטל בן דב החוג לביולוגיה ,אוניברסיטת תל אביב2011 , שיעור :06עצים פילוגנטיים 35 שיעור :06עצים פילוגנטיים הקדמה התרומה של דארווין לתיאוריית העצים הפילוגנטיים משמעותית מכדי לא לציין אותו .דוקינס אומר שניתן להתייחס לעקרון האבולוציה על ידי ברירה טבעית כעקרון אוניברסלי – כשדארווין הגיע למסקנותיו הוא הגיע אליהן ממחקר מאוד ספציפי; דוקינס אומר שמדובר פה בקריטריון אוניברסלי לחלוטין שאינו מוגבל למדגסקר לבדה .זהו למעשה ,לפי דוקינס ,הקריטריון היחיד שיכול להסביר את הנוכחות של חיים – יהיו באופן שבו יהיו ,זה העקרון היחיד שמנחה יצירה של יצורים שנראים כאילו הם תוכננו. העקרון אוניברסלי כי הוא למעשה מתכון ,אלגוריתם .העקרון הכללי הוא שיהיו רפליקטורים – יחידות משתכפלות – שביניהם קיימת וריאביליות .חלק מהיחידות יעמידו יותר צאצאים ,ואותו חלק יגיע למירב המשאבים המוגבלים .כשמריצים את האלגוריתם הזה על פרקי זמן או דורות ארוכים ,מקבלים אורגניזמים מורכבים כמו שהתקבלו בכדור הארץ. היוונים )ובעקבותם רוב התובנות הישנות של העולם( הניחו שהחיים נוצרו על ידי ישות עליונה וכי הם נוצרו בצורתם הנוכחית .למארק היה מי שהעלה את הרעיון של שינוי לאורך הזמן – שתנאי הסביבה גורמים לשינויים והשינויים האלה יכולים להיות תורשתיים .באותה התקופה כבר היה הכרח מבחינת התצפיות ומבחינה אמפירית להכניס יסוד דינמי ,המכונה היום אבולוציה .הסיבה העיקרית היא המאובנים – עצמות של יצורים שאינם חיים היום מתגלות .מכאן שלא כל החיים הקיימים היום הם החיים שהיו תמיד ובמתכונתם הנוכחית. דארווין העלה את רעיון העץ – לכל האורגניזמים בכדור הארץ יש אב קדמון משותף וכולם נוצרו כהתפצלות של אוכלוסיות לאורך הרבה מאוד שנים .ניתן להשוות בין המהפכה של קופרניקוס 7לזו של דארווין – הפרספקטיבה של דארווין הייתה שלא רק שאיננו במרכז היקום אלא שאנחנו גם לא נזר הבריאה – האדם לא נוצר כדי שכל היצורים ישרתו אותו וזה גם לא מצב של התפתחות הדרגתית .בני האדם לא התפתחו מקופים; לקופים ולבני האדם יש אב משותף ,ושניהם התפתחו באופן עצמאי לאורך האבולוציה לאחר שהם נפרדו. האבולוציה דמויית-העץ עוסקת באב המשותף ובהתפצלויות לאורך הדורות. עדויות מודרניות למוצא משותף לדבר על ברירה טבעית – מנגנון אבולוציוני שעובד בברירה טבעית – זה משהו אחד ,ולומר שיש אב קדמון משותף יחיד היא רמה אחרת של חדשנות .ואולם מאז שהקונספט הזה עלה על ידי דארווין הצטברו עדויות רבות שמראות שהוא אכן צדק. האלמנט האוניברסלי הראשון הוא הקוד הגנטי .גם השימוש בנוקליאוטידים וגם הקידוד לחומצות אמינו כמעט אחידים בין כל היצורים החיים – ואחידים לחלוטין בין האאוקריוטיים .השילוב הזה בין שלוש 7קופרניקוס העלה את המודל הפשוט יותר לגרמי השמש שמבין שהשמש היא במרכז השמיים ולא כדור הארץ. החוג לביולוגיה ,אוניברסיטת תל אביב2011 , חמוטל בן דב 36 ביואינפורמטיקה -שיעור אותיות DNAלקידוד לחומצת אמינו היה יכול ליצור טבלאות קודונים מגוונות מאוד; אין הכרח ביולוגי שזה יהיה בצורה אחת מסויימת .העובדה שזה כן קיים היא עדות חזקה לכך שלכל היצורים בכדור הארץ יש אותו האב הקדמון. הקונספט של הסתכלות על האבולוציה כעץ עם אב קדמון משותף מקבל הרבהמאוד חיזוקים. לביולוגים היה כבר פיתוח של המתמטיקאים לעץ .יולר ,מתמטיקאי מוביל בתקופה ההיא לגרפיקה ,פיתח גרפים של עץ .יכולים להיות עצים בינאריים עם פיצולים בראש ובשורש ,וגם עץ עם כיווניות – שאין לו פיצולים בשורש ,שיש אב משותף .מכאן שלביולוגים היה את ארסנל הכלים להסביר ולבצע מחקר בעזרת עצים. עצים פילוגנטיים הם היפותזה לגבי העבר – ההשערה הטובה ביותר לגבי איך המינים התפצלו. לא עוד בוחנים רק על הדמיון בין האורגניזמים השונים אלא ממש מנסים לשחזר את העבר שלהם, לחזור לאב קדמון משותף .כשמסתכלים על הקודקודים בתוך הגרף – לא העלים אלא הענפים – ניתן לקבוע התפצלויות של מינים. העלים הם אורגניזמים הקיימים היום וניתן לרצף אותם; הקודקודים בתוך הגרף הם אבות היפותטיים. הטופולוגיה של העץ מציגה אילו מינים קרובים זה לזה ואורך הענף מתאר פונקציה של הזמן שעבר עד שהתקבל האורגניזם הנוכחי )ה"עלה"( .ניתן לראות למשל שאורך הענף של החולדה ) (Rattusגדול משל המרחק של עכבר ) ,(Musוהם סה"כ קרובים יותר לאב המשותף שלהם ושל הפרה ).(Bos יש להדגיש :פעמים רבות משתמשים בעץ על מנת לבנות היררכית קלאסטרים של פרטים – כמו שנעשה ב- .microarrayדמיון בתוך תבניות ביטוי של גנים בונים עץ של הכמות הנמדדת .עץ פילוגנטי הוא מאוד מיוחד ואינו מודד רק דמיון ,כמו כאן! זה נכון שלפעמים בונים עץ פילוגנטי על בסיס דימיון אבל הוא מבטא את האופן בו התפתחו המינים. חמוטל בן דב החוג לביולוגיה ,אוניברסיטת תל אביב2011 , שיעור :06עצים פילוגנטיים 37 הייצוג הגרפי יכול להיות מגוון ,יכול להראות את סדר הפיצולים ,הקפדה או אי הקפדה על אורכי ענפים ,גרפים מתעקמים .הנקודה החשובה היא שלכל עץ יש צורות הצגה ויזואליות שונות. עצים פילוגנטיים לרוב יהיו בינאריים ,כל פעם פיצול לשניים; אבל זה לא חייב להיות כך ,עץ פילוגנטי יכול להיות גם יותר מבינארי אם יש אי וודאות מסויימת. סוגי מחקר בעצים פילוגנטיים ידוע שקיימת קירבה גדולה בין השימפנזה לאדם; ב ,2003-עוד לפני שסיימו לרצף את גנום השימפנזה, ראו שאם משווים התמרות לא סינונימיות ,8המקום הנכון של האדם והשימפנזה כה קרוב שהם צריכים להיות באותו מקום בענף ואולי אפילו לשנות את שם ה genus-של השימפנזה ל.Homo- גם כשגילו את המאובנים של הניאנדרטלים ,היו מי שחשבו שאולי הם לא צריכים להיות ענף נפרד מההומו ספיינס אלא מה שמכונה "החוליה החסרה" .היום ניתן לרצף DNAמתוך מאובנים; הDNA- הרלוונטי )פחות מ (1%-של הניאנדרטל נאסף מעצמות שנמצאו והראה שהומו- ספיינס לא התפתחו מהניאנדרטאלים והם באמת היו פיצול מתוך אותו ענף שנכחד מאוחר יותר. בדוגמה הבאה מופיע עץ אבולוציוני של יונקים שונים .ההיפופוטם קרוב ביותר מכל היצורים המופיעים בעץ דווקא ללוייתן .התובנה הזו הגיע ממרקרים מולקולאריים של מערכת החיסון – שיטה שמדדה קומפטביליות ברמה אימונולוגית ,הקשורה גם לנושאים כמו דחיית רקמות בהשתלות ותרומות דם ואיברים .שנים לאחר שהעץ הזה הורכב ,כאשר מצאו שלד של לוויתן באפריקה ,לקחו עם מיטב הטכנולוגיה הרבה מאוד מאפיינים הניתנים להשוואה וראו שהסתירה לכאורה נעלמת ויש עדיין שמירה על המבנה של העץ כפי שבנו אותו לפי המערכת החיסונית – הרמה המורפולוגית מחזקת את הרמה המולקולארית. 8שינויים בקוד הגנטי שכן מביאים להחלפה של חומצת אמינו בקודון. החוג לביולוגיה ,אוניברסיטת תל אביב2011 , חמוטל בן דב ביואינפורמטיקה -שיעור 38 שיעור :07עצים פילוגנטיים שאלת הסקר :יש לבדוק מהו הענף בעץ הפילוגנטי עליו יושב אורגניזם .Aידוע שבודקים עימוד של מקטעים בני 5000זוגות-בסיסים וכן ידוע שיש 25התמרות .צריך לחלק את 25ב 5000-הבסיסים ואז מתקבל האורך של הענף – המרחק של אורגניזם Aמהאב הקדום שלו. הקדמה לעצים פילוגנטיים – המשך עצים פילוגנטיים בשימוש משפטי במקרה משפטי ,רופא ואחות שהיה ביניהם רומן ממושך הפסיקו את הרומן – ביוזמת האחות .הרופא, כנקמה ,יצר במזיד סיטואציה בה היא נדבקה בוירוס .HIVאולם כיצד חושדים או מוכיחים משהו כזה? • מעט לפני האירוע ראו שהיא לא נשאית של HIVושל הפטיטיס ,C-במהלך בדיקות שגרתיות שעוברים צוותים רפואיים. • מעט אחרי הפרידה האחות קיבלה מהרופא זריקה של .B12 • כשנה לאחר מכן ,בבדיקה שגרתית של HIVוהפטיטיס C-התגלה שהיא כן נשאית. בחקירה עלה שביום שבו היא קיבלה את הזריקה מהרופא הגיעו שני מטופלים שהאחות לא הכירה ,ולהם היה HIVוהפטיטיס .Cזהו אוסף ראיות נסיבתיות שמעלות חשד לאקט במזיד מצד הרופא .הקהילה הביואינפורמטית חשבה שאולי ניתן יהיה להשתמש במודלים של פילוגנטיקה על מנת לבדוק אם באמת יש הדבקה ,האם קיים קשר בין זני הוירוסים למטופל שממנו נחשד שלקחו את הדם. וירוס ה HIV-מוגדר לעיתים לא כמין אלא קוואסי-מין .הסיבה היא שהוא עובר אבולוציה בקצב מאוד מאוד מהיר – באדם שנדבק ניתן ממש לזהות עץ פילוגנטי שלם של הוירוס מרגע ההדבקה בנשא ועד רגע הבדיקה .השאלה ההיסטורית על הוירוס אינה מורכבת כמו בחולייתנים – כי סדר הגודל של האבולוציה הוא שנים ספורות. שיחזור עצים פילוגנטיים על סמך רצף לא נעשה על פי כל הגנום של שני האורגניזמים שמנסים להקביל, שכן זו עבודה קשה ומורכבת מדי .במקום זאת לוקחים מקטעים קטנים לצורך Multiple Sequence Alignmentבמחשבה שהם מייצגים את הגנום .אם כל תת מקטע כזה הוא גן ,אפשר להגדיר Gene- Treeשיהיה דומה למדי לעץ הפילוגנטי. הדבר הראשון שהחוקרים ניסו לעשות היה להשוות את אחד הגנים של HIVשקשור בהתגוננות מהמערכת החיסונית של הנשא ולכן הוא עובר ,במירוץ חימוש, מוטציות ושינויים רבים .בתת הרצפים של האחות לעומת המטופל של הרופא יש יותר קירבה מרצפים אחרים שהיו בסביבה – וירוסים אחרים של חולים ונשאים אחרים בסביבה .מכאן שהאחות ככל הנראה הודבקה בסבירות חמוטל בן דב החוג לביולוגיה ,אוניברסיטת תל אביב2011 , שיעור :07עצים פילוגנטיים 39 גבוהה מהמחט ששימשה ללקיחת דם מהמטופל .אולם ,בשיטה זו מקשה על הבחנה בכווניות של ההעברה והוכחה שוירוס ה HIV-במטופל יותר קדום לזה שבאחות. לשם כך עשו עץ לפי המקטע לגן של – RTרברס- טראנסקריפטאז .הגן הזה יציב יותר ועובר פחות שינוייים ,ואכן ניתן לראות בעץ שהמקטעים של המטופל מקיפים את המקטעים שנמצאו באחות ,דבר המהווה עדות לכך שהמטופל הוא שהדביק את האחות ולא ההיפך. יש להבין כי במקרה זה שוחזרה ההיסטוריה של נגיף ה .HIV-הגן הראשון הראה את הקירבה והגן השני הראה את הכיווניות .האינפורמציה והעדויות האלה הולכים ונעלמים עם הזמן .זוהי שאלה של קצב האבולוציה מחד ושל הזמן שעבר בפועל מאידך. בניית עץ החיים החידוש של דארווין לא היה ברעיון העצים כי אם ברעיון שיש אב קדמון משותף; אולם איך מיישמים את הרעיון ,להניח את כל האורגניזמים על אחד? עד המאה הקודמת ,העולם חולק לשניים :צמחים וחיות .אקרט כבר דיבר על חלוקה לשלוש והיום מדברים על חלוקה לחמש; וניתן כמובן גם פשוט לחלק לפרוקריוטים ואאוקריוטיים .ואז הגיע קרל ווז עם חלוקה לשלוש קבוצות: בקטריה, ארכיאה ואאוקריה .בעוד שהחלוקה הטקסונומית הקודמת התבססה על מקורות מורפולוגים ,מבנה ממברנה, מבנים אנטומיים מתקדמים וכו' ,ווז השווה רצף כרומוזומלי שמופיע בכל האורגניזמים וניתן לעקוב אחריו ,rRNA ,בדק את הרצף באורניזמים השונים ,עימד והסיק את מסקנותיו על הפיצולים. כך התקבל העץ של ווז :בעוד שבעבר התייחסו בהזנחה לפרוקריוטיים ,ווז מבחין בין ארכיאה ובקטריה ויותר מכך – הוא מראה שהארכיאה קרובה יותר לאאוקריה .בעוד שבעבר ידעו שיש שארכיאה שנבדלים אולי מהבקטריה אבל עדיין ראויים להיות תחת אותם ענפים ,ווז גילה שהן קבוצות שונות לחלוטין. המושג של "עץ החיים" מאוד שנוי במחלוקת :דארווין טען שאפשר לתאר את החיים על סמך מטאפורת עץ אולם היום אנו מכירים תופעת מעבר גנים הוריזונטלי .גנים עוברים למעשה בין מיקרואורגניזמים שיכולים להיות מאוד מרוחקים מבחינת האב הקדמון על ידי מגוון שיטות להעברת מידע בין המיקרואורגניזמים – זוהי הורשה שאינה דארווינית וורטיקלית .למרות זאת ,מרבית הגנים לא עוברים בהעברה צדדית; מכאן שעל גנים שמורים כאלה ,דוגמת ,rRNAניתן לבסס את העצים הפילוגנטיים. החוג לביולוגיה ,אוניברסיטת תל אביב2011 , חמוטל בן דב 40 ביואינפורמטיקה -שיעור אנליזה פילוגנטית :לא רק בין אורגניזמים כלים פילוגנטיים יכולים לתאר היסטוריה אבולוציונית של אורגניזמים כמו גם של דברים נוספים ,דוגמת מחלות .הדוגמה הבאה תעסוק בפילוגנזה של סרטן .כאשר מתחיל תהליך סרטני בגוף ,הוא מתחיל בנקודה מסויימת; מספר רב של אירועי חלוקה מאוחר יותר ,כשהגידול מתחיל להיות ממאיר ,הוא עבר למעשה אבולוציה כדי להיות סרטן "טוב יותר". פילוגנזה של סרטן דומה מאוד לכל פילוגנזה אחרת, אבל ההיסטוריה המתוארת היא ברמה הפילוגנטית. גישה זו חשובה לא רק להבנה הכללית אלא גם ליכולת לפתח תרופות טובות יותר .אנליזה של שני סוגי סרטן תראה שהם שונים אבל ניתן לזהות עוד הבדלים בשיטות גנטיות שיעזרו להבנת המרחק והפעולה הקשורות לסרטן זה. השיטה הראשונה היא בעזרת ,MicroRNA Chipאשר משווה בין גידולים של אנשים שונים .בשנים האחרונות במקום היברידיזציה של CGAנעשה שימוש במיקרו-אראי שבודק את ה mRNA-ברקמה מסוימת; CEGHהיא שיטה היכולה לבדוק רמת עותקים – כמו רמת ביטוי – על פ ההיברידיזציה של תאי הסרטן. אנליזה פילוגנטית :לא רק בביולוגיה השפות האנושיות התפתחו בקבוצות שונות של בני אדם ובתחום השפה נראה שהתפתחות השפה אינה בלתי תלויה – יש תהליך של "ייבוא" ,כמו מעבר גנים הוריזונטלי בין קבוצות בני האדם .אם קודם הגנים חולקו למשפחות גנים או הומולוגים ,כאן ניתן לעשות אותו דבר לגבי מילים מתוך הלקסיקון .אם לקבוצה של מילים יש משמעות דומה ,צליל דומה ומרכיבים אחרים ,אפשר להגיד שהמילים הן הומולוגיות – שיש להן אב קדמון משותף. דוגמה אחרת היא שימוש בעצים פילוגנטיים לחקר ההתפתחות של הקומפלקסיות בפוליטיקה .עוסקים במחקר בארבעה מצבים :ללא מנהיג ,מנהיג אבסולוטי פשוט ומורכב ומצב של מדינה .למעשה זוהי אנאליזה פילוגנטית המופעלת על מחקר פוליטי-חברתי .המודל האבולוציוני נתן את המדד הכמותי לסיכוי שיהיו קפיצות קדימה במבנה השלטון או אחורה .הם ראו שבעוד שקפיצות קדימה כמעט לא קורות בדילוגים ,קפיצות אחורה קורות מדי פעם. חמוטל בן דב החוג לביולוגיה ,אוניברסיטת תל אביב2011 , שיעור :07עצים פילוגנטיים 41 קריאת עצים :איזה עץ יותר מדוייק? שימו לב שעצים ניתן לסובב – בנקודות הפיצול .שני עצים יהיו זהים אם האבות המשותפים נותרים זהים ,ואין זה משנה איך נסובב אותם .בארבעת העצים משמאל ניתן לראות שהאב הקדמון של גורילה תמיד משותף לשימפנזה ולאדם. האב הקדמון של השימפנזה והאדם גם הוא אותו אב קדמון בכל ארבעת העצים. עצים פילוגנטיים יכולים להיות חסרי- ואז שורש, הפיצולים מופיעים אבל לא נתוני נקודת סדר הזמן, הכיווניות .השורש נותן למעשה כיווניות ממנו אל העלים .בעץ לא משורש אין התייחסות למימד הזמן. כאשר יש מספר קבוצות טקסונומיות בעץ לא משורש ניתן לבחור כל ענף בתור השורש; לרוב ייעשה שימוש בקבוצה טקסונומית רחוקה יחסית על מנת לראות את השורש – למשל בתרנגולת יחד עם שימפנזה ,גורילה ואדם, על מנת להראות שביחס לתרנגולת שלושת האורגניזמים האחרים חייבים לשבת על אותו הענף. הרצפים שלהם בוצע שירוש מכונים ingroupוהרצף הנוסף הוא .outgroup דרך אחרת היא – midpointלוקחים שני עלים שביניהם המרחק מקסימלי ,ונקודת האמצע ביניהם היא השורש .הנחה זו עובדת בצורה גסה אבל שירוש בשיטה זו אינו מקובל ,כי מספיק שיהיה אורגניזם אחד שעובר אבולוציה מהירה יותר מהאורגניזמים האחרים וכבר השירוש הזה אינו נכון – שירוש שכזה תקף רק כאשר קצב האבולוציה בכל האורגניזמים זהה .קצב האבולוציה הזה מכונה "."molecular clock החוג לביולוגיה ,אוניברסיטת תל אביב2011 , חמוטל בן דב ביואינפורמטיקה -שיעור 42 חלוקה של הקבוצות :מונופילטית ,פאראפילטית ,פוליפילטית דוגמה לאחד מהמצבים האלה היה במקרה של המטופל והאחות – הרצפים של המטופל עוטפים את הרצפים של האחות .דבר זה מכונה קבוצה פאראפילטית .באירוים הבאים רואים דוגמאות למצבים כאלה: • פאראפילטית – מכילה את האב הקדום ביותר של הרצפים ,אולם יש רצפים חיצוניים למסלול הזה. • פוליפילטית – הקבוצה מכילה את כל הרצפים אבל לא את האב הקדמון של כולם. • מונופילטית – כל הרצפים מוכלים באותה קבוצה כולל אב קדמון מסויים. הומולוגיה והומופלאסיות • הומולוגיה – מאפיין משותף שעבר בתורשה מאב קדמון משותף. • הומופלאסיה – מאפיין משותף שנוצר באופן בלתי תלוי. הומופלאסיות גורמת לתכונה מסויימת להופיע לאורך האבולוציה בצורה דומה ,למרות שכנראה התפתחה בתנאים שונים ,וההתפתחות של האנאלוגיה הייתה בלתי תלויה .דוגמה לכך היא הראייה ,שיש הטוענים כי התפתחה לפחות שש פעמים שונות בצורה בלתי תלוייה. מה הקשר לפילוגנטיקה? אם לא הייתה הומופלאסיות או אבולוציה הוריזונטאלית ,הניתוח הפילוגנטי היה יכול להיות הרבה יותר קל; הדברים המקשים על הניתוח הם אבולוציה גנטית ,חזרה מנקודה מסויימת לקודמתה ,וגם הומופלאסיות .כאשר משחזרים עצים פילוגנטיים עושים זאת לרוב על פי תכונות שלא נוטות להומופלאסיות. דוגמה לתכונות כאלו הן ,indelsמחיקות ותוספות בגנום .הטענה היא שהסיכוי לקבל מרווח מסויים בין שני אורגנימים בגנום שלהם מאוד נמוך ,ולכן אם רואים בין שניהם indelבאותו המיקום אנחנו יכולים להניח שה indels-לא נגרמו מהומופלאסיות .הטענה הזו יפה אולם לא תמיד נכונה כי indelsלא חסינים לחלוטין מפני הומופלאסיות ,ואכן הראו וביקרו מאוחר יותר שהשיטה של ה indels-אינה בלתי-רגישה לחלוטין להומופלאסיות .יחד עם זאת ,החוקרים שואפים להגיע למצב שיש מינימום הומופלאסיות ו- indelsהם דוגמה טובה. חמוטל בן דב החוג לביולוגיה ,אוניברסיטת תל אביב2011 , שיעור :07עצים פילוגנטיים 43 אורתולוגים קיימים שני סוגי הומולוגים: • אורתולוגים – שני גנים עם אב קדמון משותף כאשר מה שגרם להבדלם בין האללים הוא ספציאציה .במצב כזה הגנים לרוב ישמרו על הפונקציה שהייתה עוד לאב הקדמון – האירוע של הספציאציה לרוב לא מספיק לגרום לשינוי בתפקוד. • פאראלוגים – מצב זה קורה מדופליקציה .במצב זה שני גנים הם נפרדים כתוצאה מדופליקציה אבל להבדיל מהמקרה הקודם ,המצב הזה לא מתקיים בין שני מינים שונים כי אם בתוך אותו המין – זוהי לא תוצאה של ספציאציה. יש להדגיש כי אירועי הדופליקציה הם כנראה המנוע החשוב ביותר לחדשנות אבולוציונית :כאשר גנומים משתכפלים המטרה של הרפליקטור היא להעמיד עותקים כמה שיותר מדוייקים למקור .האבולוציה שמרנית מאוד ולכן הרפליקציה מאוד אמינה .יחד עם זאת ,אם כבר יש דופליקציה ,העובדה שיש גן אחד שיכול תמיד להישאר תקין מביאה לכך שהגן המשוכפל חשוף למוטציות מבלי שהן ישפיעו בצורה מזיקה מאוד על האורגניזם .כאשר יהיו מוטציות בגן השני שיביאו לשינוי התפקוד שלו ,התפקוד המקורי יישמר על ידי העותק הראשון ולכן השינויים ייתקבלו בברכה. נניח יונק טיפוסי; משפחת הגנים הנפוצה ביותר ביונקים הם גנים הקשורים להרחה ,שכן לרוב היונקים יש חוש ריח מפותח למדי :יונקים מקדישים כ 1000-גנים להרחה מתוך כ 20,000-גנים בגנום .אם מסתכלם על שימפנזה ,לעומת זאת ,רואים שכ 50%-מהגנים "הלכו לאיבוד" .אבל הם לא באמת אבודים: הגנים הם למעשה פסודוגנים או גנים מאובנים ,אשר לרוב אינם עוברים תרגום וגם אם הם יוצרים חלבון הוא לרוב לא פונקציונאלי. בשל כך חוש הריח של בני האדם הוא ברמה מאוד נמוכה בהשוואה לשאר היונקים .ניתן לנחש שהדבר נובע מאירוע אבולוציוני שאיפשר הקלה של הלחץ האבולוציוני על שימור חוש הריח .שהרי ,כל הפעולות של יונקים קשורות בריח :מציאת מזון ,זיהוי מזון מקולקל ,מציאת בני זוג וכדומה .בני אדם וקרוביהם כנראה עברו אירוע שגרם להם לא להסתמך על החוש הזה. ידוע היום שרוב היונקים לא רואים בצבעים – אלא בשני צבעים בלבד .בפרימאטים לעומת זאת הייתה דופליקציה שאיפשרה לראות צבע בתדירות כלשהי; העותק הנוסף של הדופליקציה עבר מוטציות שהפכו אותו רגיש לצבע בדרגה שונה .ההתפצלות הזו הקנתה אפשרות לראות בשלושה צבעים ויצרה בדיוק את ההתפצלות הגנטית הפאראלוגית. החוג לביולוגיה ,אוניברסיטת תל אביב2011 , חמוטל בן דב 44 ביואינפורמטיקה -שיעור מרגע שלקופים של העולם הישן הייתה היכולת לראות בשלושה צבעים ,פעולות שנעשו על בסיס ריח התבססו על ראיה ,שהיא הרבה יותר אינפורמטיבית ומדוייקת .בצורה זו כל המוח והמערכת הקוגנטיבית עבר למצב של הסתמכות על ראייה במקום על ריח .הצבעים הם קרינה אלקטרומגנטית בתדרים שונים – בטווח האור הנראה לנו. עצים גנטיים ועצים של מינים עצים גנטיים ועצים של מינים יכולים להיות במקרים מסויימים אותו הדבר – כמו העץ שבנה ווז על בסיס ;rRNAאבל זה לא תמיד נכון ,בין אם כי הגן לא מתאים ובין אם כי הסיגנל לא מפורש נכונה .משום כך יש להשתמש בעצים גנטיים של גנים רבים ולמצע בין העצים השונים על מנת למצוא את העץ ההגיוני ביותר בין כולם. במחשב מציגים עצים במחרוזת ,כאשר מה שחשוב למחשב כדי להבין את העץ הוא הסוגריים :ברגע שכמה עלים נמצאים יחד בתוך סוגריים המחשב יודע שהם בעלי אותו אב משותף .יכולים להיות אלגוריתמים שכוללים גם אורכי ענפים .האלגוריתם הזה מכונה .Newick Format דוגמה בדוגמה משמאל מופיעים אצה ירוקה ,אצה אדומה וטחב .לטחב ואצה ירוקה יש אב משותף פחות קדום מהאב המשותף של אצה ירוקה ואצה אדומה .מכאן שהמרחק האבולוציוני בין אצה ירוקה לטחב קרוב יותר מאשר לאצה אדומה. באופן דומה ניתן לומר שהקירבה האבולוציונית של אצה ירוקה מטחב היא אותה קירבה שיש לו לאורן – משום שחוזרים עד לאותו אב משותף בשביל להגיע מאצה ירוקה לכל אחד מהמינים האלה. מחפשים את האב הקדמון הקרוב ביותר בין שני המינים ובודקים מי האב הקדמון הקרוב ביותר בין זוג מסויים .זוג זה יהיה הזוג בעל הקירבה האבולוציונית הגדולה ביותר. חמוטל בן דב החוג לביולוגיה ,אוניברסיטת תל אביב2011 , /שיעור :08בניית עצים – המשך 45 שיעור :08בניית עצים – המשך ככל שמספר הרצפים שעל פיהם בונים את העץ גדול יותר ,גדל מספר העצים שניתן לבנות בתהליך שנקרא ,Combinational Explosionבצורה מאוד אלימה .המונח OTU=Operational Tree Unitהוא מספר העלים בעץ – היחידה המציאותית שאינה היפוטתית. נשאלת השאלה – כמה עצים אפשריים שונים יש כאשר לוקחים בחשבון 70מינים ) ?(OTUיש להתחשב רק ביחסים בין המינים ,בטופולוגיה ,ולא מנסים עדיין להבין את אורכי הענפים המעידים על המרחקים הגנטיים בין המינים .כאשר ,OTU=70קיימים 7*10117עצים אפשריים .9מכאן שנדרשת שיטה אחרת :אפשרות אחת היא להימנע מלסרוק כל כך הרבה מינים; אפשרות שנייה היא להימנע מלסרוק את כל העצים האפשריים בעזרת אלגוריתם מסנן מתחכם .ישנן למעשה שתי שיטות: • לתרגם את נתוני הרצפים למטריצת מרחקים ) – (Distanceבמצב כזה לא לוקחים את כל ההבדלים בין שני רצפים אלא מספר אחד שמייצג את המרחק ביניהם .בעזרת המטריצה של המרחקים בונים עץ. • הסתכלות על הרצף והמאפיינים שלו ) .(Characterבשיטה זו מחפשים את העץ האופטימלי לאבולוציה לאחר הערכה של כל העצים האפשריים. Distance-Based Method בונים מטריצה של רצפים ומאפיין כלשהו. ממירים את הנתונים למטריצת מרחקים ועל סמך המטריצה בונים את העץ .המטריצה מיוצגת כמשולש משום שהיא סימטרית :המרחק בין A ל B-שווה למרחק בין Bל .A-כל האינפורמציה נמצאת בחצי מטריצה. כעת עולות שתי שאלות :מה יהיה הקריטריון הראשון על פיו תיכתב המטריצה ,ומה יהיה הקריטריון השני על מנת לבנות את העץ? המרחק בטבלה בין שתי נקודות צריך להיות ריבוע של יחס השינויים ,אשר מורכב על ידי ספירת מספר השינויים וחלוקת באורך הרצף. 9לצורך השוואה ההנחה גורסת שמספר האטומים ביקום הנראה הם ,1080כלומר גם אם כל האטומים ביקום היו מחשבים שעובדים על הבעיה הזו הם עדיין לא היו מצליחים לעבור על פני כל העצים מתחילת היקום ועד היום. החוג לביולוגיה ,אוניברסיטת תל אביב2011 , חמוטל בן דב 46 ביואינפורמטיקה -שיעור UPGMA = un-weighted pair group method with arithmetic mean זה הפרוטוקול לבניית העץ הפילוגנטי על בסיס מטריצה .יש להתחיל מבחירת המספר הקטן ביותר .כאשר מוצאים אותו ,מחברים בין שני המינים האלה .שימו לב שההנחה היא שהמרחקים הם שווים – כלומר אם המרחק בין דב לדביבון הוא 0.26אורך כל ענף הוא .0.13 ברגע ששני מינים אוחדו עוברים לטבלה עם אורגניזם היפוטתי – אב קדמון של דב ודביבון – ומחשבים את המרחק בין בין אב היפוטתי זה לחיה הבאה .ההנחה היא שהמרחק הזה הוא המרחק הממוצע בין החיה הבאה – כלב ים – לדב ולדביבון. לאחר חישוב המרחקים החדשים מקבלים טבלה מצומצמת יותר .הטבלה הולכת ומצטמצמת על ידי האורגניזמים ההיפוטתיים ש"מוצאים" בתור האבות המשותפים של אורגניזמים קרובים .כל פעם מחשבים את המרחק מחדש עד שמסיימים את המטריצה. מבחינה ביולוגית קשה להתיחס לכל השינויים אותו הדבר; לא ניתן להתייחס להחלפה של נוקליאוטיד בודד באותו האופן כמו למחיקה של נוקליאוטיד – שיכולה לגרום לשינוי מסגרת הקריאה .בהמשך נדגים כיצד משקללים את הדברים ומתייחסים אליהם. חמוטל בן דב החוג לביולוגיה ,אוניברסיטת תל אביב2011 , /שיעור :08בניית עצים – המשך 47 חסרונות השיטה השיטה הזו אינה נפוצה בשימוש למרות שהיא מאוד מהירה; הסיבה לכך היא שהשיטה נשענת על ההנחה שקצב האבולוציה שווה לאורך כל העץ וענפיו .כשבוחרים שורש של עץ ,משתמשים בקבוצה חיצונית או מניחים שקיים שעון מולקולארי; מהסיבה הזו העץ יוצא משורש אבל זו סיבה גסה יחסית. Neighbor-Joining – Based on Star Decomposition במקרה הזה ,במקום לבנות מטריצת מרחקים פשוטה לוקחים מטריצת ,Q-Matrixהמתייחסת למה קורה לכל הענפים על ידי איחוד בין שני ענפים .זה מאוד דומה ל ,UPGMA-אבל ה Q-Matrix-מעלה מצב בו סך כל הענפים בכל שלב הוא אורך מינימלי .זוהי שיטה לבניית עץ שסך אורכי ענפיו הוא מינימלי. כאן אין מניחים קצב אבולוציה שווה או שעון מולקולארי ,אבל לא מקבלים עץ משורש .גם בשיטה הזו עדיין לא נפתרה הבעיה שצריך לקחת בחשבון את המודל האבולוציוני או הביולוגי. אין צורך להכיר את כל הפרטים הטכניים אבל יש לזכור ששיטה זו היא מהירה יחסית. Character-Based Methods השיטה הזו מתייחסת למאפיינים שאינם בהכרח גנטיים – אלו יכולים להיות גם מאפיינים פיזיולוגיים ,למשל די-פדאליזם ,הליכה על שתי רגליים .אפשר לקחת מאפיינים של תכונות מורפולוגיות ופיזיולוגיות, להמיר אותם לאלגוריתם בינארי שמצמצם את האפשרויות וליצור מטריצה. עקרון החסכנות – Maximal Parsimony לפי עקרון זה ,העץ שדורש הכי פחות שינויים יהיה העץ המועדף .הציון הניתן לטופולוגיה המתקבלת בעץ צריך להתבסס על עקרון זה .השיטה מתחילה בסריקת העצים האפשריים וחיפוש העץ בעל הציון החוג לביולוגיה ,אוניברסיטת תל אביב2011 , חמוטל בן דב ביואינפורמטיקה -שיעור 48 הטוב ביותר .זאת לעומת שיטות אחרות ,שבהן אין למעשה השוואה של העץ המתקבל לעצים אפשריים אחרים .10השיטה הזו מהירה מאוד; היא כוללת את בעיית החיפוש במרחב העצים ומשום שאי אפשר לסרוק את כולם יכול להיות שהציון המיטבי יהיה לוקאלי ולא גלובאלי. הציון של החסכנות שניתן לעץ חוזר לטבלה של המאפיינים ,אבל יש לזכור כי התקבלה טופולוגיה מסויימת של העץ. הציון ניתן על פי טבלה הנוכחות/היעדרות של הגן הראשון ,כאשר בודקים כמה מוטציות היו צריכות להיעשות בעץ על מנת לקיים את פורמט הנוכחות/היעדרות הזו לפי ציונים של ) 1קיים( או 0 )נעדר(. שיטת החסכנות נותנת ציון בהינתן טופולוגיה של העץ. ניתן להמשיך כך עבור כל אחד מהגנים או המאפיינים הנבחנים על פני אותו העץ ולשקלל ציון כולל של כל הגנים עבור העץ .לאחר שעוברים על כל גן בנפרד סוכמים את הציונים וזה הציון הכולל של העץ )ראו שקופיות .(20-31 כעת נשאלת השאלה האם זה המספר המינימלי שהיינו יכולים לקבל? האלגוריתם מאפשר שיטוט בין העצים ומתן ציון לכל עץ על מנת לאתר את הציון המינימלי .האלגוריתם המתוחכם יותר מאפשר למצוא את הנקודה המינימלית ביתר קלות. השיטה החסכנית דורשת חישוב הציון לכל אחת מהעמדות בנפרד .ציון החסכנות ניתן על ידי סכימת הציון לכל גן בנפרד .חישוב הציון המינימלי יכול להיות בעמדה אחת ולפי נוכחות/העדרות אבל הוא יכול להיעשות גם לפי חומצות אמינו .זהות ברצף אינה עוזרת במציאת מידת שינויים שנעשו ,אבל אם יש חומצות אמינו שונות תתקבל מידת השינויים שקרו לאורך העץ. אם המאפיין בין שני ענפים אינו זהה יש לבצע איחוד ) .(Uבמאפיינים משותפים יש לבצע חיתוך )∩( .מספר השינויים הסופי שווה למספר פעולות האיחוד שנדרשו עד השורש .כאשר סוכמים 10זיכרו כי אין אפשרות לסרוק את כל העצים ,כי הם עצומים ,ולכן מחפשים איזושהי השוואה חכמה כלשהי. חמוטל בן דב החוג לביולוגיה ,אוניברסיטת תל אביב2011 , /שיעור :08בניית עצים – המשך 49 אותן עבור כל העמדות ,מתקבל ציון החסכנות של כל העץ. בעיית שינויים נסתרים או מרובים כאשר בוחנים את המידע הקיים ברמת העלים, סופרים שינויים או מרחק אבל הרבה פעמים המרחק הזה קטן בהרבה מהמרחק האבולוציוני – או מספר השינויים שהיו בפועל .אם למשל יש שני אורגניזמים עם אב משותף ,ולשניהם יש ,Aשיטת החסכנות אומרת שהאב הקדמון יהיה ;Aאולם יש הסתברות שהוא יהיה גם משהו אחר ,למשל .Gכמו כן גם אם חייב להיות שינוי – לא ידוע אם השינוי היה יחיד או יותר מכך. האיור הבא מציג רצף שהיו בו ,היסטורית 12 ,התמרות אבל בפועל רואים רק שלוש .הוא מציג מספר סוגי שינויים שלא ניתן לספור כלל או כראוי :בין שאלו שינויים מקבילים ,מספר שינויים באותה עמדה שנראים כמו שינוי אחד ,רברסיות שהן שני שינויים שכלל לא נראים – כתוצאה מכל אלו מתקבל מספר שינויים גדול יותר מכפי שניתן לראות או להעריך. הפתרון הוא מודל אבולוציוני שיכול להתחשב בשינויים הנסתרים .הגרף מתאר את אחוז השינויים כפונקציה של המרחק הגנטי .בשיטת החסכנות ,הגרף המתקבל היה לינארי; אולם כעת הגרף נראה כעקום רווייה – המרחקים הגנטיים הולכים וגדלים בין עשרות אחוזים באופן יחסי ,כי יש להניח שכמות השינויים הנסתרים הולכת ועולה ככל שמספר השינויים הנראים הולך וגדל. ככל שהענף קצר יותר ,על כל שינוי יש קירוב של יחידת מרחק; ככל שהענף גדל ה"מס" על שינויים נסתרים הולך וגדל גם כן .המודלים האבולוציונים מתבססים על שיטה הסתברותית המתייחסת לרצף, לעץ שמתאר את היחסים בין המינים ומטריצה שמתארת את השינויים הנראים בפועל. החוג לביולוגיה ,אוניברסיטת תל אביב2011 , חמוטל בן דב ביואינפורמטיקה -שיעור 50 מתוך המטריצה ניתן לגזור את ציון העץ ואורכי הענפים ולהבין מה קרה בערך מבחינת האבולוציה; השיטה של המודלים עוזרת להבין גם את הנסתר לצד הנראה. Maximum Likelihood בשיטה זו מחשבים את הסיכוי שמשהו יקרה בהתבסס על נתוני העבר – בהתאם להבדל שבין ההגדרות probabilityלעומת .likelihoodזהו חישוב של ניראות – כאשר המודל מתחשב בחוסר ההגינות הסטטיסטית בה פועלות המערכות הביולוגיות .ה ,maximum likelihood estimate-היכולת להעריך מודל ביחס לתצפיות ,הוא התוצאה של הניראות. ככל שמספר התצפיות גדול יותר היכולת לסמוך על ההשערה הולכת וגדלה .ככל שהשונות מצטמצמת ,גם אם הערך שהתקבל עבור maximu likelihood estimateזהה לערך שבשונות רחבה יותר ,אפשר לבטוח יותר בתוצאה כאשר היא מתקבלת בגרף עם השונות הצרה. השיטה מרכיבה מודל אבולוציוני שמתאים לסיכויי המעבר .המודל הראשון מייחס סיכוי שווה לכל נוקליאוטיד להתחלף באחר ,אולם הניראות מבוססת כבר על תצפיות בנוגע להתחלפות הזו כך שהמודל השני יתייחס לכך כמודל מורכב שמבחין בין טרנזיציה לטרנסברסיה – מעבר מפורין לפורין לעומת מעבר מפורין לפירמידין )למשל( .בצורה כזו המודל כבר יותר מתקדם כי הוא מסביר יותר טוב את הנתונים. הטבלה משווה את שתי השיטות – החסכנות והניראות המקסימלית .נראה שיש יחסי גומלין בין השיטות – החסכנות נותנת תשובות מהירות בעוד שבמודלים מתחשבים גם בביולוגיה של התהליכים. תהליכי בניית העץ כאשר נותנים ציון לעץ מסויים ,יש לזכור כי קיים מרחב עצים עצום שלא ניתן לראות או לחשב .לפיכך יש לבצע ניחושים מושכלים ,תיכנות דינאמי ואלגוריתמים חמדניים השואפים תמיד לחפש גבוה יותר ולטפס נכון יותר בתוך המרחב .הבעיה של הביואינפורמטיקאים :נקודות מקסימום לוקאליות .אחד הפתרונות המקובלים הוא להתחיל מכמה נקודות אקראיות במרחב – במקום להתחיל בנקודה אחת ואז להסתכן בכך שהיא תגיע למקסימום לוקאלי. שימו לב שעובדה זו נכונה גם עבור שיטת המודלים והניראות המקסימלית וגם עבור שיטת החסכנות. חמוטל בן דב החוג לביולוגיה ,אוניברסיטת תל אביב2011 , /שיעור :08בניית עצים – המשך 51 Bootstraping עם קבלת עץ אפשרי חובה להבין מהי מידת האמינות שלו .הבעיה :אין אמצעי חיצוני לחלוטין להערכה זו )דוגמה לשימוש באמצעי חיצוני היא בניית העץ לפי דאטה רצפי מסויים והשוואתו לעץ ידוע אחר( .לשם כך קיים ה.Bootstraping- בתהליך זה בודקים עד כמה כל עמדה נפרדת שהיה בה שינוי מסכימה עם הסיפור האבולוציוני המסופר על ידי העץ .יש לבדוק כמה מתוך כלל העמדות מסכימות עם הטופולוגיה ועד כמה מידת ההסכמה הזו מחזקת את אמיתות העץ מבחינה סטטיסטית. בשלב הראשון דוגמים קבוצות אקראיות של עמדות ובודקים אותן .בשלב השני בונים עצים לפי ה- datasetהמלאכותי שהורכב באקראי .כעת משווים את העצים האלה לעץ הנבדק .כל אחד מהפיצולים מייצג את אחוז מערכי הנתונים השונים שקיבלו את אותו הפיצול. החוג לביולוגיה ,אוניברסיטת תל אביב2011 , חמוטל בן דב ביואינפורמטיקה -שיעור 52 שיעור :09בניית עצים ניתן לחלק את סך השיטות לייצור עצים לשיטות שמבוססות על מרחקים ) (Distanceומאפיינים ).(Character • השיטות מבוססות-המרחק מהירות מאוד ,בונות עצים ממשיים ,ועושות חישוב מינימלי ביותר ) (UPGMAאו מיזעור סך אורכי הענפים בהינתן ששני ענפים חוברו ).(NJ • שיטות מבוססות-מאפיינים מונחות על ידי ההסבר המינימלי ביותר ) (MPבקביעת מינימום אירועים אפשריים ,או בשיטות שיותר מקורבות להסברים הביולוגיים ) (MLהנותנות ,על ידי מודל הסתברותי ,הערכה כמותית של תופעות שונות באבולוציה. חיפוש במרחב העצים כשמסתכלים על כלל מרחב העצים ,תוך שיטוט במרחב רב-מימדי של עצים וחיפוש אחר נקודת מקסימום ,מה משמעות המעבר מנקודה לנקודה? כל נקודה היא למעשה הציון – בין אם על ידי MPאו .MLהמשטח הוא אפשרויות שונות, עצים שונים ,והמעבר בין שתי נקודות סמוכות הוא השוואה בין שני עצים שדומים בטופולוגיה שלהם וכעת משווים בין ה"גובה" של הנקודות – כלומר הציון של כל אחד משני העצים. ההבדל pוהמרחק הגנטי K מודלים הסתברותיים המבוססים על ניראות יכולים במידה מסויימת להתחשב בשינויים חבויים – דוגמת מוטציה ורברסיה .המודלים האלה מתחשבים באחוז ההבדל בין שני הרצפים ונותנים לו את המרחק שיכול להיות בין המינים ,בהתחשב בשינויים הנסתרים .כאן המרחק אינו גדל לינארית עם ההבדלים משום שככל שיש יותר הבדלים יש סבירות לכמות הולכת וגדולה של שינויים חבויים .ההבדלים גדלים פרבולית כפונקציה של המרחק הגנטי .כשמספר השינויים עולה על 25%כבר אין יכולת לקבוע את המרחק בצורה אמינה. בבחינת עקרון החסכנות המתייחס לזהות או שונות ב 0-ו ,1-יכולים להיות אירועים שבהם מוטציה אחת בין שני עצים תראה זהה ,אולם פעם אחת זו תהיה מוטציה חיובית ) (gainופעם אחרת היא מוטציה שלילית ) .(lossשיטת החסכנות כשלעצמה אינה יכולה לקבוע איזו מוטציה עדיפה ,אולם שיטת ה ML-יכולה למצוא הערכת MLלקצב של הgain- ולקצב של ה .loss-בהתאם לקצב ניתן לקבוע איזה תסריט אבולוציוני הוא הסביר ביותר. חמוטל בן דב החוג לביולוגיה ,אוניברסיטת תל אביב2011 , שיעור :09בניית עצים 53 Bootstrap תהליך זה עוזר להעריך את אמינות העץ שלא על סמך קריטרון חיצוני אלא על ידי "הסכמה" של הנתונים עם עצמם. בשיטה זו לוקחים את מערך הנתונים המעומד המקורי ומשתמשים בעמדות אקראיות מתוכו – לפעמים אפילו כמה פעמים באותה עמדה – על מנת לבדוק כמה מהעצים שנוצרים באופן כזה יהיו עדיין עצים שמסכימים עם הפיצולים שהיו בעץ המקורי. שימו לב שהדגימה אקראית לחלוטין אבל מתוך עמדות אמיתיות – מתוך אותו מאגר עמדות שבעזרתו נבנה העץ המקורי. גנומיקה משווה תחום זה הינו אולי החשוב ביותר בקהילה הביולוגית – בין אם בשימוש ישיר או לא .בסופו של דבר הביולוגיה היא מעין Reverse Engineering – נסיון להבין איך האורגניזם עובד ,הנסיון להבין את הפונקציה ויחסי הגומלין של גנים שונים .אולם יש לזכור כי המהנדס של המערכות הביולוגיות הוא הברירה הטבעית – שמעדיפה את האורגניזמים שמעמידים יותר צאצאים. עובדה זו מצווה שמבחינת המורכבות המערכות הביולוגיות מורכבות יותר – הוכחה לכך היא בביולוגיה המולקולארית אשר ככל שהיא מתקדמת וחושפת עוד טפח מתברר שעדיין מוסתרים טפחיים – היום יודעים יותר וגם יודעים כמההתמונה השלמה מורכבת הרבה יותר מהגלוי .ניתן ממש להפעיל זאת כקריטריון :מידת המורכבות של אובייקט יכולה ללמד אם המהנדס היה אינטילגנטי )" ("Robotויצר עיצוב מודולארי ,בעל מודולים וקבוצות של אופרטורים שמבצעים פעולות יחד; או אם המהנדס היה ביולוגי ,שיצר " "UFOמורכב מאוד. זוהי הסיבה לקושי הגדול של ביצוע ה Reverse Engineering-בביולוגיה .היתרון של ביולוגים הוא שכשהם חוקרים אורגניזם מסויים ניתן להקיש ממנו על הרבה מאוד אורגניזמים אחרים בפלנטה – שכן לכולם אב קדמון משותף .כך למשל על מנת להבין את הביולוגיה של האדם אין חובה לבצע מחקר ישירות באדם – ניתן להשתמש במודל כמו ,E.coli שמרים ,תולעים ,דרוזופילות ועכברים – שבהם מקישים הרבה מאוד דברים גם מבחינות התנהגותיות ולא רק גנטיות. החוג לביולוגיה ,אוניברסיטת תל אביב2011 , חמוטל בן דב ביואינפורמטיקה -שיעור 54 בפילוגנזה ,כדי להבין איך נראית האבולוציה ,לא בודקים רק את ה- sequence alignment ,multiple אלא גם מה קצב האבולוציה שהתרחשה באותה עמדה ,האם העמדה שמורה או לא ,וגו .זה מידע שניתן לקבל רק כשמתחשבים בסדר הסופי של העץ. בתחום האבולוציה המולקולארית, הרלוונטי גם לחוקרי הבילוגיה המולקולארית באופן כללי ,חשוב להבין את לחצי הסלקציה הפועלים באיזורים שונים בגנום ועל הלחצים הפועלים על גן במיקום ספציפי. שיטות להערכות צפי היכולת להבין כיצד בדיקה מסויימת עשויה להיות נכונה או שגויה וסוג הטעויות האפשריות בבדיקה ספציפית היא אספקט חשוב מאוד בביולוגיה .נניח בדיקה של נשאות ל :HIV-ישנה תוצאה חיובית או שלילית וישנה תוצאת אמת או שקר – דבר המחלק את התוצאות לארבע לפי החלוקה הבאה: הבדיקה יכולה להיות צודקת בשני מיקרים :במקרה שבו היא נותנת תוצאה חיובית לנשא ובמקרה בו היא נותנת תוצאה שלילית לאדם בריא .באותה מידה ,הבדיקה יכולה לטעות בשני מקרים :לתת תוצאה חיובית לאדם בריא )טעות מסוג (1או לתת תוצאה שלילית לנשא )טעות מסוג .(2 כל בדיקה ,חישובית או ניסויית ,שצריכה לתת תשובה בינארית – כן או לא ,הצלחה או כשלון – ניתן לבנות בצורה סקפטית מאוד ,שבה רק אם הממצאים מראים בוודאות שהאדם הוא נשא ,היא תגיד שהוא אכן נשא; מצד שני אפשר לעשות בדיקה מתירנית – שאחוז גדול יחסית מהמקרים היא מגדירה כנשא .בכל אחד מהמקרים הקיצוניים )תמיד תיתן תשובה שלילית או תמיד תיתן תשובה חיובית( מנוטרלת אחת מהשגיאות האפשריות. נניח שמבצעים בדיקת BLASTומעלים את ערך ה – E-Value-כתוצאה מכך גנים הומולוגים ייתפסו ביתר קלות אולם במקביל גם התוצאות ה False Positive-יעלו .הורדה של ה E-Value-תוריד את הסיכוי לטעות מסוג ,2אבל גם את הסיכוי למצוא באופן אמין את ה.True Negative- חמוטל בן דב החוג לביולוגיה ,אוניברסיטת תל אביב2011 , שיעור :09בניית עצים 55 אבולוציה אדאפטיבית )דארוויניסטית( יש למצוא איזורים בגנום שעברו אבולוציה דרוויניסטית – בין אם אבולוציה חיובית או שלילית .ידועים מקרים של שינוי במאגר הגנים עקב לחץ סלקטיבי לשינוי – דוגמת המלאניזם התעשייתי של העש בבריטניה ,כאשר העשן דחף ליצירה של השינוי באוכלוסיה. אבולוציה מטהרת )שמורה( דבר שכיח במקטעים פונקציונאלים בגנום הוא ,purifying selectionאשר בה היה לחץ סלקטיבי חזק מאוד למניעת שינויים .דוגמה לכך היא משקל ילודים בלידה. איזורים אלו נשמרים על ידי האבולוציה על מנת שלא יישתנו – וכל שינוי באיזורים אלו במרבית המקרים יזיק ל fitness-ולא יעלה אותו. תיאוריית האבולוציה הנייטרלית כ 90%-הגנום ,ככל הנראה ,אינו גנום פונקציונאלי .משמעות הדבר היא שאיזורים אלו אינם משפיעים ישירות על ה fitness-של האורגניזם .כתוצאה יש באיזורים אלו וריאביליות ופולימורפיזם ,והסיכוי לקיבוע של אלל מסויים באוכלוסיה נתון על ידי סיכוי לתופעות ה .random drift-היום ידוע שבאופן גורף ,תיאוריה זו נכונה – מרבית הגנום עובר אבולוציה תחת משטר אבולוציה נייטרלית ,מאירועים אקראים וללא שינוי ה.fitness- איתור נאיבי הגישה לאיתור אתרי סלקציה על סמך איזורים שמורים בלבד היא גישה נאיבית ,בעיקר בהתחשב בכך שרוב האיזורים עוברים שינויים באקראי; אומנם ניתן לזהות איזורים של אבולוציה מטהרת כאיזורים שמורים מאוד ,אולם אם איזור לא שמור אין זה אומר שהייתה שם אבולוציה אדאפטיבית ,כי זה לא מספיק; במצב זה הנחת האפס תהיה דווקא שהאיזור אינו פונקציונאלי והאבולוציה היא נייטרלית. אם כן ,איך מוצאים איזורים שהשתנו לא בשל חוסר חשיבות אלא ההיפך? לשם כך יש לחפש איזורים שעברו שינויים תוך שימוש בתכונת ה Redundancy-של הקודונים .תופעה זו מאפשרת להפריד בין שני סוגי התמרות ברמת הקודונים: • – Synnonymousשינוי בקודון שומר על אותה חומצת אמינו ,אין שינוי בחלבון. החוג לביולוגיה ,אוניברסיטת תל אביב2011 , חמוטל בן דב ביואינפורמטיקה -שיעור 56 • – Non-Synonymousהשינוי בקודון משנה את חומצת האמינו ולכן את החלבון. קצב השינויים הסינונימים ,היות ואינם גורמים לשינוי ,יהיו הקצב הבסיסי של החלופה באותו איזור גנומי )ביקורת( .כעת ניתן להשוות את השינויים הלא-סינונימים האחרים :אם הקצבים שווים ,הרי שזוהי אבולוציה נייטרלית; אם השינויים הסינונימיים רבים מהשינויים הלא-סינונימיים זהו מצב אבולוציה מטהרת )נוגדת שינויים( ,ואם השינויים הסינונימים נדירים יותר מהשינויים הלא-סינונימים זה אירוע שעשוי להיות אדאפטיבי ונגרם בשכיחות גבוהה עקב לחצים סלקטיביים חיצוניים. במקטעים שאינם מקודדים לחלבונים עדיין מנסים למצוא רקע מסויים – כמו שנעשה בעזרת הסינונימים – והיום התחום מתקדם אך נתון למחלוקת.פתרון אחד הוא מציאת איזורים מקודדים באותו איזור בגנום ואז ביצוע הערכה בצורה יחסית של מידת השינויים הצפויה גם לאיזור הסמוך שאינו מקודד. שימו לב :באלגוריתמים מתקדמים ,הסינונימים אינם לוקחים בחשבון רק החלפה ברמת הקודון אלא גם חומצות אמינו דומות או שונות )גם אם הוחלפו חומצות האמינו ,אין זה אומר שהשינוי ישפיע על המבנה והפונקציונאליות של החלבון( ותפקידן בחלבון )אתר פעיל או לא ,למשל(. דוגמאות בדוגמה הבאה מציגה את מירוץ החימוש שבין וירוס ה HIV-לבין גוף המאחסן .הנגיף עובר אבולוציה מהירה מאוד ,כאשר הסלקציה האדאפטיבית של הנגיף מוגברת על ידי קוקטייל התרופות שמקבל הנשא. אחד מהחלבונים החשובים לאנזים הוא פרוטאזה שמבקעת את החלבונים שלו .הקוקטייל שמקבל הנשא מכיל תרופה נגד הפרוטאזה ,וכעת נוצר לחץ סלקטיבי לשינוי על גן הפרוטאזה .בצורה כזו ניתן להשוות בין עמדות שונות ולראות אילו איזורים עברו ברירה חיובית כתוצאה מהטיפול התרופתי ואילו עברו ברירה מטהרת. יש דרכים שונות לזהות לחצים לסלקציה חיובית: • חלבונים המערבים את המערכת החיסונית – קשורים במרוץ החימוש בין הוירוס למערכת החיסונית והתרופות שאנו נותנים למטופל. • חלבונים הקשורים לאינטראקציות בין הפתוגן והמארח. • חלבונים הקשורים בדופליקציות גנטיות. • חלבונים המעורבים במערכות הרבייה או השכפול של האורגניזמים. חמוטל בן דב החוג לביולוגיה ,אוניברסיטת תל אביב2011 , שיעור :09בניית עצים 57 אחד הגנים שעוברים שינויים בסלקציה חיובית הוא הגן שקשור לפיתוח השפה .הוא התגלה עקב משפחה בה למספר פרטים במשפחה הייתה יכולת דיבור פגועה ,וכשריצפו אותם מצאו את הגן המעורב בבעיה – .FOXp2לאחר מניפולציות סטטיסטיות התגלה שהיחס לשינויים סינונימיים ולא-סינונימיים מראה יותר שינויים לא-סינונימיים ברמה מובהקת .נראה שעיקר המוטציות הופיעו בקו שהוביל לבני אדם. בהמשך עשו מחקר על הגן בעכברים ,ובדקו את היכולת הווקלית – בעכברים עם נוק-אאוט לגן יש יכולת ווקאלית מוחלשת; ציפורים עם פגיעה בגן לא יכולות ללמוד שירים נוספים .משמעות הדבר היא שהגן התחיל כרלוונטי ליכולת הווקאלית ובהמשך עבר לחץ להשתנות על מנת לפתח את השפה. יש לציין כי הגן הזה הוא פקטור שיעתוק – כלומר הוא מבצע את הפונקציה שלו דרך גנים נוספים רבים אחרים .כמו כן יש לזכור שמצאו קשר כלשהו לשפה גם בבעלי חיים אחרים שאצלם הגן נמצא בהקשר ווקאליות ,אולם יש לקחת בחשבון שבאותה תקופה המחקר התעסק רבות באותו הגן ספציפית ובבעיות ווקאליות; ייתכן שיש גנים אחרים ,יותר משמעותיים ,הקשורים בכך ,אבל לא הצטברו עדויות בנוגע אליהם כי ה"אלומה" לא הופנתה אליהם. לסיכום בעיסוק בפיצוצים קומבינטוריים ,לא ניתן לסרוק את כולם; לא ניתן להשתמש בגישת ה MP-כדי להעריך את כל העצים האפשריים .ככל שיש יותר אפשרויות יש יותר קומבינציות ,עד אינסוף. נניח שמחשבים את העצים עבור 85מינים .לשם כך מייצרים – grid computationהתקנת תוכנה על מחשבים ביתיים ,אשר כאשר המחשב אינו פעיל )במצב (Idleהוא יבצע חישובים עבור המערכת .גם אם תזומן היכולת החישובית של כל אחד מהמחשבים בעולם ,ואפילו תוכפל באלף ונניח שהעץ נבנה על ידי פעולה אחת בלבד )בעזרת ,(MPדבר שאינו נכון; עדיין כמות העצים שניתן להפיק הם ,10150*3.94 כלומר יידרשו 10120שנים לבצע את החישוב הזה. למרות חוק מור ,הקובע שקצב החישוב הולך ועולה כל הזמן ,תמיד יימצאו בעיות קומבינטוריות שלא ניתן לפתור .הפתרון עודנו רחוק אולם זו לא ממש בעיה – אפשר להשתמש במדגמים ויוריסטיקה, המאפשרים למצוא בזמן סביר פתרון מקורב .אומנם לא מרחב העצים העצום הקיים לא נסקר במלואו, אולם הפתרון קרוב לפתרון הודאי האופטימלי – בהתאם לדרישות. החוג לביולוגיה ,אוניברסיטת תל אביב2011 , חמוטל בן דב ביואינפורמטיקה -שיעור 58 שיעור :10מיקרואראי ונתוני ביטוי גנים המניע למחקר צ'יפים של microarrayיכולים להיות יחסיים ולא יחסיים ומודדים אלפי מקטעי גנים במקביל .הכלי הזה מאפשר מדידה של ביטוי כל הגנים בבת אחת ,המפיק למשל פרופיל ביטוי של סוג מסויים של רקמה – אפשר להרץ את כל ה mRNA-מהרקמה ולראות את הביטוי .אפשר גם לבדוק תזמון ספציפי – למשל ביטוי ברקמה מסויימת באם ובעובר במקביל .בדיקה נוספת היא של הגנים המתבטאים ברקמה סרטנית – ברקמה סרטנית הרקמה היא הטרוגנית ויש לנסות לפרק את הסיגנל לסוגי התאים השונים הקיימים. ישנן גם שאלות הרלוונטיות לביטוי השוואתי :אם עושים knockoutלפקטור שיעתוק ,ניתן להשוות בין הזן המבטא והזן הלא מבטא על מנת למצוא את הגנים המבוטאים או מבוקרים על ידי הפקטור .כך נראה את ההשפעה של הביטוי downstreamבהתאם לזמן בו נבלם ביטוי הפקטור – בין חצי שעה ליומיים אחרי ההשתקה כמות הגנים שיישתנו לרוב תהיה שונה. אפשר גם לבדוק אילו גנים מתבטאים בזמן ערות מול שינה ,או במוח של חולי סכיזורניה – כל אלו הן שאלות שניתן לענות עליהן בעזרת נתוני ביטוי גנים. האנאליזה נניח שנערך סט ניסויים .ניתן להשתמש במערך המיקרו-אראי כמטריצה )לאחר עיבוד הנתונים של השבב על ידי image analysisוקבלת תוצאות מספריות במקום הנקודות( .מערך הנתונים יכיל סוגים שונים של חזרות: • חזרה טכנית – דגימה ביולוגית דוגמים על שני צ'יפים שונים ,בין אם באותו יום ,ימים אחרים, מעבדות שונות .חזרות אלו חשובות כיוון שהן עוזרות להתמודד עם הארטיפקטים בניסויים אלו – יותר דגימות באיזורים מסויימים בשבב יפיקו את מידת הסטייה; יש גלאים מסויימים שיעילים יותר מאחרים; אוזון משפיע על פירוק הצובענים; יש הרבה הטיות שקשורות למקום ולזמן הניסוי. • חזרה ביולוגית – לוקחים דגימות מגידול מסוג מסויים אבל מכמה חולים שונים. פרופיל הביטוי בטבלה הבאה מופיעות ארבע דגימות WTוארבע דגימות מגידול מוחי ,ומשמונה הדגימות בדקו שלושה גנים .בשניים מהגנים מופיעה עלייה בתאי הגידול לעומת ,WTבעוד שבגן 2אין ביטוי כזה .גנים עם פרופיל ביטוי דומה עשויים להיות קשורים לתכונות של התא השונה לעומת – WTאם לשני גנים יש אותו פרופיל ביטוי אולי יש להם מנגנוני בקרה דומים ,או שהפונקציה שלהם קשורה לאותו תהליך )כמו אפופטוזס, למשל(. מצביע על קו- פונקציונאליות או קו-בקרה בקבוצת הגנים. חמוטל בן דב החוג לביולוגיה ,אוניברסיטת תל אביב2011 , שיעור :10מיקרואראי ונתוני ביטוי גנים 59 דוגמה פשוטה לפרופיל ביטוי הוא פרופיל בין שני סוגי רקמות – למשל רקמות נורמליות ורקמות גידול .קוד הצבעים בתמונה הוא אותו קוד שיש בשבב ,אבל במטריצה הזו כל עמודה היא צ'יפ שלם – כאשר בחלק העליון יש גנים שהם בביטוי יתר )אדום( בגידול לעומת הWT- ובחלק התחתון הגנים הם בתת-ביטוי )ירוק( לעומת .WTחשוב תמיד לדעת מהי נקודת היחוס. קיבוץ של גנים בעלי פרופיל דומה יכול להצביע על קבוצות גנים קו-מבוקרות או קו-פונקציונליות. אפשר גם להשוות פרופיל ביטוי בין רקמות .ניתן לראות שלגידול bt1 & bt3יש פרופיל ביטוי דומה בעוד לשרקמות bt2 & bt4יש פרופיל ביטוי שונה )אך דומה ביניהן( .אם יש דרך לקבץ את הוקטורים האלה, ניתן לגלות סוגים שונים של גידולים המאופיינים בפרופילי ביטוי שונים. שיטה זו מאפשרת לבצע Class Discovery ולגלות מהו סוג הגידול שהאונקולוג עומד מולו, דבר בעל חשיבות קלינית ופתולוגית; שיטה זו מאפשרת לבצע זיהוי מאוד מדוייק של הגידול לפי חתימתו המולקולארית .ניתן לבצע גם Class – Predictionניבוי של דגימת גידול שאינה מתוייגת בעבר .גם זה חשוב מאוד בשביל מציאת הטיפול הנכון בגידול .דבר זה נעשה על ידי שיטות סיווג. לפעמים החתימה המאפיינת דגימות שונות לא מתקיימת בכל הגנים – שהרי מבין כל הגנים ברקמה לא כולם משחקים תפקיד בהפיכת הרקמה לסרטנית .כל הגנים שאינם שייכים למערך מכניסים "רעש" לנתונים .מסיבה זו יש להשתמש רק בגנים שיש ביניהם תבנית אמיתית .בדוגמה נראה שלגנים 1ו 2-יש פרופיל ביטוי דומה – נמוכים ברקמות המסומנות באדום וגבוהים בירוק ,ביחסים דומים .אולם גן 3אינו מקיים תבנית זו – למרות שניתן לומר שבקבוצה אחת הוא גבוה ובשניה הוא נמוך ,אין יחסים מספיק קבועים כדי להכניס אותו ולכן הוא יוגדר כרעש רקע. דוגמה אחת של בי-קלאסטרים או מציאת חתימה כזו נכנסה כבר למוצר מסחרי לזיהוי סרטני :השוואת דגימת חתימה של 70גנים שבגידולי סרטן העשויים לפתח גרורות מתבטאים ביתר לעומת גידולים שלא יפתחו גרורות .מכאן שהחתימה של 70גנים אלו היא מאבחן טוב לסיכוי לגרורות מהסרטן הזה. החוג לביולוגיה ,אוניברסיטת תל אביב2011 , חמוטל בן דב ביואינפורמטיקה -שיעור 60 שימו לב :באראי בתמונה השורות הן חולות שונות והעמודות הן הגנים; הטור השחור לבן מציין האם יש סיכוי לגרורות )לבן( או אין סיכוי לגרורות )שחור( .הימצאות צבע שחור בחלק התחתון או לבן בחלק העליון היא טעות של המדידה – false positiveלמעלה ו false negative-למטה. יישומים • שינוי מקור הגלוקוז של E.coliעל מנת לבדוק את הגנים המעורבים בנצול מקורות פחמן שונים. • מדידת פרופילי ביטוי שונים של שמרים בתנאים שונים. היישומים האלו תורמים למאמץ הגדול לפיענוח מעגל הבקרה בתא – לפענח מה עושה כל פקטור שיעתוק ,מה הדינמיקה של מעגלי הבקרה וכדומה .אחת השאיפות היא שבעזרת סט של נתוני מיקרו-אראי ניתן יהיה ללמוד את מבנה רשתות הבקרה. שימוש נוסף במיקרו-אראי הוא לא רק לביטוי אלא גם לזיהוי מקטעי ,DNAכך שניתן למשל לזהות את סט ה DNA-אליו נדבק חלבון מסויים ,למשל פקטור שיעתוק כלשהו .טכניקה זו מכונה Chromatin )(ChIP .immune-precipitation בטכניקה הזו שוברים DNAלמקטעים לאחר שנתנו לחלבון להיקשר אליו ואז מסמנים את החלבון בעזרת נוגדן; שוטפים ומקבלים רק את החלבון עם הנוגדן הקשור ואחרי שמשחררים את ה- DNAמהחלבון מקבלים את כל איזורי הפרומוטורים של החלבון על גבי השבב ).(ChIP-on-chip שימוש אחר שנעשה בשמר היה לקחת את כל פקטורי השיעתוק ולבצע לכולם .ChIP on Chipבצורה זו קיבלו את כל מסלולי הבקרה של שמר ואז המשיכו וניתחו את האינטראקציה בין המסלולים .בהמשך שילבו את הנתונים עם נתוני שימור ברמת הרצף של איזורים שונים של הפרומוטור ,מתוך הנחה שאיזורים החשובים לקישור יהיו שמורים יותר במינים קרובים של שמר 11 וכן איפשרו לבדוק האם החלבון באמת משפיע על הביטוי ,האם הוא גורם להגברה או עיכוב וכדומה .בצורה זו מצאו את "קוד הפרומוטורים" מבחינת אתרי הקישור .הפרומוטורים חולקו לסוגים שונים ,למשל בעלי אתר יחיד ,זוגות או שלשות של אתרים סמוכים ,תערובת של סוגי אתרים באותו פרוטומוטור ,רגולטורים מקבילים וכדומה. היום יש בביולוגיה חישובית וביואינפורטיקה הבשלה של הטכנולוגיות והן מוחלפות על ידי טכנולוגיות אחרות; יש אינטגרציה של מקורות מידע שונים ,ולכן חשוב לדעת את מקורות המידע הקיימים ואופני השילובים ביניהם. 11מאפשר לדעת לא רק מהו הפרומוטור אלא גם את הרצף של הקישור. חמוטל בן דב החוג לביולוגיה ,אוניברסיטת תל אביב2011 , שיעור :10מיקרואראי ונתוני ביטוי גנים 61 Tiling arrays tkuמערכים שהגלאים שלהם מרצפים מקטעים שונים על הגנום ,לפעמים עם חפיפה .זהו סוג של מיקרואראי המשמש לקבלת מידע צפוף ואמין לגבי מקטע DNAמסויים – למשל בשביל לרצף פרומוטור שלם )הפרומוטור באורך 600נוקליאוטידים והשבב מכיל 20-30נוקליאוטידים בכל נקודה(. בשנים האחרונות יש יותר ויותר מעבר ל – next generation sequencing-מכונות ריצוף שפועלות הרבה יותר מהר .בעזרת הכלים העוצמתיים האלה אפשר להחליף את רוב הפונקציות של מיקרואראי. הגישה הזו היא לא מוטית ,לא מנחשים מראש את הפרובים כמו במיקרואראי והיא הרבה יותר מדוייקת. בצורה זו RNA-seqו ChIP-seq-מחליפים את הצ'יפים של ChIP-On chipו.mRNA- החוג לביולוגיה ,אוניברסיטת תל אביב2011 , חמוטל בן דב ביואינפורמטיקה -שיעור 62 שיעור :10למידה של מכונות – Machine Learning למידת מכונות היא תחום במדעי המחשב המאגד את השאלות והאלגוריתמים המקבילים למה שמוגדר כלמידה .ניתן לחלק את התחום הזה לשלושה חלקים: • למידה מפוקחת ) – (Supervised learningהנתונים שעליהם מתאמנים מתוייגים באופן כלשהו )נכון/לא נכון ,זכר/נקבה ,בריא/חולה וכדומה( .האלגוריתם משתמש בתיוגים האלה ומנסה לחזות תיוגים של דוגמאות לא מתוייגות. • למידה לא מפוקחת ) – (Unsupervised learningסוג זה של למידה מקבל נתונים לא מסומנים ומנסה למצוא בתוכו מבנה ,בצורה לא מבוקרת ,ללא "מורה" חיצוני המכווין לתשובה הנכונה. בשיטה זו לא זמינות דוגמאות מתוייגות .קלאסטרינג הוא סוג אחד של למידה זו. • למידת חיזוק ) – (Reinforcement learningלמידה שבה התיוג והחיזוקים לתיוג לא חייבים להיות במונחים קטגוריים אלא בצורת חיזוקים חיוביים על כל פעולה או ניחוש שאתה עושה .דוגמה לכך היא תוכנת ה 20-שאלות ,או המחשב שמאזן מקל על מנוע המדפסת. מהו קלאסטרינג? הקלט של קלאסטרינג הוא סט של דוגמאות ,ועל מנת לעשות קלאסטרינג יש להגדיר מרחק בין הדוגמאות או את מיקומן במרחב כלשהו .הפלט הוא קבוצה של מקבצים .הבעיה בתחום זה היא בהגדרה של הקלאסטרינג :לרוב לא מצליחים להגדיר היטב מהי התוצאה המבוקשת ,מהי הפונקציה שמנסים למזער או למקסם בשאלת הקלאסטרינג. הקלאסטרינג הוא סוג של למידה לא-מבוקרת ,למרות שיש וריאנטים שמכניסים סט של תיוג נתונים ) (data labelingשמאפשר בקרה מסויימת .כמו כן בשיטה עולה שאלת משמעות הדמיון – מהו דמיון בין דוגמאות ,האם יש ייצוג בקלאסטר ,איך מגדירים משהו כזה וכדומה. האלגוריתם UPGMAשל בניית עץ הוא למעשה קלאסטרינג. חמוטל בן דב החוג לביולוגיה ,אוניברסיטת תל אביב2011 , שיעור :10למידה של מכונות– Machine Learning 63 קלאסטרינג של נתוני ביטוי הגדרות אפשריות לפרופילים של קלאסטרינג: • בקלאסטרינג של דגימות ,לכל דגימה ניתן להגדיר פרופיל ביטוי של כל הגנים בדגימה. עמודה שמתארת צ'יפ אנושי עם 20,000גנים יכולה להיות מתוארת כנקודה יחידה במרחב בעל 20,000מימדים. • בעיה אחרת היא קיבוץ גנים כדי למצוא גנים קו-פונקציונאלים או קו-רוגלטורים .במקרה כזה יש לקבץ גנים לא לפי דגימות כי אם לפי גנים: אם יש ארבעה צ'יפים כל גן הוא נקודה במרחב ארבעה-מימדי. • נניח הצגה של קיבוץ גנים בשני מימדים כדי למצוא גנים בעלי פרופיל ביטוי דומה .כל נקודה במרחב היא גן המסומן על ידי שתי קואורדינטות הניתנות לפי עוצמת הביטוי של הגן בתנאי 1 ובתנאי .2תוצאה של קלאסטרינג יכולה להיראות כמו באיור ,כאשר הגנים בכל קבוצה עשויים להיות מבוקרים יחד. מרחק בין שני פרופילי ביטוי בסוגי קלאסטרים מסויימים יש להגדיר מידת מרחק או דמיון .מידת המרחק המקובלת היא המרחק האאוקלידי ,שעובדת בכל כמות של מרחבים )נוסחה באיור( ,ומחושבת על פי הקואורדינטות של כל נקודה.המרחק הזה יכול להיות דמיון או מרחק פיזי במרחב הרב-מימדי. תחילה יש לחשב את המרחקים בין כל זוגות הגנים. החישוב מפיק מטריצת מרחקים .12בבניית עץ מהמטריצה יש לזכור כי הנקודות הן עלים ולכן מאחדים את שני העלים הקרובים ביותר ויוצרים גן קדום – .g56 12כעת מתחילים להבין מה הקשר לבניית עצים לפי .UPGMA החוג לביולוגיה ,אוניברסיטת תל אביב2011 , חמוטל בן דב ביואינפורמטיקה -שיעור 64 מה המרחק של הגן הזה מהגנים האחרים? אחת הגישות היא שהמרחק שלו מכל גן היא ממוצע המרחקים של הגנים שהרכיבו אותו מהגן החדש שאנחנו מכניסים למשוואה – המרחק של g56מ g1-הוא ממוצע המרחקים של g6ו g5-מ .g1-בצורה כזו ממשיכים ומחברים תמיד את ה Nodes-בעלי המרחק הקצר ביותר עד שמחברים "אבות קדומים" ולבסוף מצטצמצמים לשורשו של העץ. זוהי שיטת ה Neighbor joining-תוך שימוש במרחק אאוקלידי .התוצאה היא עץ. אך מדוע העץ הזה הוא קלאסטרינג? קלאסטרינג הוא לא בעיה מוגדרת – אפשר לחלק תוצאות ל2- קלאסטרים וגם ל 30-קלאסטרים .ככל שיהיו יותר קלאסטרים ניתן לצפות שכל קלאסטר יהיה קטן יותר והדוק יותר ,המרחקים קטנים יותר ומידת הדמיון בין הגנים גבוהה יותר )כאשר הקיצוניות הגבוהה ביותר היא הגדרה כל גן כקלאסטר – ואז מידת הדמיון היא ,100%המרחק הוא אפסי וכמות החברים בקלאסטר היא .(1 כיצד ניתן לחלק את העץ? • שני קלאסטרים – בין שני ענפים ,קבוצה של g8וקבוצה של כל 7הגנים האחרים. • שלושה קלאסטרים – יורדים עוד רמה בעץ, עושים חתך העובר דרך שלושה ענפים, מקבלים קלאסטר של ,g8שני של g7ועוד אחת של ששת הגנים הנותרים. ככל שיורדים ברמות העץ וחותכים יותר ענפים ,מקבלים יותר קלאסטרים .אפשר גם להגדיר חלוקות של חתך שאינו בגובה שווה אלא מבוססות על קריטריונים אחרים. קלאסטר היררכי -סיכום נתונה טבלת ביטוי עם נתונים; מחשבים מתוכה מטריצת מרחקים או מטריצת דמיון ,באותו האלגוריתם; מתוכה בונים מבנה עץ היררכי בזיווג שכנים .ניתן להפעיל זאת על הגנים ועל הדגימות ,ואפילו בו זמנית לשניהם – האחד לא מפריע לשני .זה משפיע על מידת המרחק אבל הרי מרחק אאוקלידי לא מושפע מהסדר – הגדרת המרחק בין שתי דגימות אינו תלוי בסדר בו בנויים הגנים ,וההיפך. חמוטל בן דב החוג לביולוגיה ,אוניברסיטת תל אביב2011 , שיעור :11למידת מכונות ,קלאסטרים ,קלאסיפיקציה 65 שיעור :11למידת מכונות ,קלאסטרים ,קלאסיפיקציה קלאסטרים לפי ממוצעK- במקרה זה הנתונים ממלאים שני תנאים ולכן כל גן מצויין לפי שתי קואורדינטות; בוחרים שתי נקודות רנדומליות ומכיילים את המיקום שלהן לפי הקלאסטרים של קבוצות הגנים הקרובות אליהן ביותר .כל פעם שעושים כיול מזיזים את שתי הנקודות בצורה סימטרית. כאשר אין יותר שינוי בשיוכים ולכן אין יותר שנוי בסנטרואידים )נקודות המרכז( ניתן לקבוע שהמיקום הוא המיטבי והנכון .יש תכונות שונות לאלגוריתם :K-means • הקלאסטרינג מתחיל בצורה רנדומלית ,והאלגוריתם לא מתכנס בהכרח לאותו פתרון סופי .ככל שמספר הקלאסטרים וכמות הנתונים עולים ניתן להגיע ליותר ויותר אפשרויות. • על מנת למנוע מצבים פתולוגיים של קלאסטרינג לא הגיוני ,ניתן לעשות מספר התחלות רנדומליות ולסווג אותן לפי שכיחות ולפי מרחקים ממוצעים. • למרות שהאלגוריתם בכל צד משפר את הניקוד שלו ,יש לוודא שהפתרון הוא לא מינימום לוקאלי – מספר התחלות מאפשר לוודא שהמינימום הנמצא הוא גלובאלי ולא לוקאלי. קלאסטרינג היררכי אינו ממקסם מידה גלובאלית לגבי הקלאסטרינג ,אבל הוא דטרמיניסטי – התקדמותו מוגדרת באופן מוחלט ומדוייק ולכן אין טעם להריץ שוב את הקלאסטרינג על אותם נתונים .היתרון: מקבלים מבנה ולא רק את הקלאסטר – מבנה פנימי המעיד על מידת הדמיון במבנה שבין נקודות שונות השייכות לאותו קלאסטר. לא נרחיב הרבה על סוגי קלאסטרינג אחרים אבל יש לציין כי הקלאסטרים מתייחסים לבעיה כללית ,שאינה מוגדרת היטב ,כי קלאסטרים שונים מנסים למקסם נקודות שונות .ניתן לעסוק לא רק במיקסום של אדיקות בין נקודות אלא גם הומוגניות ביניהן ,דמיון או מרחק בין מרכז קלאסטרים שונים .כמו כן יש אלגוריתמים "רכים" – בהם ההשמה היא רכה ,הנקודה אינה משוייכת באופן אבסולוטי אלא באחוזים מסויימים ניתנת השייכות של הנקודה לסנטרואידים שונים. קלאסיפיקציה קלאסיפיקציה היא סיווג המשמש בקלאסטרים בדברים שונים: • סיווג דוגמאות סרטן שונות • סיווג גנים לקבוצות קלאסטרים שונות בקלאסיפיקציה יש כבר את הסיווג ,סט הדוגמאות הראשוני כבר מסווגות – שלילי וחיובי ,סרטני ובריא, וכו' .לעיתים זו מכונה קלאסיפיקציה בינארית ,לעיתים מתעסקים ביותר משתי קבוצות .לתוך מערך זה מתקבלת דוגמית נטולת תווית שיש לגלות לאן היא משוייכת. החוג לביולוגיה ,אוניברסיטת תל אביב2011 , חמוטל בן דב 66 ביואינפורמטיקה -שיעור כעת צריך classifierאשר יוכל לתייג את הדוגמאות החדשות במאגר .במרחב דוגמאות גנים דו-מימדי ,כל מיקרואראי מוצג כנקודה לפי רמת הביטוי של הגן הראשון ורמת הביטוי של הגן השני. כמו כן הדגימות מתוייגות כבר – אדום ,לבן וכחול. חולה חדש שנבדק בו הביטוי גנטי יש לסווג לכאן או לכאן. גישה אחת לקלאסיפיקציה היא לצייר קו מפריד בין הדוגמאות :נתונות שלוש נקודות )מרובעים כחולים( לסיווג .הנתונים הקיימים מאפשרים להעביר קו מפריד ביתר קלות .ריבוי נתונים משפר את התוצאות ,ברוב המקרים; זאת למרות שלפעמים ריבוי נתונים עשוי לבלבל. יכולות להיות אפילו ,outlayersנקדות שתוייגו במקום שאינו אופייני או שתוייגו באופן שגוי. לפעמים זה גם נראה כמו בתמונה הבאה: כמו כן יש לזכור כי בביטוי גנים מתקבלים מאות ואלפי גנים מעשרות או מאות נבדקים ,כלומר מאות דגימות – מכאן שיש יותר ויותר נקודות ,סטיות ובלבול. חמוטל בן דב החוג לביולוגיה ,אוניברסיטת תל אביב2011 , שיעור :11למידת מכונות ,קלאסטרים ,קלאסיפיקציה 67 השיטות לקלאסיפיקציה עצי החלטה במצב הזה ,המוגדר לכאורה כחסר תקווה ,נראה שניתן דווקא ליישם שיטה זו :ניתן לשאול שאלה אחת לגבי הגן על ציר – Yמעל או מתחת לקו ) 36שהאלגוריתם מצא כיעילה למתן תוצאה מיטבית( .אם הערך קטן מ ,36-עוברים הלאה לסף הבא .האלגוריתם המוצא את הסף הקטן ביותר התקבל על ידי מציאת הסף בעל נתוני האימון הקרובים ביותר .לאחר מכן קובעים הגבלה מסויימת על ציר ,Xותוחמים את המקומות בהן נמצאים גנים אדומים מול גנים ירוקים. עץ החלטה יכול להיות כלי נחמד אולם לא יעיל במיוחד שכן ברביע האחרון הוא מסוגל להרבה טעויות. אפילו בשני מימדים ,עץ החלטה מסוגל להתמודד עם החלטות יותר מורכבות מאשר מסווג לינארי .חלוקת המרחב שלו יותר מורכבת מהעברת קו או מישור פשוט .יחד עם זאת הוא שואל שאלות על המאפיינים בנפרד ולכן לא מתייחס לקשרים ביניהם. הרשימה הבאה מציגה רשימת מאפייני מטופלים שנכנסו למרפאה והאם הם נותחו בהצלחה; כך ניתן יהיה לדעת הא לנתח חולה חדש בהתאם לנתונים שלו. החוג לביולוגיה ,אוניברסיטת תל אביב2011 , חמוטל בן דב ביואינפורמטיקה -שיעור 68 שימו לב שבצמתים יש החלטה בינארית – כן/לא ,נמוך/גבוה וכדומה .בדוגמה הזו נעשתה גם – feature selection שימוש רק בשני המאפיינים האינפורמטיביים ביותר .זו יכולה להיות הפרדה בין שני שלבים או חלק אינטגרלי מלמידת המסווג .מצב זה אומר שלא בכל מסווג יופיעו בהכרח כל המאפיינים. ) SVMכלי תמיכה וקטוראלי( ישנם כל מיני סוגים של .SVMשיטה זו מחליטה על קו מפריד בין שתי דוגמאות .ה SVM-המתוחכמים יכולים ללמוד גם מישורי הפרדה שאינם לינארים .בנקודות מסויימות שיש לדעת מה יהיה הסיווג שלהן ייקבע הסיווג בהתאם לצד בו הן נמצאות ביחס לקו. ה SVM-מסווג בהתאם לקו המסווג כמה שיותר דוגמאות עם תיוג נכון .אם יש דוגמאות מעבר לקו הוא מתחשב בהן ומנסה למזער אותן ,וכן למקסם את המרחק של הנקודות הקרובות ביותר אל המישור המפריד ממנו )כלומר בין הנקודות למישור יהיה המרחק המקסימלי( .ה SVM-יוצר שני וקטורים מקבילים למישור החלוקה המשמשים מעין "פיגומים" שמרחיקים את נקודות המדגם ממישור החלוקה. הגדולה של SVMהיא בכך שהוא מאפשר מיפוי שאינו לינארי, דוגמאות שאין ביניהן מרחב לינארי דו-מימדי ממופות למרחב תלת מימדי ,המאפשר להגדיר מישור שיחתוך בין הדוגמאות בצורה שתבצע הפרדה יעילה. SVMיכול לעשות הפרדה לינארית וגם הפרדה לא לינארית על ידי מיפוי למימד יותר גבוה ,כל זאת במרחב רב-מימדי לא מוגבל. הביטחון של הסיווג יכול להיות מדורג גם הוא ,כאשר מה שקובע את הדירוג הוא המרחק ממישור החלוקה – ככל שהנקודה רחוקה יותר כך הביטחון בסיווג שלה גובר. חמוטל בן דב החוג לביולוגיה ,אוניברסיטת תל אביב2011 , שיעור :11למידת מכונות ,קלאסטרים ,קלאסיפיקציה 69 KNN = K nearest neighbors משתמש באותה מטריצה של :K-Meansמסתכל על השכנים הקרובים ביותר ולפיהם קובע מה הפרמטר החדש )"אמור לי חבריך ואומר לך מי אתה"( .למשל בדוגמה ,הנקודה הלבנה עם סימן השאלה קרוב לשתי נקודות אדומות ורק אחת לבנה ולכן היא תסווג כנקודה אדומה. התוכנה אינה יוצרת מבנה מסווג ולכן אינה מספקת נתונים על מבנה מאגר הנתונים ,מבנה הבעיה. האלגוריתם מסתכל תמיד בסביבה לוקאלית ואינו מסתכל על התמונה הגדולה .הוא יעיל לטיפול בדוגמאות מורכבות שאין להן קווי הפרדה פשוטים. טריינינג לעומת טסט דאטה ככל שיש טריינינג דאטה )"נתוני אימון"( יותר גודל ,הסיווג יותר אמין .אבל לא ניתן לדעת כמה הטריינינג טוב אם הוא לא נוסה על דאטה נעלם – זה לא בעיה להגדיר מסווג שיודע לסווג את הטריינינג דאטה ,ואפשר אפילו לעשות מסווג מומחה לטריינינג דאטה מסויים ,אבל כשינתן לו טסט דאטה הוא לא יעבוד היטב .רק בגלל שהציון לטריינינג דאטה יותר טוב לא אומר שסיווג הדאטה החדש ,טסט דאטה ,יהיה אמין יותר. כיצד להעריך את הביצועים? ניתן לקחת את הטריינינג דאטה ולחלק אותו :רובו ישמש בתור טריינינג וחלקו בתור טסט )היות וידוע כבר כיצד הוא מסווג ,ידוע מה המסווג הטוב ביותר צריך לעשות עם הדאטה חדשים שסיווגם ידוע(. בתהליך זה משתמשים בקרוס-ולידציה :בוחרים מקטעים מסויימים של הדאטה בתור טריינינג סט ומקטע קטן יהיה טסט סט .כל פעם משנים את המקטעים שמשמשים לטסט .בסוף ניתן לקבוע איזו שיטת קלאסיפיקציה סיוווגה נכונה כמות האחוזים הגבוהה ביותר מתוך הטסט סט ,ושיטה זו תיבחר בתור הטובה ביותר .אחרי שבוחרים מסווג אפשר להשתמש בכל הדאטה ,ליצור את המסווג המיטבי ביותר עם מלוא הנתונים ,ולהתחיל להשתמש בו לנתונים חדשים שטרם נראו. נניח מחלה נדירה הפוגעת ב 1-מ 100,000-אנשים; נניח שהטריינינג סט היה של 100,000אנשים בהם היה חולה אחד ,והמסווג שלנו תמיד אומר "לא" .טכנית ,למסווג הזה יש 99.9%הצלחה .אבל בפועל זה מסווג גרוע .כאשר מחליטים בין מה למה מסווגים צריך לדאוג לייצוג מאוזן של הדוגמאות. החוג לביולוגיה ,אוניברסיטת תל אביב2011 , חמוטל בן דב ביואינפורמטיקה -שיעור 70 שיעור :12למידת מכונות – המשך ROC Curve עקומת ROCהיא כלי שנמצא בשימוש הולך וגובר בתחומי למידת מכונות ואנאליזה ביורפואית המשמש להשוואה בין ביצועי נתונים שונים .עקומת ROCמשמשת להשוואה בין מסווגים שונים על מנתל בדוק מי מהם עובד יותר טוב .המצב יכול להיות מורכב יותר מהכלים הפשוטים שהודגמו לעיל ואז צריך את הכלי הזה. בדוגמה הקודמת ,בגלל התפלגות פתולוגית של הנתונים ,ניתן היה להשתמש במסווג מאוד טיפשי שיהיה צודק לפי הנתונים – אם המיוחד מופיע 1:100,000והמסווג אומר תמיד "לא" תשובתו תהיה נכונה ב- 99.99%מהפעמים .המונחים הבאים מגדירים יחסים בהקשר תצפיות True-Positive/ True- :Negative • – TPRיחס הנתונים הצודקים החיוביים ,מחלק את הנתונים שהיו TPבסך הנתונים החיוביים ).(P שימו לב שסך הנתונים החיוביים הם גם TPוגם .FNהמדד הוא מספר בין .0.0-1.0 • – FPRיחס הנתונים השגויים החיוביים ,מחלק את הנתונים שהיו FPבסך הנתונים שהיו שליליים ) .(Nשימו לב שסך הנתונים השליליים הם גם FPוגם .TNהמדד הוא מספר בין .0.0-1.0 ניתן להגדיר כל מסווג על ידי שני מספרים אלו. אפשר לשרטט מערכת צירים של שת תכונות אלו ואז לצייר עקומות ROCעבור מסווגים בהם יש פרמטר רציף .הפרמטר הרציף חשוב כי הוא מספק שולי בטחון המקטינים את הסיכוי לשגיאה החמורה יותר .במסווג עם פרמטר רציף אפשר לראות מה יהיו ערכי הפרמטר הרציף ואז לתת סימן לפי הפרמטר הרציף .אם הפרמרטר לא היה רציף ,לא ניתן היה לתייג באופן יעיל. בעקרון ,יש cutoffבין הנתונים – ככל שרוצים לאפשר פחות סיכוי לטעות מסויימת ניתן לשנות את ה cutoff-בהתאם .לפיכך ,בכל נקודה בעלת תיוג כלשהו ניתן היה להעלות את ערך ה cutoff-עד אליה ולקבל עקומה מחיבור כל הנקודות האלו .ככל שהמסווג מקבל תוצאות חיוביות יותר הוא עולה למעלה; תוצאות שליליות גורמות לנטייה הצידה .מכיוון שכך ,מסווג מושלם יעלה עד למעלה לינארית ואז ייפנה ימינה .השטח )אינטגרל( של עקומת ROCכזו יהיה .1ככל שהשטח קרוב יותר ל 1-המסווג יותר טוב .אם המסווג אקראי השטח יהיה שווה ל.0.5- שימו לב שהמדד הזה מתייחס לטעויות מסוג 1וטעויות מסוג .2 חמוטל בן דב החוג לביולוגיה ,אוניברסיטת תל אביב2011 , שיעור :12למידת מכונות – המשך 71 Voting זהו "טריק מלוכלך" :נניח שיש לבחור מבין שלושה מסווגים כלשהם מיהו המסווג היעיל ביותר; לוקחים את שלושת המסווגים ונותנים להם לבדוק נתונים חדשים )” .(“rawדעת הרוב היא הדעה המתקבלת ,והמסווג בעל אחוזי ההצלחה הגדולים ביותר הוא היעיל ביותר. שימושים שלא בביואינפורמטיקה השיטות לבדיקת היעילות של המסווג אינן קיימות רק בביואינפורמטיקה; הן משמשות גם לזיהוי ממוחשב של אותיות בעזרת KNNלמשל ,כאשר סט כתבי היד משמאל הוא טריינינג סט והשרבוט של ה 5-הוא הטסט .על ידי זיהוי ה"שכנים" הדומים ביותר לטסט המשחב מזהה מהי הספרה שנכתבה. השיטה פותחה על ידי האמריקנים לאחר פרל הארבור וסייעהלבדוק מהי המהירות שלהם ,כיצד להבדיל בין מטוסים שלהם למטוסים שאינם אויב וכו'. דוגמה הבעיה העיקרית באבחון עם מיקרואראי היא שמקור הגן איננו ידוע )בתא גידול שהתגלה בגרורה(. כשנותנים תרופות ספציפות לפי מאפיינים גנטיים של הגידול תוחלת החיים עולה ,ולכן המטופלות ייזכו לטיפול טוב יותר אם יכירו את הפריימרים של הגנים הרלוונטים. כאשר מקבלים DNAמביופסיה של חולה ,עושים אימונוהיסטוכימיה כנגד 5- 6מרקרים .דיאגנוזה טובה תצליח לקבוע באיזה סרטן מדובר וקובעים טיפול. אם לא ,משלימים עוד רצף אימונו- היסטוכימיה. אם הדבר שיפר את הדיאגנוזה אפשר להמשיך לטיפול. הבעיה היא שלרוב הליך זה מוסיף רק 25%הצלחה ,מכאן שיש צורך חמור בשיטת קלאסיפיקציה משופרת. החוג לביולוגיה ,אוניברסיטת תל אביב2011 , חמוטל בן דב ביואינפורמטיקה -שיעור 72 המחקר את המחקר הוביל טרי גולוב – העבודה הראשונה לקחה ALLו- ,AMLשני סוגי לוקמיה אקוטיות ממקורות שונים ) 38דגימות סה"כ( ,וביצעה פרופילים במיקרואראי .לאחר הוצאת 50גנים מסווגים ,הריצו טסט סט .בדיקה של המיקרואראי מראה 100% דיוק קלאספיקציה של הטסט – זאת לעומת בעיית זיהוי קלה שמאפשרת זיהוי גם על ידי יותר מהסובסטרבט. בשלב הבא לקחו 14סוגי גידולים שונים .בתהליך זה הגדירו ולמדו SVM 14שונים אחד מול השני – סרטן המעי מול כל האחרים, וכן הלאה .כעת מריצים דגימות חדשות מ 14-ה SVM-שנוצרו ובודקים מה נותן את התשובה הטובה ביותר מכחינת הסרטן והגן. מה הרעיון הביולוגי? תבנית ביטוי הגנים נקבעת על פי סוג הריקמה .סרטנים ממקורות שונים נגזרים מתאים שנבעו מתהליכי התפתחות שונים, ולכן לכל תא סרטני ביטוי גנים מובחן וייחודי הנובע מתהליכי ההתפתחות שלו. מסיבה זו יש לזהות את מאפייני הגידול של מטופל/ת חדש/ה על מנת לדעת מהו הטיפול המתאים לפרופיל הגידול. הכנסת הליך סיווג מולקולארי של הסרטן עשוי להיות החוליה בחסרה בארסנל הכלים לזיהוי הגידול ,ולחסוך תהליכים רבים של אימונוהיסטוכימיה שגם כך אחוזי ההצלחה שלהם נמוכים יחסית. דוגמה שנייה :ליגיונלה ליגיונלה הוא חיידק פתוגני )המחלה קרויה על שם החיידק( שהתגלה לפני כ 30-שנה ,בחגיגות המאתיים לארה"ב :גדוד הליגיונרים ,ותיקי הצבא ההאמריקאי ,ערכו כנס במלון וכותרות העיתונים הזדעקו כי 20 מהם מתו ואחרים חלו .לאחר 26שנים זה התפרץ שוב .אחרי בדיקה נמצא קשר למחלה שתפרצה בלגיונרים וקשר לחיידק. חמוטל בן דב החוג לביולוגיה ,אוניברסיטת תל אביב2011 , שיעור :12למידת מכונות – המשך 73 החיידק מתרבה בגוף אמבות .הוא נמצא במקווי מים עומדים ,וחודר לאדם דרך רסס מים עומדים ,כמו שקיים במזגנים .מאקרופאגים שמנסים לבלוע אותו מכווינים את הפאגוזום לליזוזום ,אולם החיידק מפעיל לוחמת נגד ,עוטף את עצמו בוזיקולה מגנה ,וכך מתרבה בוזיקולה .לאחר כמה מחזורי שיכפול הוא מפתח שוטונים ,מפוצץ את הבועה ואת התא ויוצא החוצה. מיהם האפקטורים של המנגנון? בעזרת למידת מכונה ביצעו זיהוי לגנים כאפקטורים ולא אפקטורים ,נתנו למכונה סט גנים לא ידועים והניחו לה ללמוד אותם .אלו שהיא חזתה כחיוביים לקחו למעבדה ,השתמשו בשלל מאפיינים ,הומולוגיה לרצפים אחרים שקשורים ללמידת מכונות ,קירבה לגנום ,פרומוטור ,פפטיד הפרשה שעוזר לחיידק לצאת מהמעטפת שיצר ,הומולגיה לחלבונים ,אחוז G:Cוכדומה. אלו שסווגו לאחר בדיקות אלו כחיוביים נבדקו במעבדה .לאחר שאושררה החיוביות שלהם הם נכנסו לשימוש במערכת הדיאגנוסטית. החוג לביולוגיה ,אוניברסיטת תל אביב2011 , חמוטל בן דב ביואינפורמטיקה -שיעור 74 שיעור :12ביולוגיה של מערכות שיטה זו מסתכלת על מערכות ביולוגיות באופן כולל ,ללא התמקדות בפרט יחיד .הפרספקטיבה בוחנת מערכות ומנגנונים ביולוגים בהקשר המערכת השלמה ומחפשת תכונות הנגזרות מהמערכת כולה ולא מפרטים ספציפיים. מהי מערכת? • תא שלם. • המערכת הרגולטורית ,הסיגנלינג ,הנוירונים. • מעגל הבקרה של כימוטקסיס – המורכב במשלושה או ארבעה גנים. הביולוגיה המסורתית היתה רדוקציוניסטית – ירידה מאורגניזמים למערכות ,איברים ,תאים וגנים .הדבר משול לחקר הפעילות של רדיו דרך נגד מסויים ומבלי להבין איך המערכת כולה עובדת .את ההשלמה הזו זה ביולוגיה של מערכות מנסה לספק .אחד מהטריגרים לפריחת המדע הזה היא התפתחות ה– Omics- מחקרים בתחומים הנוגעים להרבה מאוד פרוטאינים ,אנזימים ,גנומים וכדומה .לרוב מנסים לעשות אינטגרציה של נתונים. השיטה מסתכלת על מערכות קטנות יחסית ומנסה לנתח אותן כמותית ,כמו שאולי היה עושה מהנדס אלקטרוניקה או פיזיקאי .ניתן לבצע מדידות ברמה מאוד מפורטת ולעשות עימוד דינמי. דוגמה :התא האלקטרוני להגיע לרמה של הבנת התא כך שניתן יהיה לבצע סימולציה מלאה של תא שלם וחי בעזרת מחשב .זוהי הממטרה הסופית כרגע )למרות שאחרי זה אפשר להמשיך לאיבר שלם או אורגניזם שלם(. הרשת רכיב חשוב בביולוגיה של מערכות ,לפחות מהסוג הראשון, הוא הרשת .רשת מוגדרת מתמטית על ידי גרף ,שהוא אוסף של שני דברים :קודקודים ) (nodesוקשתות ) .(edgesכל קשת מחברת בין שני קודקודים. גרף מתמטי הוא אוסף הקודקודים ואוסף הקשתות כאשר כל קשת מוגדרת לאילו שני קודקודים היא מחברת .ניתן ללמוד את מבנה הרשת ואת הדינמיקה של הרשת – איך דברים משתנים עם הזמן. חמוטל בן דב החוג לביולוגיה ,אוניברסיטת תל אביב2011 , שיעור :12ביולוגיה של מערכות 75 דוגמאות לרשתות המוגדרות בגרפים: • רשתות חברתיות – הקודקודים הם בני אדם ,הקשתות הן אמצעי ההכרה או אינטראקציה ביניהם, למשל האם הם שלחו אי מייל ,קיימו מגע מיני ,מכירים ,חברים בפייסבוק וכו' .עניין המגע המיני מעניין בתחום מחקר מחלות מועברות במין. • רשתות מולקולאריות תאיות – הקודקודים הם מולקולות והקשתות הן אינטראקציות ,דוגמת מטאבוליטים שעוברים ממצב מטאבוליט אחד לאחר דרך אינטראקציה המתווכת לרוב על ידי אנזים. • מסלול העברת אותות – באיור מופיעה רשת של ארבעת הMap-- Kinaseשל השמר ,החל מרמת הרצפטור ועד הגרעין והטרנס- אקטיבציה .קשתות אלו מסמלות אקטיבציה או אינהיביציה ,והסימון שלהם הוא די קבוע – ראש חץ וראש ישר ,בהתאמה. • רשת בקרת הטרנסקריפציה – כל גן שמבקר גן אחר על ידי התיישבות על הפרומוטור שלו הם שני גנים שיש ביניהם קשת .גם כאן יש כיווניות לקשתות – מי משפיע על מי .מכאן שגרפים יכולים להיות מכוונים ולא מכוונים. • רשת אינטראקציות חלבון-חלבון – אינטראקציה פיזית בין חלבונים ,כמו קינאז לחלבון שהוא מזרחן או שני חלבונים מאותו קומפלקס. • ה – WWW-רשת בה כל עמוד אינטרנט הוא קודקוד וכל לינק הוא קשת .זוהי רשת מוכוונת – כי לא בהכרח יש לינקים דו כיוונים. • האינטרנט – זוהי רשת מחשבים המחוברים פיזית ,זאת לעומת ה .WWW-כאן כל מחשב הוא קודקוד וכל חיבור בין מחשבים הוא קשת .הפרוטוקול של האינטרנט מחייב תקשורת דו כיוונית ולכן אין כיווניות לקשתות. • רשת הקולבורציות האקדמית – כל חוקר הוא קודקוד ואם שני חוקרים כתבו יחד או עבדו יחד 13 בפרויקט עשו ביניהם קשת .אין כיווניות . 13בתמונה )שקף (15מופיע ארדש נאמבר ,המתמטיקאי שפיתח במידה רבה את כל ענף הרשתות הרנדומליות. החוג לביולוגיה ,אוניברסיטת תל אביב2011 , חמוטל בן דב ביואינפורמטיקה -שיעור 76 הגדרת תכונות הגרף • קשת יכולה להיות מכוונת ולא מכוונת. • ניתן להגדיר משקולות על קשתות – בהם לא מתייחסים לכל הקשתות במידה שווה ,יש אינטראקציות חזקו פחות וחזקות יותק. • דרגת הקודקוד – מספר הקשתות שנכנסות ויוצאות מהקודקוד .בגרף לא מכוון אין הבדל, בגרף מכוון מדברים גם על דרגת הכניסה והיציאה של הקודקוד. רשתות אקראיות ארדש התחיל לפתח תחום זה בסוף שנות ה 50-והגדיר גרף רנדומלי באופן הבא :מתוך אוסף קודקודים יש להגריל מספר קשתות בצורה רנדומלית לכל אחד מהם ולקשר אותן .החשוב הוא שבגרף כזה התפלגות מספר הקשתות בכל קודקוד המתקבלת קרובה לנורמלית .דרגת הקישוריות של הקודקודים, לפיכך ,דומה בטווח מסויים. רשתות חסרות-סקאלה אולם ,כאשר מסתכלים כמעט על כל הרשתות המוכרות מהעולם האמיתי ,רואים מבנה לגמרי אחר – הן לא נראות בכלל כמו הגרפים האקראים של ארדש אלא גרפים מסוג אחר – רשתות חסרות סקאלה ) .(Scale-Free Networksרשתות כאלה מאופיינות במספר קטן של קודקודים ) (hubsהמרכזים קשתות ממספר גדול של קודקודים ,בעוד שלרוב הקודקודים ברשת יש מספר קטן של חיבורים. לרוב הקודקודים מספר קטן של חיבורים; למיעוטם יש רוב החיבורים .זהו עקרון פארטו המוכר גם בתור עקרון ,80-20כלומר 80%מהפעולה של מערכת מורכבת נעשה על ידי 20%מהשחקנים הקיימים בה. חמוטל בן דב החוג לביולוגיה ,אוניברסיטת תל אביב2011 , שיעור :12ביולוגיה של מערכות 77 רוב הרשתות האמיתיות הן רשתות חסרות סקאלה כמעט בכל הדוגמאות הטבעיות רואים את המבנה הזה ולא מבנה אקראי .מדוע זה כך? לפני כעשור באראבשי ואלברט הציעו מודל פשוט שמסביר מדוע הרשתות נראות כפי שהן נראות :זהו מודל בנייה המציע שאם רשת נבנית על בסיס שני כללים פשוטים היא תראה חסרת סקאלה .הכללים הם: • גדילה בשלבים – הרשת יכולה להתחיל במספר קטן של קודקודים וקודקודים נוספים ייתווספו עם הזמן. • חיבור קודקודים חדשים – – Preferential Attachmentקודקוד חדש שנכנס בעל סיכוי טוב יותר להיקשר לקודקוד Hubמאשר קודקוד עם מעט חיבורים )עקרון ".("the rich get richer בסימולציה במחשב לפי שני עקרונות אלו מתקבלת הרשת באיור ,וזה בדיוק המבנה של רשת חסרת- סקאלה .אבל לא כל הרשתות בטבע נוצרו כך; הרי ה Yahoo ,WWW-או Googleאינן עובדות כך – הן לא הקודקודים הכי וותיקים ברשת ועדיין הם מאוד מקושרים .גם כאשר משווים בין יצורים קדומים למאוחרים יש יותר גנים בהתקדמות ההאבולוציונית ויש יותר קודקודים. אם חלבונים נוצרים בדופליקציה ,בזמן הדופליקציה לשני הדופליקטים יש אותם לינקים לחלבונים שלפני הדופליקציה העותק היחיד היה מחובר אליהם .אם היה קודקוד אחד שהיה מרכזי והקישורים שלו משתכפלים ,הקישורים גדלים ,ואז אולי זה מנגנון לעקרון .rich get richer תכונות של רשתות חסרות-סקאלה מה קורה כשפוגעים )משמידים( בקודקוד מסויים ברשת כזו? רוב הסיכויים שהקודקוד לא הכיל חיבורים רבים ולכן הקישוריות של הרשת לא תיפגע משמעותית; אך אם הפגיעה הייתה ב ,hub-לדבר תהיה השפעה הרסנית על הרשת .מתוך מחשבה זו ,ברבאשי הסתכל על ה PPI-שראינו קודם. הקודקודים האדומים ליתאליים בנוקאאוט .הירוקים אינם ליתאליים .ניתן לראות שרוב ה hubs-מכילים קודקוד אדום במרכזם בעוד שקצוות הhub- לרוב ירוקים .בין הרבה קודקודים עומד גן חיוני .זה מאוד הגיוני :גן חיוני מקיים אינטראקצייות גנטיות רבות ולכן פגיעה בו תביא להשפעה יותר הרסנית מפגיעה בגנים עליהם הוא משפיע. כמו כן כמותה העמידות של רשת חסרת- סקאלה לעומת רשת אקראית ,ונראה שניתן לפגוע אקראית בקודקודים בלי לפגוע ממש ברשת .זה מסביר למה אורגניזמים יכולים לשרוד גם לאחר שמספר גנים עברו מוטציות. המוטציות הן רנדומליות ולכן הם יוכלו לשרוד אותן .לעומת זאת ,פגיעה מכוונת ב hub-יכולה להיות החוג לביולוגיה ,אוניברסיטת תל אביב2011 , חמוטל בן דב ביואינפורמטיקה -שיעור 78 קטלנית .ברשת עובדה זו תנוצל :האקרים באינטרנט ,פאראזיטים במאחסן או תאים סרטניים יתקפו אתרים/חלבונים שהם ) hubsכמו p53המותקף בסרטן( ,כך שנוצר – cascading failure effectהם גורמים לכשל מתגלגל. אורך מסלול ממוצע אורך מסלול בין שני קודקודים הוא מספר הקשתות שצריך לעבור על מסלול כלשהו בין שני הקודקודים האלה .האורך הזה יכול להיות מסלול מינימלי או כל מסלול אחר בין שני הקודקודים .המסלול המינימלי לרוב מתואר בתור המרחק בין שני הקודקודים .המרחק הממוצע הוא הממוצע בין כל המרחקים שבין זוגות הקודקודים ברשת. המרחק הממוצע לרוב קטן בין שני .scale-nodes עקרון העולם הקטן אומר שניתן למצוא עד שישה אנשים כדי למצוא קשר בין כל שני אנשים בעולם. ברשת של ריאקציות מטאבוליות ,בין כל זוג מטאבולים אפשר להגיע אחד לשני דרך מספר קטן של ריאקציות. מאפייני הרשת – Network Motifs המוטיבציה בעזרת כלים שונים ניתן ללמוד מבנים של רשתות ביולוגיות גדולות מאוד – למשל PPIשל כל חלבוני השמר או הרשת הרגולטורית בכל 1500הגנים של הקולי; אולם במערכות אחרות חוקרים כבר 150 שנה אינטראקציות קטנות בין סוג גנים .האם יש רמת ביניים של ארגון שיכולה לתווך בין שני קצוות אלו של הסקאלה ,בין הגן הבודד לרשת כולה? האם יש עקרונות תכנון אבולוציוני לפיהם הרשת הביולוגית מתוכננת? רשתות גדולות המכילות מאות ואלפי nodesועל התכונות שלהן; אך נראה שחסרה רמת ביניים של ארגון שתעזור להבין איך הרשתות עובדות – בין מבנה הרשת לבין האינטראקציות של חלבון בודד או בין זוג חלבונים. באלקטרוניקה בונים מעגלים עם פונקציה מסויימת; בביולוגיה המעגלים עוצבו מכוח האבולוציה ולכן נדרשה עבודה רבה על מנת לנסות לאפיין אותם ולהבין את התפקוד של תתי מעגלים קטנים. תתי מעגלים פונקציונאלים קטנים מעגלי משוב חיובי ושלילי ומשובי איניהיביציה הדדית יהיו המודל הראשון. חמוטל בן דב החוג לביולוגיה ,אוניברסיטת תל אביב2011 , שיעור :12ביולוגיה של מערכות 79 משוב חיובי בין שני גנים ,האחד מפעיל את השני והשני מפעיל את הראשון .בצורה זו הפעלה של אחד הגנים תגרום להגברה משמעותית של שניהם .למערכת כזו יש שני מצבים יציבים :שני הגנים מופעלים או שני הגנים כבויים. מתמטית ,מצב הפעילות של שני הגנים ללא שום מגבלות אינו מצב יציב – כל הפעלה תגרום לעלייה עד אינסוף; אולם מערכות ביולוגיות לא בנויות על הפעלה לינארית אחידה ולכן נראה מצב גבוה יציב ,שרק נראה כאילו הוא קרוב להתפוצצות או הגעה לאינסוף. יכול להיות גם משוב עצמי של גן יחיד ,שכאשר הוא מופעל התוצר שלו גורם להפעלה נוספת של ביטוי אותו הגן. על פי רוב ,על מנת שמערכות יוכלו לעבור ממצב למצב נדרש סיגנל חיצוני – בין אם חלקיק סיגנל או פקטור שיעתוק נוסף שמפעיל את המערכת .כאשר הסיגנל מפעיל את המערכת ,יש להגיע לסף מסויים של הפעלת Xעל מנת לגרום להצטברות של הגורם השני ,Yולכן העלייה הגרפית תהיה איטית; בשלב מסויים המשוב החיובי נכנס לפעולה ,שני הגנים מגבירים אחד את השני ויש מעבר למצב אחר – מופעל. כעת ניתן להחליש את הסיגנל הראשוני מבלי לפגוע במערכת – כי הגנים כבר מתחזקים אחד את השני. במצב זה יש ביטוי לשני המצבים היציבים – – bistabilityכי גם אם יוחלש הסיגנל לאט לאט הירידה תיעשה במסלול השונה מזה של העלייה. המערכת זו יכולה להתנהג כמו מתג הפעלה/כיבוי .זהו מצב דומה ל"נתיך" .מוות תאי הוא דוגמה לכך: כאשר מסלול האפופטוזיס המיטוכונדריאלי ביונקים עובר סף אקטיבציה מסויים ,הוא גורם להתפרקות של המיטוכונדריה והרס מערכות התא עד שהתא גוסס ומת .משום כך כאשר מגיעים לשיא ההפעלה של המערכת לא ניתן לחזור משם )כמו נתיך שרוף ,שאפשר להחליף אולם אי אפשר לתקן(. החוג לביולוגיה ,אוניברסיטת תל אביב2011 , חמוטל בן דב ביואינפורמטיקה -שיעור 80 אינהיביציה הדדית במצב זה שני הגנים מעכבים אחד את השני ,כך שכאשר האחד פעיל השני מעוכב .גם דבר זה גורם לבי-סטאביליות .בביולוגיה ,גם המצב בו שני הגנים יהיו כבויים יהיה מצב יציב; מכיוון שבביולוגיה תמיד יש ביטוי זולג, יש אפילו מצבי אוטו-אקטיבציה מאוזנת אשר בה אם אחד עולה יותר הוא מתחיל במסלול עיכוב של השני וההיפך .מצב זה דוחף את התא לאחד ה ,fates-לאחד הגורלות שקובעים מה תהיה השלכת הפעילות של הגנים על התא .מסיבה זו המסלול פעיל במיוחד בתוכניות התפתחותיות. משוב שלילי מצב שבו מרכיב אחד מפעיל את השני והשני מדכא את הראשון .במצב הזה אין בי-סטאביליות ,אבל בתלות בערכי פרמטרי וקבועי האקטיבציה, האינהיביציה שלהם לקבל הזמן ניתן התנהגויות שונות אפשריות. אחת ההתנהגיות האפשריות היא אוסילציה ,דוגמת השעון הצירקאדי )יומי( המבקר פעילויות בהתאם לאורך היום; אם משנים את הפרמטרים אפשר לקבל אטנואציה ,אוסילציות שהולכות ויורדות עם הזמן; שינוי אחר יביא להיעלמות האוסילציות בכלל ורילקסציה מהירה לאחר הגעה לערך כלשהו – במקום רוויה של Xהמייצר את ,Yהוספת Yתביא רוויה בערך נמוך יותר ומהר יותר .בצורה זו התגובה מואצת ומיוצבת בו זמנית. מוטיבים של רשתות האם יש ארגון שדרכו ניתן להסביר את הרשתות המוכרות ,האם יש מוטיבים שחוזרים על עצמם יותר מאשר בצורה אקראית ,המופיעים הרבה ברשתות וייתכן שיש להם משמעות פונקציונאלית? נניח שאין מוטיבים פונקציונאלים שהטבע למד ומשתמש בהם שוב ושוב; משמעות הדבר היא שמוטיבים קטנים של שלושה-ארבעה חלבונים ברשת יכולים להופיע באותה השכיחות של מוטיבים אחרים – אף מוטיב לא יעבור סלקציה חיובית עם האבולוציה .לעומת זאת מוטיבים בעלי יתרון פונקציונאלי ,ניתן לצפות שהאבולוציה "תלמד" לחזור עליהם בצורה שכיחה יותר במערכת. איך מגדירים מוטיבים שכיחים יותר? תחילה קבוצת המחקר שהתמודדה עם שאלה זו התרכזה במוטיבים של 3-4קודקודים .ברשת מכוונת יש 13מוטיבים אפשריים של חיבוריות בין שלושה נודים .בין ארבעה קודקודים יש 199מוטיבים. חמוטל בן דב החוג לביולוגיה ,אוניברסיטת תל אביב2011 , שיעור :12ביולוגיה של מערכות 81 לאחר הרכבת סוגי המוטיבים האפשריים ניתן לבדוק בקבוצה של רשת רנדומית כמה פעמים כל מוטיב מופיע )תוך שמוודאים שהרשת אכן רנדומית(; לאחר יש לעבור לרשת האמיתית ולבדוק האם תבנית השכיחות מתאימה לתבנית של הרשת הרנדומית או לא .אם מוטיב מסויים מופיע יותר מהשכיחות הצפוייה שלו ,נאמר שהרשת מועשרת ) (enrichedעבור אותו מוטיב. ברשת השיעתוק של E.coliנמצאו המוטיבים משמאל בתור המוטיבים השכיחים ביותר .הללו היו היחידים שהיו מועשרים בצורה מובהקת מעבר למצב האקראי .ניתן אולי לומר שזה יד המקרה ,אולם גם כשבדקו את רשת שמר האפייה מצאו את אותם מוטיבים בתור המועשרים – והמועשרים היחידים .14גם בתולעת C.elegansשני המוטיבים האלה עולים בצורה מובהקת .מה שיותר מפתיע הוא שגם ברשתות אלקטרוניות מסוג מסויים ראו את אותם המוטיבים. כאשר סקרו רשתות שונות של החיים ,נמצא כי יש מוטיבים ספציפיים שהם המועשרים האקסקלוסיבים כמעט תמיד .אפשר לסווג את הרשתות לרשתות העברת אינפורמציה ,העברת אנרגיה )כמו טורף/נטרף( וזרימת אינפורמציה שלא במובן עיבוד אינפורמציה )כמו ה .(WWW-בכל רשתות האינפורמציה – אלקטרונית או ביולוגית – רואים אותם מוטיבים חוזרים. 14שימו לב שאין כאן חלוקה לפי כיווניות החצים ,אקטיבציה או אינהיביציה. החוג לביולוגיה ,אוניברסיטת תל אביב2011 , חמוטל בן דב ביואינפורמטיקה -שיעור 82 מבנה המוטיב של שלושת הקודקודים נחקר על ידי הקבוצה ,וכונה Feed- .forward loopהמבנה מכיל שני גורמי שיעתוק X ,ו ,Y-כאשר Xמפעיל את ,Yוכל אחד מהם יכול להפעיל את .Zהסוג הזה של Feed-Forward Loopהוא מסוג .Coherent feed-forward loop15הסיבה לכך היא ששני המסלולים – הישיר והעקיף – מסכימים )קוהרנטיים( זה עם זה. מבחינת השפעה של Xו Y-על ,Z אפשר לחשוב על שתי אפשרויות פשוטות :מעגל ANDומעגל :OR • – X AND Yצריך שגם Xוגם Y ייפעלו על מנת להפעיל את ,Z למשל שני פקטורי שיעתוק היוצרים הטרודימר שמפעיל את גן .Zבמצב זה ההפעלה תהיה איטית והכיבוי יהיה מהיר. ההפעלה איטית משום שנדרשת כמות מספקת משני הפקטורים :יש לחכות ש X-יצטבר ,יגיע לסף בו הוא מתחיל להפעיל את Yואז להמתין עד ש Y-יגיע לסף בו הוא מפעיל את .Z לעומת זאת בכיבוי X ,מתחיל לרדת בתום הסיגנל וכאשר הוא מגיע לסף מסויים מתחילה ירידה בY- )עם עיכוב קטן מסוף הסיגנל ,למרות שיכול להיות שזה מקוזז על ידי קצבי ירידה אחרים( .אולם, מכיוון ש Z-זקוק לשני הפקטורים הוא יהיה רגיש לירידה של הראשון ולא השני – ולכן הגורם המשפיע על הירידה של Zיהיה הירידה של .X המסלול הזה יעיל בסינון רעשים – אם יש סיגנל "רעש" שגורם להתחלה של ההפעלה של Xאבל זהו אינו סיגנל אמיתי באורך הדרוש X ,לא יספיק להפעיל את Yאו שהוא יתחיל להפעיל אותו אבל Yלא יגיע למצב שהוא יכול להפעיל את ;Zמתקבל מצב ש X-ו Y-אינם מגיעים למצב המאפשר הפעלה של Zוהרעש הזה ,שמשפיע על Xואולי על ,Yאינו משפיע על .Z אם יש רעש בכיבוי ,הרעש לא יסונן מכיוון ש Z-רגיש לפקטור הראשון שיושפע מהירידה בסיגנל, גם אם הירידה היא רגעית עקב רעש )אבל ארוכה דיה לרדת מתחת לסף הדרוש(. 15סוג נוסף של לופ קוהרנטי יכול להיות מצב בו Xהוא איהיביטורי של X ,Zהוא מפעיל של Yשהוא איהיביטורי של X ;Z אינהיביטורי של Zואינהיביטורי של Yשהוא אקטיבטור של ;Zו X-הוא אקטיבטור של Zומפעיל של Yשהוא אקטיבטור של .Z חמוטל בן דב החוג לביולוגיה ,אוניברסיטת תל אביב2011 , שיעור :12ביולוגיה של מערכות • 83 – X OR Yמבטא מצב של ,redundancyלמשל שני פקטורי שיעתוק הומולוגים שנקשרים במקומות דומים ,ומספיק שאחד מהם יהיה קשור כדי לעורר ביטוי של .Z במצב זה הסיגנל אינו תלוי; ההתנהגות של Xו Y-תהיה כמו קודם )הפעלה איטית של Yעל ידי (X אולם כעת Zיתחיל לפעול כאשר הראשון מביניהם יעבור את סף ההפעלה של Zויתחיל לרדת כאשר האחרון מביניהם יעבור את סף הכיבוי של .Zכתוצאה תתקבל הפעלה מוקדמת יותר ועיכוב בכיבוי. במקרה הזה הרגישות לרעשים תהיה הפוכה – לא יסונן רעש לש הפעלה אבל כן יהיה סינון של רעשי כיבוי. לופ אינקוהרנטי יש ארבעה סוגים של הפעלה קוהרנטית; אך יותר מכך יש התנהגויות אינקוהרנטיות .תגובות אלו יכולות להאיץ תגובה התחלתית ,לייצר פולסים ולגלות שינויי-קיפול ) ,(fold changeכלומר להגיב באותה צורה לשינוי בסיגנל שהוא שינוי ב – fold change-אם הסיגנל עולה מ 2-ל 4-הוא יגיב באופן מסויים ואם יעלה מ 20-ל 40-הוא יגיב באופן אחר – הוא יודע לחשב בכמה עלה הסיגנל ולהגיב בהתאם ,מה שלא ניתן לומר על הסוגים הקוהרנטים. החוג לביולוגיה ,אוניברסיטת תל אביב2011 , חמוטל בן דב ביואינפורמטיקה -שיעור 84 שיעור :13החלטות גורל התא מוטיבציה ללא שיטת דימות ) (imagingישירה לתאים בודדים לא ניתן היה להעריך את אורך הזמן והדינמיקה של תופעות רבות .הבעיה היא שרוב השיטות המוכרות – מיקרואראי ,ג'לים ,בלוטינג – מרסקות תאים וממצעות את האוכלוסיה .הדימות מאפשר מעקב ברמת התא הבודד אחר תופעות דינמיות. גם במקרים בהם שולטים בצורה מדוייקת בתנאים החיצוניים ,כך שכל התאים יראו אותם תנאים ולא יהיו מושפעים משינויים עקב השכנים או המדיום ,עדיין רואים שונות בתגובות – בכל מערכות החיים ,בכל מיני סוגי תהליכים – בין אם ספורולציה בשמרים ,פילמנטציה בפטריות ,אפופטוזיס כתגובה לתרופה או התמיינות של תאים בצלחת. כל השיטות המסורתיות עושות מיצוע ולכן צריך שיטת דימות להסתכלות ברמת התאים הבודדים. מעקב אחר תאים ברמת התא הבודד המהפכה העיקרית בתחום זה נעשתה על ידי ,GFPחלבון המאפשר סימון ופיקוח על חלבונים ספציפיים בתנאי .in vivoחוקרים שונים עובדים כל חייהם בפיתוח צבעים שונים של חלבונים ממשפחת .GFP דוגמה :מיוזה בשמרים שמרים בתנאי עקה יעברו מיוזה ,וזוהי עובדה; אולם השאלה הגדולה היא מתי הם מחליטים לעבור חלוקה זו .,כל עוד יש להם אוכל ,שמרים מתחלקים מיטוטית; רק בתנאי עקה הם יעברו מיוזה וספורולציה ליצירת נבגים עטופים באסקוס קשיח שעמיד בפני מרבית תנאי העקה לפרקי זמן ממושכים מאוד. מצבים כאלה הם דוגמה לחשיבות של סינון רעשים ב :input-כל עוד השמר מתחלק מיטוטית יש לו יתרון על אלו שמתחלקים מיוטית ולכן חשוב יתחיל ספורולציה בכל ירידה קטנה ונקודתית בגלוקוז .משום כך הרגולציה על מיוזה עוברת מבנה קלאסי של רשתות ביולוגיות – הסיגנלים מתקבלים על ידי רצפטורים מסויימים ,המקשיבים לריכוז של נוטריינטים שונים; האותות מתרכזים בגורמי שיעתוק המפזרים את המידע מלמעלה כלפי מטה – לחלבונים ולגנים שצריכים להוציא לפועל את השינוי במחזור חיי התא. בגישת ,Life Cell Imagingניתן לסמן את אחד הגנים המוקדמים של המיוזה בזן של ,GFPלגדל את השמר בתנאים טובים ואז לתת פולס הרעבה. כעת מצלמים את הצלחת במיקרוסקופ ממונע, שיכול לצלם 50שדות שונים על הצלחת ולהפיק חמוטל בן דב החוג לביולוגיה ,אוניברסיטת תל אביב2011 , שיעור :13החלטות גורל התא 85 50סרטים .בתחילת הסרט לא רואים כלום כי הגן של המיוזה עוד לא הצטבר ,אבל בהמשך ניתן לראות הצטברות כמו גם את החלוקה המיוטית של התאים לשני גרעינים ואז לארבעה .בסרט ניתן לראות וריאביליות בתזמון הכניסה למיוזה או בקצב ההתקדמות בין שלבי המיוזה השונים. Image Analysis כדי להפיק ולנתח את הנתונים ,יש למלא אחר כמה שלבים: • סגמנטציה – המחשב צריך לזהות את התאים ולסמן אותם .בשמרים זה די פשוט ,כי הם עגולים יחסית ולכן ניתן לזהות אותם .בתאים הומאניים או תאי יונקים אחרים יש שונות הרבה יותר גבוהה בין סוגי התאים ולכן זה נחשב ,באופן טיפוסי ,השלב הקשה. • מיפוי התאים על פני הזמן – לדעת לשרשר בין זמנים שונים. • זיהוי נקודות זוהרות של .YFP • מיפוי של הנקודות הזוהרות לתא שהכיל אותן. לאחר שמתגברים על מכשולים אלו בדרך לאנאליזה ניתן לקבל את רמות ה YFP-בתא שמר בודד וכיצד הרמה הזו משתנה כפוקנציה של הזמן .חשיבות הדבר היא בתזמון התרחשות נקודת ההחלטה. בסרט ניתן לראות דינמיקה קבועה יחסית ,אחידה ,של הזמן בו הבלובים נפרדים אלו מאלו ולכן ניתן לזהות מתי מתרחשת המיוזה הראשונה ומתי השנייה. דימות תאים חיים האנליזה מציגה את כמות החלבון בתא בודד במיקום מסויים ,למשל בגרעין; המחשב גם יודע לזהות מיוזות ראשונה ושנייה ,ומפיק גרף דוגמת זה שמשמאל עבור כל אחד מהתאים .מסוג כזה של נתונים ניתן להוציא מספר סוגי סטטיסטיקות )שקף :(15 • זמני מאורעות – למשל ,התפלגות זמן ההחלטה להתחייב לחלוקה ,שהוא נקודת חלוקת המיוזה הראשונה .ניתן לנתח את המידע שהתקבל לפי נתון זה ולקבל היסטוגרמה של התפלגות הזמנית, המראה שהתאים מתחילים להתחייב בין 7-24שעות לאחר תחילת ההרעבה. • פירוק מקטעי הזמן – ניתן לבדוק מתי רמת הגן עולה בקצב מקסימלי ,להגדיר זאת כאירוע הדלקה מירבית ולציין את התזמון של זה. • קורלציה בין מאורעות – התאמה בין שני מרווחי זמן לא אפשרית באף שיטה אחרת FACS .יכול לחלק תאים ולהראות תבנית של גודל לעומת רמות פלורסנציה ,אבל חסר לנו נתון של מימד הזמן – החוג לביולוגיה ,אוניברסיטת תל אביב2011 , חמוטל בן דב ביואינפורמטיקה -שיעור 86 מתקבלת תמונה בודדת של התרבית ולא ניתן לעקוב אחר תאים ספציפיים לאורך הזמן .בשיטה זו מתקבלת גם אינפורמציה על ההיסטוריה של התאים וניתן לראות מה ההתאמה בין ההסטוריה של אירועים איטיים ומהירים – האם תאים שהיו איטיים במרווח זמן אחד יהיו איטיים גם במרווח הזמן השני )התשובה שלא ,אין התאמה(. • קורלציה בין מאורעות בעזרת פלואורפור נוסף – ניתן להוסיף למערכת עוד פלואורופור ולבדוק קורלציה בין גורמים נוספים – למשל האם זמן המיוזה נמצא בקורלציה לשלב מחזור התא בו היה השמר .מכיוון שרואים שהשונות בין הזמנים דומה ניתן להבין שאין קורלציה בין זמן המיטוזה האחרונה למיוזה הראשונה. • קורלציה בין רמות מולקולאריות לבין תזמונים – ניתן לבחון פעילות פרומוטור מסויים ,ולראות לפי הגרפים של תאים בודדים האם השונות מספקת אינפורמציה לגבי תיזמון זמן הכניסה לתהליך .במקרה שבאיור רואים קורלציה שלילית – ככל שזמן פעילות הפרומוטור קצר יותר הזמן עד הכניסה לתהליך היה קצר יותר. התרשים התחתון מסכם את תהליך הכניסה של מיוזה בשמר .ניתן גם למדוד דברים נוספים כמו גודל התא ,צורה, רמות מולקולאריות שונות וכימות סטטיסטי ברמת התאים הבודדים .כל זה מתאפשר תודות למדגמים גדולים של תאים ומעקב טמפורלי אחר התאים המודד רמות מולקולאריות שונות. בסרט התא שנכנס למצב competenceלזמן מסויים ומפסיק )תחילת המצגת( ,הקבוצה שעשתה את המחקר ניסתה להסביר מדוע התופעה נדירה וטרנסגנטית .הם הציעו מודל המבוסס על הרבה קשרים ידועים ומעגלים של משובים חיוביים ושליליים .הם יכלו לבדוק את ההתנהגויות החזויות במודל בעזרת דימות תאים חיים .כל גרף מראה מעקב באותו התא אחר גנים שונים ,והצליחו להראות שיש אנטי-קורלציה מושלמת בין שני הגנים – דבר שחזה המודל שלהם. חמוטל בן דב החוג לביולוגיה ,אוניברסיטת תל אביב2011 , שיעור :13החלטות גורל התא 87 סיכום אחת המוטיבציות הייתה שתאים שונים ,גם באוכלוסיה שמתחילה באותו מצב ,מגיבים שונה – תאי סרטן מגיבים לטיפול או לא; התמיינות מתרחשת או לא; מיקרוסקופיה של תאים בודדים יכולה לכמת את ההבדלים האלה ,תזמון המאורעות לאורך זמן ותזמון המאורעות בתא. החוג לביולוגיה ,אוניברסיטת תל אביב2011 , חמוטל בן דב