המבנה הגורמי של מאפייני טקסט בשפה העברית הכתובה
Transcription
המבנה הגורמי של מאפייני טקסט בשפה העברית הכתובה
המבנה הגורמי של שפה עברית כתובה יעל שפרן ,ענת בר-סימן-טוב פרויקט השפה העברית ) ,(HLPמאל"ו הכנס השביעי של אפי ,2011 ,ירושלים 1 מה ההבדל בין שני הטקסטים? .1 ציון גבוה ...לסיכום ,אני מאמינה שבעניין הזיופים יש להתחשב באינטרסים של החברות הבינלאומיות אשר הן הנפגעות הישירות מתרבות זו .יש לצמצם את האפשרות לזיופים ע"י דרכים שונות כמו הגשת תביעות נגד המזייפים או להוריד באופן ניכר את מחירי המוצרים המקוריים .בשיטה זו ,יהנו גם היצרנים וגם הצרכנים מן המוצרים בצורה היעילה ביותר. .2 ציון נמוך ...במאמר זה יש הבטים שונים בנושא תופעת הזיופים בארץ מצד אחד תופעת הזיופים טובה כי זה יותר זול להוריד שירים מהאינטרנט מאשר לקנות דיסק מכורי וזה הרבה יותר זול לקנות גי'נס מזויף של דיזל מאשר לקנות את המקורי ב!!! ₪ 900 - וזה גם יותר זול לקנות סרט צרוב מאשר מקורי * מתוך קורפוס חיבורים שכתבו תלמידי יב' דוברי עברית 2 מטקסט לאפיון כמותי טקסט .1 מאפייני טקסט כמותיים ציון גבוה ...לסיכום ,אני מאמינה שבעניין הזיופים יש להתחשב באינטרסים של החברות הבינלאומיות אשר הן הנפגעות הישירות מתרבות זו .יש לצמצם את האפשרות לזיופים ע"י דרכים שונות כמו הגשת תביעות נגד המזייפים או להוריד באופן ניכר את מחירי המוצרים המקוריים2.ב.שיטה זו ,יהנו גםציון נמוך היצרנים וגם הצרכנים מן המוצרים תר.זה יש הבטים שונים במאמר בצורה היעי...לה ביו בנושא תופעת הזיופים בארץ מצד אחד תופעת הזיופים טובה כי זה יותר זול להוריד שירים מהאינטרנט מאשר לקנות דיסק מכורי וזה הרבה יותר זול לקנות גי'נס מזויף של דיזל מאשר לקנות את המקורי ב !!! ₪ 900 -וזה גם יותר זול לקנות סרט צרוב מאשר מקורי ממוצע מילות קישור במשפט גיוון לקסמות 7.3 5.8 % מילים נדירות אורך ממוצע של משפט %מילים % באורך 6פעלים בסביל ומעלה ציון גבוה 0.37 14.7 0.33 0.05 2.5 ציון נמוך 0.28 17.4 0.21 0 1.2 3 קיימים מאות מדדים כמותיים שניתן להשתמש בהם לאפיון טקסט 4 דוגמאות למאפיינים כמותיים של טקסט משתני שטח* #מילים ממוצע אורכי משפט ממוצע אורכי מילים לקסיקליים מורפולוגיים %המילים הנדירות בטקסט %חלק דיבר מסוים )(19 ממוצע השכיחויות של מילים בטקסט %בניינים שונים )(8 %מילים מקטגוריית תוכן נתונה #שעבודים ממוצע למשפט %שגיאות הכתיב %שגיאות התאם מין ומספר %פעלים בסביל עד כה הגדרנו 133 * תוכניים תחביריים דקדוקיים מאפיינים משתני שטח -מאפיינים סטטיסטיים שאינם מצריכים ידע לשוני ,ויכולים להעיד בעקיפין על ממדים לשוניים 5 כיצד עוברים מאוסף גדול של מאפיינים למבנה קוהרנטי ומצומצם? משתנים כמותיים שטח לקסיקליים לקסיקליילם מורפולוגיים תוכןתוכן תוכניים תחבירי תחבירי תחביריים לשוןלשון דקדוקיים שטח שטח מבנים תיאורטיים בשפה )גורמים( עושר לשוני מורכבות תחבירית . . 6 התרשמות לא שיטתית מקשרים בין מאפיינים ממוצע מילות קישור במשפט 2.5 1.2 אורך משפט ממוצע 14.7 17.4 גיוון סימני פיסוק 1.4 2.1 %מילות תואר 0.14 0.12 %בנין פעל 0.47 0.57 %בנין נפעל 0.05 0.03 שם מאפיין ערך בחיבור צ' גבוה ערך בחיבור צ' נמוך גיוון לקסמות 7.3 5.8 7 בחינה שיטתית של הקשרים בין מאפיינים: ניתוח גורמים בשיטה לא אורתוגונאלית המשתנים 133 :מאפיינים כמותיים )לכל טקסט( המדגם 3 :קורפוסים של טקסטים N קורפוס M1 חיבורים :תלמידי י"ב חיבורים :מבחן יע"ל טקסטים ערוכים ממקורות שונים דוברי עברית כשפת אם דוברי עברית כשפה שנייה 639 668 985 8 מהלך העבודה :ניתוח גורמים דו שלבי שלב א' ניתוח גורמים של 133מאפיינים ב 3-קורפוסים חקירת 'ההתנהגות' של כל מאפיין אילו מאפיינים מתקבצים יחד על אותו גורם מה ההתפלגות של כל מאפיין מה המתאם של כל מאפיין עם רמת קושי של טקסט או עם איכות כתיבה )הטעינות על הגורמים( צמצום וטיוב המאפיינים שלב ב' ניתוח גורמים מחודש של 72מאפיינים ב 3-קורפוסים הגדרה סופית של גורמים ותתי-גורמים 9 שלב א' :ניתוח גורמים מתאמים עם ציון הגורם עליו טעון המשתנה המטען של המשתנה יע"ל יע"ל M1 חיבורי יב' M1 חיבורי יב' מלא מדגם מדגם מלא מדגם מדגם מלא מלא מדגם מדגם מלא מדגם מדגם מלא חיבורי חיבורי יב' יע"ל 1 2 1 2 1 2 1 2 משתנה ) 14משתנים( M1 מס' מילים )תמניות( 3 2 2 2 2 2 2 0.69 0.64 0.66 1 0.9 3 0.9 2 2 2 2 2 2 מספר מחרוזות )מילים ,מספרים 0.69 0.64 0.68וסימני פיסוק ( מספר מילים שונות )תבניות( 1 3 2 2 2 2 2 2 0.71 0.67 0.72 4 0.7 0.8 0.7 0.7 0.76 0.71 -0.37 2 2 2 2 2 2 0.60 0.56 0.35 3 -0.4 -0.3 -0.4 -0.8 -0.6 -0.7 -0.33 2 2 2 2 2 2 -0.45 -0.39 -0.10 3 -0.4 -0.5 -0.5 -0.9 -0.7 -0.8 -0.55 2 2 2 2 2 2 -0.49 -0.48 -0.27 0.88 0.8 0.74 3 0.9 0.9 0.9 0.7 2 2 2 2 2 2 0.79 0.73 0.74 0.8 3 0.9 0.9 0.8 0.6 0.66 0.61 2 2 2 2 2 2 0.79 0.72 0.74 1 1 1 1 1 0.99 1 0.99 0.99 0.92 1 0.9 0.91 0.92 1 1 1 מס' משפטים יחס תבניות לתמניות -מחרוזות יחס תבניות לתמניות -לקסמות גיוון מחרוזות גיוון לקסמות 10 שלב א' :1ניפוי מאפיינים קריטריונים לניפוי מאפיין: דמיון בדפוס המשקולות דמיון בדפוס המתאמים עם הציון עקביות במדדים בתוך קורפוסים ומעבר לקורפוסים ייצוג של ישות לשונית דומה מתאמים עם ציון הגורם עליו טעון המשתנה המטען של המשתנה יע"ל יע"ל M1 חיבורי יב' M1 חיבורי יב' מלא מדגם מדגם מלא מדגם מדגם מלא מלא מדגם מדגם מלא מדגם מדגם מלא חיבורי חיבורי יב' יע"ל 1 2 1 2 1 2 1 2 משתנה ) 14משתנים( M1 מס' מילים )תמניות( 14מאפיינים 8מאפיינים 3 2 2 2 2 2 2 0.69 0.64 0.66 1 0.9 3 0.9 2 2 2 2 2 2 מספר מחרוזות )מילים ,מספרים 0.69 0.64 0.68וסימני פיסוק ( מספר מילים שונות )תבניות( 1 3 2 2 2 2 2 2 0.71 0.67 0.72 4 0.7 0.8 0.7 0.7 0.76 0.71 -0.37 2 2 2 2 2 2 0.60 0.56 0.35 3 -0.4 -0.3 -0.4 -0.8 -0.6 -0.7 -0.33 2 2 2 2 2 2 -0.45 -0.39 -0.10 3 -0.4 -0.5 -0.5 -0.9 -0.7 -0.8 -0.55 2 2 2 2 2 2 -0.49 -0.48 -0.27 0.88 0.8 0.74 3 0.9 0.9 0.9 0.7 2 2 2 2 2 2 0.79 0.73 0.74 0.8 3 0.9 0.9 0.8 0.6 0.66 0.61 2 2 2 2 2 2 0.79 0.72 0.74 1 1 1 1 1 0.99 1 0.99 0.99 0.92 1 0.9 0.91 0.92 1 1 1 מס' משפטים יחס תבניות לתמניות -מחרוזות יחס תבניות לתמניות -לקסמות גיוון מחרוזות גיוון לקסמות 11 שלב א' :2בדיקת שונות המאפיינים איחוד וניפוי מאפיינים בעלי שונות נמוכה אוחדו עם מאפיינים דומים מבחינת תפקיד לשוני .למשל: אוחדו סימני פיסוק ייחודיים בסוף משפט )!(?+ אוחדו סימני פיסוק באמצע משפט ).( : + ; + , שיעור סימני שאלה 8, שיעור סימני קריאה 8 , איחוד סימני שאלה וקריאה 9, 12 שלב א' :3טיפול בערכים חריגים קיים ערך חריג R=0.42 תיקון לערך חריג R=0.86 מקורות לערכים חריגים :שונות נמוכה של המאפיין או טקסט קצר מאוד. פתרון :הגבלה של טווח ההשתנות של ציוני התקן של כל מאפייני הטקסט ל ± 3 -סטיות תקן 13 סיכום שלב א' הוסרו 73מאפיינים מתוך 133 נוספו 12משתנים )שופצו או אוחדו( סה"כ התקבלו 72משתנים 14 שלב ב' :ניתוח גורמים של 72מאפיינים כמה גורמים משמעותיים קיימים? 15גורמים מסבירים 72%-61%מהשונות בשלושת הקורפוסים EV Eigenvalue ) Eigenvaluesקורפוס ( M1 18 16 14 12 8 EV 10 6 4 2 0 80 70 60 50 40 30 20 10 0 מס' גורם מס' גורם 15 שלב ב' :ניתוח גורמים של 72מאפיינים אילו גורמים הם יציבים )בין ובתוך קורפוס(? תיקוף צולב של הגורמים )בין ובתוך קורפוסים( תוצאות 3-4 :הגורמים הראשונים יציבים ועקביים מתאם בין משקולת בתוך כל קורפוס מתאם בין משקלות בתוך קורפוס R מתאם בין משקולת בין קורפוסים מתאם בין משקלות בין קורפוסים 1.00 1.00 0.90 0.90 0.80 0.80 0.70 0.70 0.60 0.60 0.50 מס' גורם 15 חיבורי יב' יע"ל 0.10 0.00 10 11 12 13 14 9 8 7 6 5 4 3 2 1 4גורמים ראשונים )(r= 0.79 - 0.97 0 0.40 0.30 חיבורי יב M1- 0.30 0.20 0.50 חיבורי יב -יע"ל 0.40 M1 R 0.20 יע"ל M1- מס' גורם 0.10 0.00 3 2 0 1 16 3גורמים ראשונים )(r= 0.52 - 0.9 גורם :1שכיחות מילים ודחיסות תוכנית תת-גורם גורם .1שיעור 1.1שיעור מילים שכיחות מילים שכיחות ודחיסות תוכנית משתנה שכיחות ממוצעת של מחרוזת שכיחות ממוצעת של לקסמה אורך ממוצע של מחרוזת שיעור מחרוזות באורך 10ומעלה שיעור מחרוזות באורך 6ומעלה 1.2דחיסות תוכנית שיעור מילות פונקציה 1.3שמות תואר 1.4מילים עם תחיליות שיעור מילות תוכן שיעור שמות תואר שיעור מילים עם תחילית 1.5כינוי רומז שיעור כינויים רומזים 1.6כינוי גוף שיעור כינוי גוף 1.7כמתים שיעור כמתים 1.8זאנר ספרותי לילדים -פועל בתחילת משפט שיעור משפטים הפותחים בפועל 17 19 ל ל ל גורם :1הקשר בין שכיחות מילים לאורך מילים תת-גורם 1.1שיעור מילים שכיחות משתנה שכיחות ממוצעת של מחרוזת שכיחות ממוצעת של לקסמה אורך ממוצע של מחרוזת שיעור מחרוזות באורך 6ומעלה משקל 0.87 0.91 -0.89 -0.8 מאפיינים לקסיקליים מאפייני שטח תת הגורם תואם את חוק :Zipfככל שמילה קצרה יותר כך היא שכיחה יותר חוק Zipf שכיחות מילה אורך מילה 18 גורם :2כמות הטקסט וגיוונו גורם תת-גורם משתנה .2כמות הטקסט וגיוונו 2.1כמות מחרוזת לוגריתם של מס' המילים 2.2גיוון לקסיקלי מס' מילים שונות גיוון מחרוזות גיוון לקסמות 2.3הכרת מילים נדירות שונות שיעור לקסמות נדירות )תבנית( שיעור מחרוזות נדירות )תבנית( שכיחות ממוצעת של מחרוזות )תבנית( שכיחות ממוצעת של לקסמה )תבנית( גיוון לשוני מדד Z 2.4גיוון לשוני מדד Z גיוון לשוני מדד D 2.5גיוון לשוני מדד D גיוון מילות יחס 2.6גיוון מילות יחס S_LETTER_S _TRING_LOG S_LETTER_S TRING_TYPE S_STRING_DI VIRSITY _M_LEXEME DIVIRSITY S_TYPE_FRE Q_AVG S_TYPE_FRE Q_LOW M_LEXEME_T _YPE_FREQ AVG S_FREQ_CU RVE_ZIPF S_TTR_CURV E_D M_PREPOSIT ION_DIVIRSIT Y 19 גורם :3משפטים ארוכים / מורכבות תחבירית בטקסטים תקניים גורם תת-גורם משתנה .3משפטים ארוכים / מורכבות תחבירית בטקסטים תקניים 3.1משפטים ארוכים אורך משפט ממוצע שיעור המשפטים הארוכים במיוחד שיעור המשפטים הקצרים במיוחד סטית התקן של אורכי המשפטים 3.2מורכבות תחבירית בטקסטים תקניים 3-3מס' שלילות גבוהה במשפט ממוצע מילות חיבור ושיעבוד במשפט ממוצע מילות יחס במשפט שיעור המשפטים בעלי מס' שלילות גדול מ1- 20 גורם :3הבדל בין טקסט ערוך לחיבור מתאמים בין ציון חיבור /גיל קורא של טקסט למאפיינים 3.1משפטים ארוכים אורך משפט ממוצע שיעור המשפטים הארוכים במיוחד 3.2מורכבות תחבירית ממוצע מילות חיבור ושיעבוד במשפט גיוון סימני פיסוק ממוצע מילות יחס במשפט מתאם עם ציון טקסט ערוך נרטיבי M1 0.40 0.46 0.32 0.40 -0.22 חיבורי יב' -0.04 -0.25 -0.05 0.02 0.17 משפטים ארוכים חיבורים :חוסר פיסוק טקסט ערוך :משפט מורכב 21 ולסיום..מעבר לתת גורמים טקסט .1 מאפייני טקסט כמותיים :תת גורמים ציון גבוה ...לסיכום ,אני מאמינה שבעניין הזיופים יש להתחשב באינטרסים של החברות הבינלאומיות אשר הן הנפגעות הישירות מתרבות זו .יש לצמצם את האפשרות לזיופים ע"י דרכים שונות כמו הגשת תביעות נגד המזייפים או להוריד באופן ניכר את מחירי המוצרים המקוריים2.ב.שיטה זו ,יהנו גםציון נמוך היצרנים וגם הצרכנים מן המוצרים תר.זה יש הבטים שונים במאמר בצורה היעי...לה ביו בנושא תופעת הזיופים בארץ מצד אחד תופעת הזיופים טובה כי זה יותר זול להוריד שירים מהאינטרנט מאשר לקנות דיסק מכורי וזה הרבה יותר זול לקנות גי'נס מזויף של דיזל מאשר לקנות את המקורי ב !!! ₪ 900 -וזה גם יותר זול לקנות סרט צרוב מאשר מקורי 1.1 שיעור מילים שכיחות 3.2 2.2 מורכבות גיוון לקסיקלי תחבירית ציון גבוה 2.3 - 1.17 ציון נמוך 0.2 - 3.1 - 0.7 - 1.83 22 סיכום המבנה הגורמי של שפה עברית כתובה או איך מאפיינים טקסט? ניתוח גורמים -נושאים מתודולוגים ניפוי מאפיינים בדיקת התפלגות המאפיינים ואיחוד מאפיינים טיפול במקרים חריגים גורמים בשפה העברית: סה"כ 15גורמים ,שחולקו ל 12 :תת גורמים 26 +מאפיינים בדידים. שלושת הגורמים הראשוניים הם היציבים ביותר תת גורם 1.1 1.2 2.1 2.2 2.3 3.1 3.2 שם הגורם שיעור מילים שכיחות דחיסות תוכנית כמות מחרוזת גיוון לקסיקלי הכרת מילים נדירות שונות משפטים ארוכים מורכבות תחבירית בטקסטים תקניים 23 תודה