Navneord i flertal - Website for tysk på Frisholm
Transcription
Navneord i flertal - Website for tysk på Frisholm
SAS systemet SAS 2012 Janne Petersen February 7, 2012 Styrken i SAS er dets evne til at håndtere store datasæt. Det er hurtigt og har mange statistiske og ikke-statistiske muligheder. Kan "alt", så det er ikke nødvendigt at skifte program undervejs. Alle phd-studerende kan få SAS gratis. En af ulemperne ved SAS er, at det tager noget tid at sætte sig ind i det. Der eksisterer dog forskellige brugervenlige inter-faces, f.eks. Interpriseguide. Alternative store programmer: SPSS, R og Stata. SAS vinduer Enhanced Editor: Program editor, hvor ens program kode skrives. Dvs. det er her man fortæller SAS hvad det er den skal gøre. Program Editor: Programeditor, gammel, ingen farver. Lad være med at bruge den. Log: Her skrives løbende hvad SAS laver, noter om fejl m.m. Output: Output fra ens kørsler, fortløbende. Dvs. resultaterne af ens kode. Results: Overblik over output Explorer: Libraries (SAS-software-biblioteker) og File Shortcuts. Kommando linien: Kan give korte kommandoer til SAS, f.eks. help freq (virker hjemme men ikke her). Menu linien: (Den øverste linie) Indeholder forskellige peg og klik muligheder (som alle andre Windows programmer) Værktøjs linien: Forskellige nyttige ikoner. Filer Fejl i loggen Vigtigt: kig altid log filen igennem efter, at du har kørt et program. Disse er de vigtigste af de filer SAS laver når man kører SAS. - *.SAS filer (SAS program) - *.LOG filer (Log) - *.LST filer (Output) - *.sas7bdat filer (Datasæt) Note (blå): information, der ikke indikerer en fejl, men en oplysning, som man bør læse, fordi den kan være informativ og god til af finde metodefejl. Eksemper: Antal observationer i et data sæt kan være lavere end forventet. Warning (grøn): viser fejl som SAS selv har kunnet rette. Programmet er gennemført med disse fejl, men tjek om dette er gjort ordentligt. Eksempel: stavefejl. Kør programmet Error (rød): Alvorlige fejl, som SAS ikke kunne rette, programmet er stoppet, og man må selv finde fejlen og rette den. Eksempel: glemt semikolon. Vær opmærksom på at røde fejl i et datastep betyder, at der ikke bliver lavet noget nyt datasæt. Funktionstaster Menulinie Kommando Værktøjslinie F8 Run, Submit Submit Mand løber Hvis man kun ønske at køre en del af sit program, kan man markere delen og køre den. Hjælpe funktioner Alle SAS datasæt er gemt i et SAS Library. ♣ Menulinien "Help" ♣ SAS manualen: http://support.sas.com/91doc/docmainpage.jsp ♣ Kommando feltet: skriv f.eks. help freq. Der findes to permanente Library i SAS ved standard opsætning. WORK og SASUSER I WORK gemmes alle de midlertidige SAS datasæt. Alt i WORK slettes ved lukning af SAS. I SASUSER gemmes alle datasæt permanent, dvs. de er der igen når SAS genstartes Importer data - I menulinien vælg filer - Vælg Importer data - Vælg "Delimited File (*.txt) - Klik Next - Browse frem til jeres datasæt - Klik ok - Vælg om I vil gemme i SASUSER eller WORK - Skriv et navn på jeres datasæt under "Member" - Klik next - Browse frem til der hvor I vil gemme indlæsningsprogrammet - Skriv et navn på den lille programstump, som I gerne vil gemme. - Tryk gem - Tryk Finish Nu er datasættet indlæst og der er genereret et lille program, der kan gøre det igen. Opgave a Importer xxx..txt fra t-drevet til WORK biblioteket b Tjek at der ikke er nogen fejl i log filen c Prøv at åbne jeres datasæt igennem explorer vinduet, og luk det igen. (Hjælp: Klik på explorer, vælg libraries, vælg work, klik på datasættet) HUSK AT LUKKE DATASÆTTET IGEN!! SAS Programmering SAS programmering foregår i 2 forskellige trin: DATA trin og procedure (PROC) trin. DATA trin: 1. indlæser data fra fil Procedure trin: 1. Bruger SAS data sæt 2. Producerer den information vi vil have, f.eks. tabeller, statistik, grafer m.v. 2. laver transformationer og tilføjer nye variable 3. laver nyt SAS data sæt, med de nye rettelser. Data trin DATA (work.)test; /*Det nye data sæt hedder test*/ SET test1; /*Indlæser data sættet test1*/ RUN; /*Slutter data trinnet*/ Læser datasæt "test1" ind fra work og gemmer det over i det midlertidige datasæt "test" også i work. - Husk ; efter hver linie. - Det jeg skriver med store bogstaver er ord SAS kender. - Ikke nødvendigt at skrive WORK. - /* starter en kommentar, mens */ slutter en kommentar. Oprettelse af et permanent datasæt. libname us1 "P:\janne\SASkursus"; Tænk på us1 som en forkortelse for stien "P:\janne\SASkursus" DATA us1.test; /*Laver et permanent datasæt.*/ SET test1; /*Indlæser det midlertidige data sæt test1.*/ RUN; /*Slutter data trinnet.*/ Denne lille program stump gemmer altså vores midlertidige datasæt test1 i et permanent datasæt "test", der kan findes i folderen "P:\janne\SASkursus". Indlæsning af et permanent datasæt. libname us1 "P:\ janne\ SASkursus"; Indlæsning af et permanent datasæt. DATA test; /*Laver et midlertidigt datasæt.*/ SET us1.test1; /*Indlæser det permanente data sæt test1.*/ RUN; /*Slutter data trinnet.*/ PAS PÅ MED AT OVERSKRIVE JERES DATASÆT!! Variable Indtastning af datasæt DATA test1; INPUT id alder sex$; variable*/ DATALINES; 1 45 m 2 35 m 3 40 m 4 43 k 5 56 k 6 45 k ; RUN; /*liste over variable, $ efter tekst Opgaver 2 Der er to typer af variable i SAS, numeriske og tekst variable. En typisk tekst variabel er bogstaver, men det kan også være tal. Eksempel: Måned med værdier ’jan’, ’feb’, . . ., ’Dec’. En numerisk variabel er altid tal. Eksempel: alder med værdier 45, 13, . . . , 30. Man kan kun beregne f.eks. middelværdier på numeriske variable. Man benytter decimalpunktum I kan se hvilke variable der er tekst variable og hvilke variable der er nummeriske ved i explorer vinduet at højre klikke på jeres datasæt og vælge view columns. Men husk at lukke det igen! a Indlæs SAS datasættet sundby.sas7bat fra Basalstatistik-folderen på T drevet. b V.h.a. Explorer vinduet undersøges hvilke variable, der er tekst variable og hvilke der er numeriske. Udvælgelse af observationer DATA test; SET test1; IF var1>8; /*Vælger alle dem med var1 større end 8*/ RUN; Indlæser igen test1 og laver et nyt data sæt test, kun med de observationer/personer, der har mere end 8 i var1. DATA test; SET test1; IF var1>8 THEN DELETE; /*sletter dem med var1 > 8*/ RUN; Her gør vi altså det modsatte, vi sletter dem, der har var1 større end 8 i test data sættet. Oversigt over forskellige operatorer Hvis det er en tekst variabel vi laver filter/betingelse på, så skal værdien i plinger; DATA test; SET test1; IF var2 = ’mat’; /*udvælger dem der har var2 = mat*/ RUN; = ˆ= < > <= >= & | ˆ EQ forskellig fra LT GT LE GE IN AND OR NOT Forklaring lig med NE mindre end større end mindre end eller lig større end eller lig tilhører og eller negation Eksempel karakter = 8 karakter NE 8 karakter < 8 karakter > 8 karakter LE 8 karakter GE 8 karakter IN (6, 7, 8) karakter=8 AND fag=’mat’ karakter=8 OR fag=’mat’ NOT(karakter IN (6,7,8)) Oprettelse af variable ved beregning DATA test; SET us1.test1; k = 10 + var1; /*Ny variabel k, der er var1+10 */ m = 10 * var1; /*Ny variabel m, der er var1*10 */ expvar1=exp(var1); /*Ny variabel expvar1, der er evar 1 */ RUN; Oprettelse af nye variable ved gruppering Regneudtryk og funktioner Regneudtryk og funktioner ** * / + EXP(argument) LOG(argument) LOG10(argument) SQRT(argument) ABS(argument) INT(argument) ROUND(argument, afrundingsenhed) Potensopløftning Multiplikation Division Addition Subtraktion Eksponentialfunktionen Naturlig logaritme 10-tals logaritme Kvadratroden Numerisk værdi Den hele del af Afrundet værdi Manglende værdier DATA test; SET test1; IF sp5vgt >= 160 THEN tung = ’ja’; IF sp5vgt < 160 THEN tung= ’nej’; RUN; Manglende værdier af en tekst variabel er angivet ved et blankt felt, mens manglende for en nummerisk er angivet ved et . elle .x Tung har værdien ’ja’ hvis personen har en vægt på 160 eller derover, og ’nej’ hvis vægt er under 160 eller manglende. Manglende . tæller som −∞ så pas på med f.eks. IF alder<40 ... da dem der har manglede alder opfylder det. Skriv istedet IF .<alder<40 THEN... Manglende værdi regner SAS som en værdi på minus uendelig. SAS programstruktur Procedure trin DATA trin: 1. indlæser data fra fil 2. laver transformationer og tilføjer nye variable 3. laver nyt SAS data sæt eller overskriver det gamle. Procedure trin: 1. Bruger SAS data sæt 2. Producerer den information vi vil have, f.eks. tabeller, statistik og grafer. SAS indeholder en lang række procedurer, der er inddelt i moduler efter deres anvendelse Ligesom et data trin altid starter med et DATA, starter procedure trinnet altid med et PROC. PROC CONTENTS PROC procnavn DATA= datanavn; (ordre vedr. udførelsen) RUN; Her gælder følgende: Datanavnet angiver hvilket datasæt proceduren skal arbejde på. Undlades DATA=datanavn benytter proceduren det sidst oprettede SAS-datasæt. Der findes rigtig mange forskellig ordrer til hver procedure. Resulaterne af en procedure kommer i output vinduet, medmindre man har bedt SAS om noget andet. Skal man have oplysninger om antallet af observationer og navnene på de variable, der er i datasættet, kan man bruge PROC CONTENTS. PROC CONTENTS DATA= test; RUN; PROC SORT Denne procedure kan sortere datasættet efter en eller flere variable. PROC SORT DATA= datanavn; BY variabel; RUN; Datasættet datanavn bliver her sorteret efter voksende værdier af variabel, dvs. fra mindst til størst. Visse procedurer og data trin kræver en sortering af data før de kan gennemføres. PROC PRINT PROC PRINT udskriver datasættet, eller måske kun dele af det. PROC PRINT DATA= test; RUN; Udskriver samtlige observationer og samtlige variable til skærmen. PROC PRINT DATA= test; VAR var1 var2; RUN; Udskriver variablene var1 og var2 for samtlige observationer. Eksempel: PROC PRINT PROC PRINT DATA= test; WHERE var1 = 8; VAR var1 var2; RUN; Udskriver variablene var1 og var2 for dem, der har 8 i var1. Rækkefølgen på VAR og WHERE er underordnet. /*sorter datasættet efter det diastolisk blodtryk*/ PROC SORT DATA= test; BY dias; RUN; /*printer det systoliske og det diastoliske blodtryk til output vinduet*/ PROC PRINT DATA= test; VAR dias syst; RUN; PROC MEANS The SAS System 14:31 Saturday, March 17, 2007 1 Proc means bruges når man skal have beregnet summer, gennemsnit, standardafvigelser osv. The MEANS Procedure PROC MEANS DATA= test; VAR hoejde; RUN; N Mean Std Dev Minimum Maximum __________________________________________________________________ 18 174.8888889 6.2955529 163.0000000 189.0000000 __________________________________________________________________ Analysis Variable : hoejd Højde PROC MEANS Man kan specificere præcis hvad det er, der skal udregnes på følgende måde: PROC MEANS DATA= test1 N MEAN p25 p50 p75 SUM; VAR var1; RUN; Her angiver SAS, hvor mange, der har var1 oplyst, middelværdien 25, 50 og 75 percentilerne af var1 samt summen af variablen var1. N NMISS MEAN STD MIN MAX RANGE SUM VAR CSS CV STDERR Antal observationer med ikke manglende værdier Antal observationer med manglende værdier 1 ∑N x =√ i=1 xi Gennemsnit N 1 ∑N 2 s = N−1 i=1 (xi − x) Spredning x(1) Minimum x(N) Maximum x(1) − x(N) Variationsbredde ∑N af observationen i=1 xi Summen ∑ N 1 s2 = N−1 i=1 (xi − x)2 Empirisk varians ∑N 2 i=1 (xi − x) Kvadratafvigelsessummen 100 xs Variations koefficienten √s Empirisk spredning for gennemsnit N Eksempel 2: PROC MEANS The SAS System Man kan også beregne forskellige værdier for undergrupper af data: PROC SORT DATA= test1; BY ryger; RUN; PROC MEANS DATA= test1 N MEAN p50; VAR gendia gensys; BY ryger; RUN; 14:31 Saturday, March 17, 2007 33 Ryger De?=Ja, dagligt The MEANS Procedure Variable N Mean 50th Pctl ______________________________________________ gensys 3 125.6666667 126.6666667 gendia 3 83.1111111 80.0000000 ______________________________________________ Ryger De?=Ja men der er dage hvor jeg ikke ryger Variable N Mean 50th Pctl ______________________________________________ gensys 2 127.6666667 127.6666667 gendia 2 79.6666667 79.6666667 ______________________________________________ Ryger De?=Nej Variable N Mean 50th Pctl ______________________________________________ gensys 13 124.8461538 125.0000000 gendia 77.5641026 13 80.3333333 ______________________________________________ PROC FREQ PROC FREQ bruges til at lave tabeller med. Den kan lave eneller flersidede tabeller. Ensidet tabel. PROC FREQ DATA= test; TABLE sp13; RUN; SAS indlæser test, og tabellerer variablen sp13. The SAS System 09:42 Monday, March 19, 2007 1 The FREQ Procedure I hvilken grad har De haft tillid til, at De har faet den rette sygeplejefaglige behandling? Cumulative Cumulative sp13 Frequency Percent Frequency Percent _____________________________________________________________________________ I høj grad 3 16.67 3 16.67 I nogen grad 11 61.11 14 77.78 I mindre grad 3 16.67 17 94.44 Har ikke faet sygeplejefaglig 1 5.56 18 100.00 behandling PROC FREQ Man kan også liste en hel række af variable man gerne vil have lavet tabeller over. PROC FREQ DATA= test; TABLE var1 var2 var3; RUN; Hvis man vil have lavet flervejs tabeller (krydstabeller), sætter man en stjerne imellem de variable der skal tabelleres mod hinanden. sp14t(Oplevede De, at der var 1-2 sygeplejerser i afdelingen, der havde særligt ansvar for deres ple sp13(I hvilken grad har De haft tillid til, at De har fået den rette sygeplejefaglige beha Frequency Percent Row Pct I høj gr I nogen I mindre Har ikke Total ad grad grad fået beh Ja 2 3 0 1 6 11.11 16.67 0.00 5.56 33.33 33.33 50.00 0.00 16.67 Nej 1 7 3 0 11 5.56 38.89 16.67 0.00 61.11 9.09 63.64 27.27 0.00 Ved ikke 0 1 0 0 1 0.00 5.56 0.00 0.00 5.56 0.00 100.00 0.00 0.00 Total 3 11 3 1 18 16.67 61.11 16.67 5.56 100.00 PROC FREQ DATA= test; TABLE sp14t*sp13/nocol; RUN; Eksempel: PROC FREQ sp14t(Oplevede De, at der var 1-2 sygeplejerser i afdelingen, der havde særligt ansvar for deres pleje?) sp13(I hvilken grad har De haft tillid til, at De har fået den rette sygeplejefaglige behandling?) Der bliver her fast angivet i hver enkelt celle, antal observationer, celle procenter, række procenter samt søjle procenter. Men kan ved enkelte options fjerne nogle af alle disse værdier. PROC FREQ DATA= test; TABLE sp14t*sp13/NOROW NOCOL NOPERCENT; RUN; Frequency|I høj gr|I nogen |I mindre|Har ikke| |ad |grad | grad | fået sy| | | | |geplejef| | | | |aglig be| | | | |handling| ______________________________________________ Ja | 2 | 3 | 0 | 1 | ______________________________________________ Nej | 1 | 7 | 3 | 0 | ______________________________________________ Ved ikke | 0 | 1 | 0 | 0 | ______________________________________________ Total 3 11 3 1 Total 6 11 1 18 Grafik PROC GCHART Proceduren GCHART kaldes på følgende møde. De to mest brugte procedurer til at lave grafik med i SAS er PROC GCHART og PROC GPLOT. Proceduren GCHART kan bruges til at lave histogrammer og lagkager og GPLOT bruges mest til at lave scatter plot, men kan utrolig meget, deriblandt også histogrammer. PROC GCHART DATA=algimin; VBAR sex/DISCRETE; RUN; QUIT; Den variabel vi gerne vil have afsat på af Y-aksen skrives efter VBAR. Options DISCRETE fortæller SAS, at det er en diskret variabel vi vil lave et histogram af. Efter grafik skal der altid skrives QUIT, ellers bliver SAS ved med at køre. Hvis histogrammet i stedet skulle have været liggende, var statement HBAR brugt i stedet. Hvis vi skal sammenligne to forskellige grupper, f.eks. køn. PROC GCHART DATA=algimin; VBAR alder / TYPE=percent G100 GROUP=sex RUN; QUIT; Denne program stump giver os to histogrammer i et. Et for mændene og et for kvinderne. GROUP=sex gør, at der bliver tegnet seperate søjler for hvert køn. TYPE=percent, gør at vi får procenter i stedet for frekvenser. Option G100 bevirker, at summen af søjlerne vil være 100% for hver værdi af GROUP-variablen. Undlades G100 vil summen af alle søjlerne være 100%. PROC GPLOT PROC GPLOT bruges f.eks. til at lave scatter plot med. Dvs. hvis man gerne vil plotte to variable mod hinanden. PROC GPLOT DATA=algimin; PLOT BMI*alder; RUN; QUIT; I PLOT-ordren fortælles hvilke variable, der skal tegnes op mod hinanden. Y-variablen skal stå først. Hvis man gerne vil have delt plottet op på f.eks. sex kan man lave forskelligt symbol alt efter om det er en mand eller kvinde man plotter. PROC GPLOT DATA=algimin; PLOT BMI*alder=sex; RUN; QUIT; Værdier for n: Tallene for 1 til 255 Man kan få mere avancerede plot ved brug af SYMBOL-ordrer, der fortæller hvad der skal ske med punkterne og evt. imellem punkterne (I= står for Interpolation=). Disse ordre indeholder blandt andet beskrivelser af farve C, plotsymboler V, signature L og interpolationsmåder I, som angiver om punkterne skal forbindes og i så fald hvordan. Værdier for C: Almindelige farvenavne på engelsk. Hvilke der kan bruges afhænger af konfigurationen. Maskinen ændrer selv, hvis man bruger nogle ulovlige Værdier for V: PLUS, STAR, DIAMOND, DOT, NONE etc. Bruger man NONE bliver selve punkterne ikke tegnet. Brug symmetriske tegn Værdier for L: Tallene fra 1 til 46 Eksempel Værdier for I NONE punkterne forbindes ikke, JOIN punkterne forbindes med rette linier, SPLINE tegner ’glat’ kurve gennem punkterne, NEEDLE tegner lodret linie ned til x-aksen RL tilpasser bedste rette linie RQ tilpasser bedste andengradspolynomium STEPL tegner trappe funktion, punkterne er til venstre for stregen STEPR tegner trappe funktion, punkterne er til højre for stregen STEPC tegner trappe funktion, punkterne er på midten af stregen SYMBOL1 C=black V=plus L=1 I=RL; PROC GPLOT DATA=algimin; PLOT BMI*alder=1 / FRAME HAXIS=10 TO 70 BY 10 VAXIS=10 TO 60 BY 10; RUN; QUIT; Vi har her lavet et plot af BMI mod alder og sat et + for hver observation og samtidige tegnet den bedste rette linie igennem punkterne. I loggen kommer der til at stå en forskrift for regressions linien. Ordren = 1 i PLOT statement gør, at det er symbolerne fra SYMBOL1 der bliver brugt. SYMBOL1 C=blue V=plus L=1 I=RL; SYMBOL2 C=red I=RQ; PROC GPLOT DATA=algimin; PLOT BMI*alder=1 BMI*alder=2 / FRAME OVERLAY; RUN; QUIT; OVERLAY gør at de to plots bliver tegnet oven i hinanden. Resultater i word ODS RTF FILE= "C:\Janne\projekter\proj1\descp anal.rtf"; SYMBOL2 C=red I=rq; PROC GPLOT DATA=algimin; PLOT BMI*alder=1 BMI*alder=2 /FRAME OVERLAY; RUN; QUIT; ODS RTF CLOSE; Alt hvad der står mellem ODS RTF FILE= og ODS RTF CLOSE; bliver kommer over i word dokumentet. Resultater i word - lidt pænere ODS RTF FILE= "C:\Janne\descp anal.rtf" BODYTITLE STARTPAGE=NO STYLE=journal; ODS NOPROCTITLE; SYMBOL2 C =red I=RQ; PROC GPLOT DATA=algimin; PLOT BMI*alder=1 BMI*alder=2 /FRAME OVERLAY; RUN; QUIT; ODS RTF CLOSE; Boxplot PROC BOXPLOT DATA=a; PLOT alder*sex/ BOXSTYLE=SCHEMATIC; RUN; Histogram med normalfordeling PROC UNIVARIATE DATA=a; VAR alder; HISTOGRAM alder/NORMAL; RUN; Hvis hver datalinie tæller for flere personer PROC UNIVARIATE DATA=a; VAR alder; FREQ antal; HISTOGRAM alder/NORMAL; RUN; Her tæller hver datalinie for "antal" observertioner/personer Hvis hver datalinie tæller for flere personer PROC FREQ DATA= test; TABLE var1 var2 var3; WEIGHT antal; RUN; Her tæller hver datalinie for "antal" observertioner/personer