Web-2015-11-12-Google

Transcription

Web-2015-11-12-Google
Online-Recherche:Web-Recherche
WS2015/2016 5.Veranstaltung–12.November2015
[email protected]
[email protected]
GESIS–Leibniz-InsItutfürSozialwissenschaMen
2
Themenderheu3genVeranstaltung
•  AllgemeinesThema:Ranking
•  RankingimWeb
–  EigenschaMenvonWeb-SeitenundihreAuswirkungenaufdasRanking
–  AuswertenvonVerlinkungenzurUnterstützungdesRankings
3
ÜberblicküberdasThemaRanking
1.  AllgemeineRanking-Prinzipien(letzteWoche)
– 
„200Signals“
2.  BesonderheitenderAuszeichnungssprachen(letzteWoche)
–  Meta-Tags,Header-undLink-Texte
–  SpezielleSuchoperatoren
3.  Link-Popularität(dieseWoche)
4.  DieBedeutungvonSocialMedia-Signalen(nächsteWoche)
4
TermgewichtungimWWW?
•  FrüheSuchmaschinenarbeitenz.B.mitTermgewichtenwie
TF-IDFimWeb,z.B.
–  AltaVista
•  Nachteile:
–  DieseAnsätzesindsehrspamanfällig(„Casino“,„Money“,„Sex“)und
–  dieGrößedesWebisteinProblem,
–  genausowiedasSprachproblem!
•  EsbrauchtealternaIveAnsätzeumdenbesonderen
ProblemenimWebHerrzuwerden!
Mo3va3on
“WhensearchingforinformaIonontheWWW,usersperforma
querytoasearchengine.Theenginereturns,asthequery’s
result,alistofWebsiteswhichusuallyisahugeset.Sothe
rankingofthesewebsitesisveryimportant.Becausemuch
informaIoniscontainedinthelink-structureoftheWWW,
informaIonsuchaswhichpagesarelinkedtootherscanbe
usedtoaugmentsearchalgorithms.”
Quelle:hhp://europa.nvc.cs.vt.edu/~cegyhazy/cs5604/pagerank.ppt
DerPageRank-Algorithmus
ZentralesPapier:
ThePageRankCita3onRanking:Bringing
OrdertotheWeb.
Page,LawrenceandBrin,Sergeyand
Motwani,RajeevandWinograd,Terry
(1999)ThePageRankCita.onRanking:
BringingOrdertotheWeb.Technical
Report.StanfordInfoLab.
hhp://ilpubs.stanford.edu:8090/422/
7
Einschub:Websitevs.Webpage
•  WasistderUnterschiedzwischeneineWebsiteundeiner
Webpage?
•  Webpage:Eineeinzelne(HTML-)SeiteimWeb
z.B.hhp://www.test.de/arIkel2.html
•  Website:EineSammlungvonWebpages(synonym:
Webpräsenz,WebauMrihetc.)z.B.hhp://www.test.de
•  SchwierigeSituaIonimDeutschen:Webseitevs.Website
àWebseite=Webpage!
8
PageRank:DiezentraleIdee(1)
•  JedeWebpagehateineAnzahlanausgehendenLinks
(ForwardLinks,Outlinks)undeineAnzahlaneingehenden
Links(Backlinks,Inlinks).
Webpagev1
Webpagex1
Inlinks
Webpagev1
Webpagew
Outlinks
Webpagex2
9
PageRank:DiezentraleIdee(2)
•  WebpagesunterscheidensichstarkinderAnzahlihrerInlinks.
–  SohatdieWebseitewww.spiegel.de/index.htmlmehrals
8,2MillionenInlinks*,währendvieleandereWebseitennurwenige
Inlinksbesitzen.
–  MeinepersönlicheWebseitehatz.B.<100Inlinks.
•  DieAnnahmeist,dassdieseSeitenmitvielenInlinks
„wichIger“sind,alsdiesemitwenigenInlinks.
–  Oder„populärer“?
–  Oder„einflussreicher“?
–  Oder„interessanter“?
•  DieInterpretaIondesPageRanksistschwierig...
*Quelle:hhp://www.seokicks.de/backlinks/www.spiegel.de
10
PageRank:DiezentraleIdee(3)
•  Weiterhinkönntemandavonausgehen,dassInlinks,dievon
einer“wichIgen”Seitenwiederrummehr“WichIgkeit”
ausdrücken,alsInlinksvon“unwichIgen”Seiten.
•  Verlinktbspw.dieWebseitewww.spiegel.deaufeineandere
Webseite,hatdiesevielleichtnureineneinzigenInlinks,aber
dieseristeinflussreichundwirdggf.auchsehroMgeklickt.
•  Zusammengefasst:EineWebpagehateinenhohenPageRank,
wenndieSummederRankingsderInlinksebenfallshochist.
DiesumfasstdieFälle,dasseineWebpagevieleInlinkshat,als
auchdasssiewenige,aberdafür“wichIge”Inlinksbesitzt.
11
PageRank:EinfacheDefini3on
w
Outlinksv
|Outlinksv|
Inlinksw
EineWebpage
EineMengevonWebpages,aufdievzeigt
DieAnzahlderOutlinksvonv
EineMengevonWebpages,dieaufwzeigen
PageRank(v)
PageRank(w) = ∑
Outlinksv
v∈Inlinksw
•  DieGleichungistrekursiv(ruMsichselberauf),kanniteraIv
gelöstwerden,bissiekonvergiert.
12
EinBeispiel
PR=2
PR=1
PR=1
Hinweis:AlleSeitenstartenmitPR=1
PR=?
PR=4
PR=3
13
hhp://en.wikipedia.org/wiki/PageRank#mediaviewer/File:PageRank-hi-res.png
14
PageRank:ProblemdesRankSink
•  DievorherigeDefinitonhateinProblem:ranksink
•  WennzweiodermehrWebpagesimZirkelaufeinander
zeigen,allerdingszukeineranderen,wirdeineSchleifein
Ganggesetzt.
•  EinhoherRankwirdakkumuliert,allerdingsnieaufandere
Seitenübertragen.
Quelle:hhp://europa.nvc.cs.vt.edu/~cegyhazy/cs5604/pagerank.ppt
15
DasRandomSurfer-Modell
•  Manstellesicheinen(menschlichen)Websurfervor,der
irgendwanngelangweiltistundzubeliebigenanderenSeiten
springt.Z.B.miteinerWahrscheinlickeitvon10%.
•  SokannerniemalsineinerSchleifefeststecken.
Quelle:hhp://europa.nvc.cs.vt.edu/~cegyhazy/cs5604/pagerank.ppt
16
Prak3scheAnwendungdesPageRank
1.  PageRankfüralleWebseitenwirdberechnet.
2.  NutzerstelltAnfrageanWebsuchmaschine.
3.  AufGrundlagederSuchtermewirdzunächsteine
ungeordneteMengevonpotenIellrelevantenWebseiten
zusammengestellt.
4.  AnschließendwirddieMengeanWebseitenineine
geordneteListeüberführt,indemabsteigendnacheinem
ScoresorIertwird,deru.a.aufdemPageRankbasiert.
NatürlichfließenindietatsächlicheBerechnungdesScorenoch
vieleandereFaktorenmitein(siehevorherigeVeranstaltungen).
17
SpammingdesSystems...
•  hhps://www.youtube.com/watch?v=anwy2MPT5RE
18
BekannteSchwächen
•  GoogleBombs
–  UntereinerGoogle-BombeverstehtmaneineManipula3ondes
Google-SuchergebnissesfüreinebesImmteWebseitedurch
vielfachesSetzenvonLinksmiteinemvereinbartenAnkertext.
–  Google-Bombenwerdeneingesetzt,umWebseitenbesImmter
PersonengezieltmitoMdiffamierendenSchlagworteninVerbindung
zubringen.
–  DieersteGoogle-Bombekam1999auf,alsmitdemSuchbegriff„more
evilthansatanhimself“aufdieSeitevonMicrosoMverwiesenwurde.
•  GoogleBowling
–  DaSuchmaschinenversuchen,Manipula3onsversuchezubestrafen,
nutzenmancheFirmendiesaus,umWehbewerbernbewusstim
Rankingzuschaden.
Quelle:hhp://de.wikipedia.org/wiki/Google-Bombe
19
AusnutzungderSchwächen
•  Link-Farmen
–  AlsLinkfarmwirdeineAnsammlungvonWebseitenimWeb
bezeichnet,dieprimärdemZweckdient,möglichstvieleHyperlinks
aufeineandereWebpräsenzzulegen.
–  DieErstellungsolcherLinkfarmendientder
Suchmaschinenop3mierung(SEO)bzw.derManipulaIonvon
Suchmaschinen,d.h.,dieverlinkteWebsitesollfürSuchanfragenauf
einendererstenPlätzederTrefferlistegebrachtwerden.Dabeisind
dieeinzelnenSeiteneinersolchenLinkfarmvielfacheinandersehr
ähnlichoderidenIsch.
•  GoogleselbstbeschreibtseineGegenmaßnahmenz.B.hier:
hhps://support.google.com/webmasters/answer/93713
Quelle:hhp://de.wikipedia.org/wiki/Linkfarm
20
WeitereSchwächen
•  EntscheidendistnichtdasInteressederLeser,sondern
lediglichdasandererWebseitenbetreiber.
•  FinanzkräMigeSeitenbetreiberkönnensichInlinkserkaufen.
Diesführtdazu,dassstahqualitaIvhochwerIgemInhaltoM
diefinanziellenMöglichkeitenüberdieReihenfolgeder
Suchergebnisseentscheiden.
•  WebmastersehenoMimPageRankdaseinzige
BewertungskriteriumfürdenLinktausch.DerInhaltder
verlinktenSeitengerätindenHintergrund.
•  DerPageRankliefertkeinenBeitragzurqualita3ven
EinordnungvonWebsites.
hhp://de.wikipedia.org/wiki/PageRank
21
PageRank:Zusammenfassung
§ 
FürSiealsOnline-Redakteure:
§ 
§ 
§ 
§ 
§ 
Google-Rankingbzw.PageRankisteinRanking-Prinzip,dassSie
hinterfragensollten.
SorIerunginDatenbankenvs.Web-Ranking
PageRankisteinglobalesRanking,dassaufderStrukturdes
WorldWideWebbasiert.
PageRankverwendetInformaIonenüberBacklinks/Inlinks
umdasWebzuordnen.
PageRankverwendeteinsogenanntesRandomSurfer-Modell.
22
Literaturhinweise
• 
• 
• 
• 
• 
• 
• 
• 
• 
• 
• 
• 
Ferber,R.:InformaIonRetrieval.SuchmodelleundData-Mining-Verfahrenfür
TextsammlungenunddasWeb.Heidelberg2003
Erlhofer,S.:Suchmaschinen-OpImierung.4.Aufl.Bonn2008.
Glöggler,M.:SuchmaschinenimInternet.FunkIonsweisen,Ranking,Methoden.2.
Aufl.Berlin2008.
Lehmann,K./Schetsche,M.(Hg.):DieGoogle-GesellschaM.Bielefeld2005
Lewandowski,D.:„SuchmaschinenforschungimKontexteinerzukünMigen
WebwissenschaM“,inScherfer,K.(Hg.):WebwissenschaM-EineEinführung.Münster
2008,S.268-282
Lewandowski,D(Hg.):HandbuchInternet-Suchmaschinen.Heidelberg2009.
Machill,M./Beiler,M.(Hg.):DieMachtderSuchmaschinen.Köln2007.
Wimmeroth,U./Brochhagen,Th.:Google.DirtyTricks.Düsseldorf2003
Meier,K.:„GrundlagenjournalisIscherRechercheimInternet“,inMeier,K.:InternetJournalismus.Konstanz.3.Aufl.2002,S.297-357.
RegionalesRechenzentrumfürNiedersachsen:SuchenundFindenimInternet.
Hannover6,2001
www-SuchseitenderInformaIonswissenschaM
hhp://www.inf-wiss.uni-konstanz.de/suche/sel~tml
hhp://sel~tml.teamone.de/html/kopfdaten/meta.htm
23
Kontakt
•  Dr.PhilippMayr
GESIS-Leibniz-InsItutefortheSocialSciences
UnterSachsenhausen6-8,50667Köln
Tel:+49(0)221/47694-533
[email protected]
•  Dr.PhilippSchaer
GESIS-Leibniz-InsItutefortheSocialSciences
UnterSachsenhausen6-8,50667Köln
Tel:+49(0)221/47694-521
[email protected]
•  hhp://www.schaer.de/teaching/web-recherche-ws-1516