Taller de Cibermetría - Dirección General de Evaluación Institucional
Transcription
Taller de Cibermetría - Dirección General de Evaluación Institucional
Cibermetría Introducción teórico-práctica Isidro F. Aguillo Versión 1.56 (Octubre’09) [email protected] CCHS - CSIC Presentación: Isidro F. Aguillo Puesto actual Formación Laboratorio de Cibermetría Centro de CC. Sociales y Humanas. Consejo Superior de Investigaciones Científicas (CSIC) Licenciado CC. Biológicas (UCM) Máster en Información y Documentación (UC3M) Doctor Honoris Causa (UI) Líneas de trabajo y otros datos Portal de rankings: webometrics.info Proyectos nacionales: QEAVIS (e-humanidades), MAVIR (acceso multilingüe al Web), CARTO (cartografía de I+D), ICYTnet (Bibliotecas Virtuales), Ciencia e Internet (Análisis, descripción y evaluación) Proyectos europeos: WISER (cibermetría), EICSTES (indicadores I+D), PEKING (gestión del conocimiento), IMPACT-INFO2000 (sociedad de la información) Revistas: Editor “Cybermetrics”; Comité asesor “El Profesional de la Información” Premio IWE 1996 Personalidad del año 2 Agenda Definición y objeto de la cibermetría Cibermetría descriptiva El tamaño de Internet Infraestructuras: Ordenadores, servidores y dominios Cibergeografía, Ciberdemografía Webespacio El problema de los gTLD Traductores de IP El Webespacio académico Ficheros ricos y ficheros media Idiomas en la red Internet invisible 3 Agenda (II) Métodos, herramientas y aplicaciones (I) Captura directa: Agentes personales Métodos indirectos Motores de búsqueda: - Características y problemática Multibuscadores Cibermetría de los motores de búsqueda Volcadores, inspectores de enlaces y mapeadores Tamaño y solapamiento Composición y estructura Calidad, actualización y cobertura Recuperación automática inteligente Cibercienciometría Desarrollo de indicadores de I+D en el Web Análisis de enlaces hipertextuales (sitas) y Factor de Impacto Web Co-sitación, redes sociales y teoría del “small world” Bibliometría de revistas electrónicas y depósitos de documentos 4 Agenda (III) Métodos, herramientas y aplicaciones (II) Evaluación cuantitativa de sedes Web Webmetría El modelo Google (PageRank) Calidad de los enlaces, visibilidad e impacto Análisis de las visitas a sedes Web (“Web usage Mining”) Informetría Web data mining Leyes informétricas Ley de Lotka (Zipf) 5 CIBERMETRIA Infraestructuras y Servidores, redes, tráfico Ciberdemografía, cibergeografía usuarios Correo electrónico Mensajería Listas y foros electrónica Mensajería interactiva: chat, videoconferencia Topología de la Web Análisis de objetos/ficheros Indicadores Webometría Análisis de enlaces Web Evolución y dinámica Volumen y composición Web visible Motores de búsqueda Algoritmos Estudios de usuarios Métricas de la arquitectura Usabilidad Calidad Accesibilidad de la información Blogometría / Wikimetría Comunidades online Revistas electrónicas Repositorios Internet invisible e-Bibliometría Bases de datos bibliográficas Análisis de citas Cibermetría Posicionamiento en motores de búsqueda aplicada Webmetría Análisis de ficheros log Minería Web Análisis de texto Comparación/combinación datos Web/no Web e-Cienciometría 6 MODULO 1 Cibermetría Descriptiva Análisis Web Otros temas: Usabilidad Accesibilidad Definición Cibermetría es la disciplina dedicada a la descripción cuantitativa de los contenidos y procesos de comunicación que se producen en el ciberespacio Ciberespacio es el conjunto de contenidos accesibles en formato electrónico. La condición de accesibilidad universal de Internet aconseja utilizar el termino como sinónimo de la Internet de los contenidos, fundamentalmente pero no exclusivamente, el webespacio Puesto que la Cibercienciometría es el sub-campo más desarrollado, por razones prácticas se nombra con el término más general de Cibermetría o el más específico de Webometría 8 Disciplinas cuantitativas informetría bibliometría cienciometría Cibercienciometría webometría cibermetría Adaptado de Björneborn 9 Cibermetría y afines 10 Otras relaciones Política científica Gestión de la investigación Documentación científica Bibliotecas Servicios para Investigación en Economía Sociología de la ciencia aplicada Biblioeconomía y Documentación Historia de la ciencia Cienciometría básica Informetría Ciencias de la vida Webometría Matematicas/Física Otras ciencias/Humanidades www.ulb.ac.be/unica/docs/Sch-com-2004-pres-Glanzel.ppt 11 Contenidos 12 Unidades 13 Internet Invisible 14 Ventajas métricas La presencia en el Web refleja mas y mejor las actividades de la institución o individuo que las publicaciones tradicionales en papel El Web alcanza una mayor audiencia que otros medios tradicionales de comunicación científica. En el entorno académico, profesores, investigadores y estudiantes colocan en la Red material inédito, borradores de trabajos, versiones preliminares de artículos, material para cursos, transparencias para presentaciones o bases de datos Las revistas científicas tienen una distribución restringida La naturaleza hipertextual del Web ofrece la posibilidad de descubrir patrones ocultos entre las diferentes sedes Las sedes académicas enlazan con otras sedes de carácter económico, industrial, cultural, político o social 15 Áreas de aplicación: Informetría Informetría: Estudio matemático de la información, descripción cuantitativa de los patrones de aparición, distribución, frecuencia, gestión, recuperación. Estadística de las unidades básicas de transmisión de información Comportamiento matemático de las unidades en Internet Determinación del tamaño Distribuciones informétricas Dinámica y evolución (páginas Web, mensajes de correo electrónico) Caracterización cuantitativa de herramientas de recuperación Motores de búsqueda 16 Áreas de aplicación: Cienciometría Cienciometría: Estudio cuantitativo y evaluación de los factores, procesos de la actividad investigadora y de los resultados producidos por científicos y tecnólogos Producción y distribución de contenidos científicos Presencia institucional y niveles inferiores Comunicación científica: formal e informal Análisis de citas Citas bibliográficas entre revistas en papel y electrónicas Citas de recursos Web en revistas Análisis de enlaces hipertextuales Desarrollo de indicadores para I+D+i Estudios de caso Cooperación internacional Estudios de género 17 Áreas de aplicación: Bibliometría Bibliometría: Estudio de las características de una colección de documentos de acuerdo al volumen de información que contienen y la descripción cuantitativa de los elementos descriptivos individuales: autor, editor, fuente, características físicas, etc… Bases de datos bibliográficos Internet Invisible Colecciones de documentos Repositorios Revistas electrónicas Formatos ricos: pdf, ps, doc, rtf, ppt, ... 18 Nuevas áreas de aplicación Webometría Topología de redes hipertextuales Redes sociales PageRank, HITS Análisis comparativo de herramientas de búsqueda Cibercienciometría Estudios de correo y foros electrónicos “Big Science” & Grid Cibergeografía y ciberdemografía Nuevas unidades: sedes Web Nuevos indicadores Visibilidad Popularidad 19 Cibergeografía, ciberdemografía Datos y fuentes Internet Geography Project www.zooknic.com Cybergeography www.cybergeography.org Clickz Surveys www.clickz.com/stats Blog www.internetworldstats.com/blog.htm Demography and Geography of the Internet www.sociosite.org/demography.php www.sociosite.net/topics/webgeography.php Internet Demographics Directory internet-demographics.netfirms.com 20 Ciberdemografía www.internetworldstats.com/stats.htm 21 Ciberdemografía (II) 22 Ciberdemografía www.internetworldstats.com/stats7.htm 23 Tamaño de Internet: Infraestructuras Hosts Servidores Lottor (Mundo) www.isc.org/solutions/survey/ RIPE (Europa) www.ripe.net/info/stats/hostcount/ Asia Web Watch (2002) www.ciolek.com/Asia-Web-Watch/main-page.html Netcraft Dominios www.netcraft.com Mundo www.norid.no/domenenavnbaser/domreg.html Domain worldwide www.domainworldwide.com www.verisign.com/Resources/Naming_Services_Resources/Domain_Name_Industry _Brief/ Web Hosting Info www.webhosting.info Alemania (y otros) www.denic.de/en/domains/statistiken España www.nic.es Estudios www.zooknic.com Experimentos Capturando Tablas con Excel Servidores en universidades iberoamericanas 24 Evolución de Internet (Lottor) 25 Lottor y Excel 26 Servidores Web http://news.netcraft.com/archives/web_server_survey.html 27 Zooknic 28 Situación en España https://www.nic.es/estadisticas/article/293 29 Web Hosting Info 30 Contenidos en el Web Webespacio Spireproject Actualidad 10.000 millones (10/02) spireproject.com/art13.htm +120.000 millones Archive Google Cache www.archive.org www.google.com Depósitos Tráfico El 80% de las sesiones de navegación en el Web implican el uso de un motor de búsqueda o un directorio. Yahoo, Live y, muy especialmente, Google son los intermediarios más importantes 31 Wayback Machine 32 El problema de los gTLD gTLD Tradicionales: com, org, net, int Nuevos: biz, info, name, aero, coop, museum, eu, cat De facto: .cx, .tv, .cc, .fm, .nu, .ws Casos especiales: edu Experimentos Google/Yahoo/MSN/Exalead Delimitador site: Problemática con TLD Dominios y países Dominios internacionales Traductores de IP IP Locator 1.41 AW IP Locator 2.0 IP Address Locator Ip2location www.atelierweb.com/iploc www.geobytes.com/IpLocator.htm?GetLocation www.ip2location.com/free.asp 33 Tamaño Google, Enero 2008 34 gTLD de facto Google, Enero 2006 35 Google: Idiomas y países 36 Exalead: Idiomas y países 37 Invocación (mención) 38 gTLD y cTLD especiales Intranet Google, Enero 2006 39 Contribución UE a los gTLD Intranet Google, Enero 2006 40 IP Locator 41 IP Address Locator Tool 42 El Webespacio académico Sedes Dominios institucionales OCLC Web Characterization (1998-2002) http://www.oclc.org/research/projects/archive/wcp/ Sitios y Sedes Netcraft mayo 2009: 240 millones de sitios web Activos (50%) * (5-10 sedes/sitio) ~ 1000 mill. sedes Webespacio académico Subdominios académicos No todos los países 43 Subdominios académicos ac.ae ac.at ac.bd ac.be ac.bw ac.by ac.ci ac.cn ac.cr ac.cy ac.fj ac.gg ac.gs ac.id ac.il ac.im ac.in ac.ir ac.je ac.jp ac.ke ac.kr ac.lk ac.lv ac.ma ac.mu ac.mz ac.nz ac.pa ac.pg ac.pl ac.ru ac.rw ac.se ac.sg ac.sz ac.th ac.tz ac.ug ac.uk ac.uz ac.vn ac.yu ac.za ac.zm ac.zw acad.bg edu.al edu.am edu.ar edu.au edu.az edu.ba edu.bb edu.bh edu.bm edu.bn edu.bo edu.br edu.bs edu.bt edu.by edu.bz edu.ck edu.cn edu.co edu.cu edu.dm edu.do edu.dz edu.ec edu.ee edu.eg edu.gd edu.ge edu.gh edu.gr edu.gs edu.gt edu.gu edu.hk edu.hn edu.hu edu.jm edu.jo edu.kg edu.kh edu.kn edu.kw edu.ky edu.kz edu.lb edu.lc edu.li edu.lv edu.mk edu.mm edu.mn edu.mo edu.mp edu.mt edu.mx edu.my edu.na edu.nf edu.ng edu.ni edu.np edu.om edu.pa edu.pe edu.ph edu.pk edu.pl edu.pr edu.pt edu.py edu.qa edu.ru edu.sa edu.sg edu.sh edu.st edu.sv edu.to edu.tr edu.tt edu.tw edu.ua edu.uy edu.ve edu.vg edu.vn edu.ws edu.ye edu.yu edu.za edu.zm 44 Caracterizando la academia Google, Enero 2006 45 Contexto Web Pública Web Privada Internet Invisible Web Visible Bases de datos Repositorios Revistas electrónicas 46 Bases de datos académicas Web pública Google Scholar Publish or Perish scholar.google.com www.harzing.com/resources.htm#/pop.htm Scirus CiteSeerX Citebase Paracite DBLP Dialnet In-extenso www.scirus.com citeseerx.ist.psu.edu www.citebase.org paracite.eprints.org dblp.uni-trier.de dialnet.unirioja.es www.in-extenso.org Google Scholar Blog weblogs.elearning.ubc.ca/googlescholar 47 Google Scholar 48 Scholar Publicaciones en dominios universitarios (Datos propios, Julio 2006) 49 Scholar (II) Trabajos en dominios universitarios (Enero ‘07) 50 Scholar: Publish or Perish 51 CiteSeerX 52 Subdominios y páginas personales Yahoo Search Comando feature: Errores feature:index feature:homepage (sitios con ~) feature:homepage feature:index Respuestas no subdominios Respuestas duplicadas GoogSpy Términos en dominios/subdominios 53 Subdominios 54 GoogSpy 55 SpyFu 56 Ficheros ricos y ficheros media Ficheros ricos Definición y tipos Tamaño Adobe Acrobat (pdf) y Postscript (ps) MS Office: Word (doc, rtf), Excel (xls), Powerpoint (ppt) Delimitadores: filetype (Google, Live, Exalead, Ask); originurlextension (Yahoo) Ficheros media Definición y tipos FilExt www.filext.com Localización en motores Términos Delimitadores Bases de datos autónomas 57 Google (filetype) 58 Google (filetype) FORMATOS html htm php asp pdf swf doc xls ppt ps rtf eps Oct'02 62.600 55.500 18.700 25.600 7.360 2.500 2.120 502 442 658 342 125 Oct'04 129.000 88.800 78.600 65.700 20.100 4.220 4.530 1.150 901 1.380 689 171 Ago'05 846.000 276.000 89.700 137.000 73.800 16.100 10.600 2.490 3.700 3.520 1.340 784 Oct'07 4.110.000 1.460.000 1.140.000 684.000 190.000 36.100 30.700 13.900 11.800 9.240 6.010 825 Miles de ficheros 59 Bing (filetype) 60 FilExt 61 Imágenes en motores 62 Idiomas en la red Fuentes y estudios Usuarios según idioma Global Reach global-reach.biz/globstats/index.php3 Composición del webespacio Experimentos con buscadores Google Yahoo! Live (MSN) Search Ask (Teoma) Copernic 63 Usuarios según idioma http://www.glreach.com/globstats/index.php3 64 Idiomas (Google) <lr> value Idioma Arabic Chinese (S) Chinese (T) Czech Danish Dutch English Estonian Finnish French German Greek Hebrew Hungarian Código lang_ar lang_zh-CN lang_zh-TW lang_cs lang_da lang_nl lang_en lang_et lang_fi lang_fr lang_de lang_el lang_iw lang_hu Language Language Idioma Icelandic Italian Japanese Korean Latvian Lithuanian Norwegian Portuguese Polish Romanian Russian Spanish Swedish Turkish Código lang_is lang_it lang_ja lang_ko lang_lv lang_lt lang_no lang_pt lang_pl lang_ro lang_ru lang_es lang_sv lang_tr 65 Idiomas Language <lr> value Language Google, Enero 2006 66 Países (Google) Andorra United Arab Emirates Afghanistan Antigua and Barbuda Anguilla Albania Armenia Netherlands Antilles Angola Antarctica Argentina American Samoa Austria Australia Aruba Azerbaijan Bosnia and Herzegowina Barbados Bangladesh Belgium Burkina Faso Bulgaria Bahrain Burundi Benin Bermuda Brunei Darussalam Bolivia Brazil Bahamas AD AE AF AG AI AL AM AN AO AQ AR AS AT AU AW AZ BA BB BD BE BF BG BH BI BJ BM BN BO BR BS Bhutan Bouvet Island Botswana Belarus Belize Canada Cocos (Keeling) Islands Congo, DR Central African Republic Congo Switzerland Cote D'ivoire Cook Islands Chile Cameroon China Colombia Costa Rica Cuba Cape Verde Christmas Island Cyprus Czech Republic Germany Djibouti Denmark Dominica Dominican Republic Algeria Ecuador BT BV BW BY BZ CA CC CD CF CG CH CI CK CL CM CN CO CR CU CV CX CY CZ DE DJ DK DM DO DZ EC Estonia Egypt Western Sahara Eritrea Spain Ethiopia European Union Language Finland Fiji Falkland Islands (Malvinas) Micronesia, FS Language Faroe Islands France France, Metropolitan Gabon United Kingdom Grenada Georgia French Quiana Ghana Gibraltar Greenland Gambia Guinea Guadeloupe Equatorial Guinea Greece South Georgia/South Sandwich I. Guatemala Guam EE EG EH ER ES ET EU FI FJ FK FM FO FR FX GA UK GD GE GF GH GI GL GM GN GP GQ GR GS GT GU Guinea-Bissau Guyana Hong Kong Heard and Mc Donald Islands Honduras Croatia (Hrvatska) Haiti Hungary Indonesia Ireland Israel India British Indian Ocean Terr. Iraq Iran Iceland Italy Jamaica Jordan Japan Kenya Kyrgyzstan Cambodia Kiribati Comoros Saint Kitts and Nevis Korea, DPR Korea, Republic of Kuwait Cayman Islands GW GY HK HM HN HR HT HU ID IE IL IN IO IQ IR IS IT JM JO JP KE KG KH KI KM KN KP KR KW KY Kazakhstan Lao PDR Lebanon Saint Lucia Liechtenstein Sri Lanka Liberia Lesotho Lithuania Luxembourg Latvia Libya Morocco Monaco Moldova Madagascar Marshall Islands Macedonia, FYR Mali Myanmar Mongolia Macau Northern Mariana Islands Martinique Mauritania Montserrat Malta Mauritius Maldives Malawi 67 KZ LA LB LC LI LK LR LS LT LU LV LY MA MC MD MG MH MK ML MM MN MO MP MQ MR MS MT MU MV MW Países II (Google) Mexico Malaysia Mozambique Namibia New Caledonia Niger Norfolk Island Nigeria Nicaragua Netherlands Norway Nepal Nauru Niue New Zealand Oman Panama Peru French Polynesia Papua New Guinea Philippines Pakistan Poland St. Pierre and Miquelon Pitcairn Puerto Rico Palestine Portugal Palau Paraguay MX MY MZ NA NC NE NF NG NI NL NO NP NR NU NZ OM PA PE PF PG PH PK PL PM PN PR PS PT PW PY Qatar Reunion Romania Russian Federation Rwanda Saudi Arabia Solomon Islands Seychelles Sudan Language Sweden Singapore St. Helena Language Slovenia Svalbard and Jan Mayen Is. Slovakia (Slovak Republic) Sierra Leone San Marino Senegal Somalia Suriname Sao Tome and Principe El Salvador Syria Swaziland Turks and Caicos Islands Chad French Southern Territories Togo Thailand Tajikistan QA RE RO RU RW SA SB SC SD SE SG SH SI SJ SK SL SM SN SO SR ST SV SY SZ TC TD TF TG TH TJ Tokelau Turkmenistan Tunisia Tonga East Timor Turkey Trinidad and Tobago Tuvalu Taiwan Tanzania Ukraine Uganda United States Minor Outlying I. United States Uruguay Uzbekistan Holy See (Vatican City State) Saint Vincent and the Grenadines Venezuela Virgin Islands (British) Virgin Islands (U.S.) Vietnam Vanuatu Wallis and Futuna Islands Samoa Yemen Mayotte Yugoslavia South Africa Zambia TK TM TN TO TP TR TT TV TW TZ UA UG UM US UY UZ VA VC VE VG VI VN VU WF WS YE YT YU ZA ZM 68 Listados de universidades Braintrack www.braintrack.com Universities Worldwide univ.cc Webometrics Catalogue www.webometrics.info/university_by_country_select.asp HEIR siu.no/heir General Education Online www.findaschool.org International Colleges and Universities www.4icu.org Portal Tecnociencia www.tecnociencia.es Universia www.universia.es Canadian Universities www.uwaterloo.ca/canu U.S. Universities by State www.utexas.edu/world/univ/state Top American Research Universities thecenter.ufl.edu UK Higher Education Map www.scit.wlv.ac.uk/ukinfo/uk.map.html Times World Universities Rankings www.thes.co.uk/worldrankings German University Ranking www.university-ranking.org Academic Ranking of World Universities ed.sjtu.edu.cn/ranking.htm All Universities around the World www.bulter.nl/universities Ranking of China Universities rank2005.netbig.com Alphabetical Index of Japanese Universities camp.ff.tku.ac.jp/TOOL-BOX/JapanUNIV Language Language 69 Internet invisible Características Tamaño y Calidad Fuentes Complete Planet Internet Invisible Descripción Identificación Institución País/Idioma Temática www.completeplanet.com www.internetinvisible.com Cualitativa Cuantitativa Tamaño Visibilidad Estructura Cobertura Actualización Recuperación 70 Agentes personales (I) Volcadores AaronWebVacuum 2.72 JOC WebSpider 5.5 Teleport Pro 1.60 Leech 4.3 WebCopier 4.6 BlackWidow 5.22 MemoWeb 4.0 Offline Commander 2.1 WebReaper 10 Offline Explorer Pro 5.1 Website Extractor 9.70 WebWhacker 5.0 WebZip 7.1 www.surfwarelabs.com www.jocsoft.com www.tenmax.com www.aeria.com www.maximumsoft.com www.softbytelabs.com www.goto.fr www.zylox.com www.webreaper.net www.metaproducts.com www.asona.org www.bluesquirrel.com www.spidersoft.com 71 Agentes personales (II) Inspectores de enlaces Alert LinkRunner 6.01 HTML Link Validator 4.47 HTML Validator Professional 9.0 Link Checker Pro 3.3 LinkScan Workstation 12 Web Link Validator 5.0 Xenu's Link Sleuth 1.3 www.alertbookmarks.com/lr www.lithopssoft.com www.htmlvalidator.com www.link-checker-pro.com www.elsop.com www.relsoftware.com/wlv home.snafu.de/tilman/xenulink.html 72 Agentes personales (III) Extractores HTML WebData Extractor 7.2 www.webextractor.com Experimentos Volcado de sede con el volcador Teleport Pro Mapeado de la sede volcada con Xenu Mapeado directo de la sede con Xenu Inspección de links Inspección de links Tamaño de la sede según los motores de búsqueda Google, Yahoo, Exalead, Ask, Gigablast 73 WebDataExtractor 74 Volcado, inspección y mapeado 75 Cibermetria de motores de búsqueda Motores de búsqueda: Características y problemática 6? grandes motores “distintos” Google Yahoo Search Bing (ex-Live, ex MSN Search) Ask (ex-Teoma) Exalead Wisenut Gigablast Alexa Estudios sobre motores Search Engine Showdown searchengineshowdown.com Search Engine Watch searchenginewatch.com 76 ¿Sólo siete (+uno)? 2003 Base de datos Sede GOOGLE NETSCAPE YAHOO ALTAVISTA ALLTHEWEB LYCOS IWON HOTBOT MSN SEARCH TEOMA ASK JEEVES ALEXA GOOGLE ALTAVISTA FAST GOOGLE INKTOMI 2004-2005 Base de datos Sede GOOGLE NETSCAPE GOOGLE YAHOO ALTAVISTA YAHOO ALLTHEWEB LYCOS TEOMA IWON GOOGLE WISENUT WISENUT MSN SEARCHMSN SEARCH TEOMA TEOMA ASK JEEVES ALEXA GOOGLE/MSN SEARCH A9 EXALEAD EXALEAD WISENUT WISENUT GIGABLAST GIGABLAST GIGABLAST GIGABLAST TEOMA GOOGLE 2006-2007 Base de datos Sede GOOGLE NETSCAPE YAHOO ALTAVISTA ALLTHEWEB LYCOS IWON HOTBOT LIVE LIVE ASK ASK ALEXA A9 EXALEAD WISENUT GIGABLAST HEREUARE ALEXA LIVE EXALEAD WISENUT GOOGLE YAHOO ASK GIGABLAST 77 Cibermetria de motores de búsqueda GOOGLE YAHOO BING (LIVE) EXALEAD ASK GIGABLAST site:xx NO site:xx site:xx site:xx site:xx site:aa.xx NO 1 site:aa.xx site:aa.xx site:aa.xx site:aa.xx directorio site:aa.xx/bb (inurl:aa.xx/bb) site:aa.xx/bb site:aa.xx/bb NO palabra url inurl:xx inurl:xx NO NO inurl:xx url:xx inurl:xx inurl:xx link:aa.xx/b.htm NO NO link:www.aa.xx (NO) (NO) NO (linkdomain:aa.xx) NO link:aaa.xx NO NO tipo fichero filetype:yy originurlextension:yy filetype:yy filetype:yy filetype:yy filetype:yy idioma Avanzada Avanzada Avanzada Avanzada Avanzada NO país Avanzada Avanzada (Avanzada) Avanzada Avanzada NO TLD dominio enlace enlace dominio 78 Delimitadores (I) MOTORES DE BUSQUEDA GOOGLE site:es MSN SEARCH site:es YAHOO SEARCH site:es site:es ASK +inurl:es EXALEAD site:es GIGABLAST site:es DOMINIO AGO'05 AGO'06 11.500.000 138.000.000 18.137.099 16.710.809 117.000.000 70.400.000 49.130.000 32.150.000 3.160.589 10.823.751 1.288.876 MOTORES DE BUSQUEDA GOOGLE site:csic.es MSN SEARCH site:csic.es YAHOO SEARCH site:csic.es site:csic.es ASK +inurl:csic.es EXALEAD site:csic.es GIGABLAST site:csic.es SUBDOMINIO / SITIO AGO'05 AGO'06 346.000 3.320.000 site:www.cindoc.csic.es 117.099 153.363 site:www.cindoc.csic.es 199.000 272.000 site:www.cindoc.csic.es site:www.cindoc.csic.es 256.100 129.500 +inurl:www.cindoc.csic.es 19.978 46.150 site:www.cindoc.csic.es 15.916 13.764 site:www.cindoc.csic.es AGO'05 AGO'06 4.590 21.700 2.647 2.174 2.430 3.930 3.270 3.520 901 500 1.243 455 79 Google Data Centers http://www.vaughns-1-pagers.com/internet/google-data-centers.htm 80 http://www.webrankinfo.com/english/tools/google-data-centers.php 81 Delimitadores (II) MOTORES DE BUSQUEDA GOOGLE MSN SEARCH ASK EXALEAD SUBDIRECTORIO AGO'05 AGO'06 site:www.csic.es/cbic site:www.csic.es/cbic inurl:www.csic.es/cbic site:www.csic.es/cbic AGO'05 AGO'06 8.050 29.700 site:www.cindoc.csic.es/cybermetrics 1.926 2.228 site:www.cindoc.csic.es/cybermetrics 3.650 2.290 inurl:www.cindoc.csic.es/cybermetrics 619 914 site:www.cindoc.csic.es/cybermetrics MOTORES DE BUSQUEDA GOOGLE MSN SEARCH YAHOO SEARCH ASK EXALEAD GIGABLAST 249 643 1.890 217 9.540 342 2.290 183 PALABRA EN URL AGO'05 AGO'06 inurl:cybermetrics inurl:cybermetrics inurl:cybermetrics inurl:cybermetrics inurl:cybermetrics suburl:cybermetrics 702 14.700 0 0 1.920 3.620 2.050 1.250 977 536 496 82 Delimitadores (III) MOTORES DE ENLACE A DOMINIO / SITIO AGO'05 AGO'06 BUSQUEDA MSN SEARCH linkdomain:csic.es 205.127 229.310 YAHOO SEARCH linkdomain:csic.es 152.000 245.000 EXALEAD link:csic.es 26.637 24.941 AGO'05 AGO'06 MSN SEARCH linkdomain:cindoc.csic.es YAHOO SEARCH linkdomain:cindoc.csic.es EXALEAD link:cindoc.csic.es 36.608 19.000 2.133 45.184 26.400 2.785 AGO'05 AGO'06 MSN SEARCH linkdomain:www.cindoc.csic.es YAHOO SEARCH linkdomain:www.cindoc.csic.es EXALEAD link:www.cindoc.csic.es 9.460 12.700 1.448 9.840 15.300 2.016 83 Delimitadores (IV) MOTORES DE ENLACE A SECUENCIA DE CARACTERES AGO'05 AGO'06 BUSQUEDA GOOGLE link:www.csic.es/cbic 7 639 link:www.csic.es/cbic/cbic.htm MSN SEARCH link:www.csic.es/cbic 15 16 link:www.csic.es/cbic/cbic.htm YAHOO SEARCH link:http://www.csic.es/cbic 44 69 link:http://www.csic.es/cbic/cbic.htm EXALEAD link:www.csic.es/cbic/cbic.htm GIGABLAST link:www.csic.es/cbic/cbic.htm AGO'05 AGO'06 288 3.015 11500 553 429 639 2.666 3130 783 221 84 Delimitadores (V) MOTORES DE BUSQUEDA GOOGLE MSN SEARCH YAHOO SEARCH ASK EXALEAD MOTORES DE BUSQUEDA GOOGLE MSN SEARCH YAHOO SEARCH ASK EXALEAD PAISES AGO'05 formulario (España) site:com 6.550.000 loc:es site:com 50.797.387 formulario (España) site:com 140.000.000 sedes nacionales formulario (España) site:com IDIOMAS AGO'05 AGO'06 72.100.000 41.904.669 90.700.000 32.560.000 15.902.881 AGO'06 formulario (español) site:com 18.000.000 163.000.000 language:es site:com 114.474.312 117.455.638 formulario (español) site:com 224.000.000 133.000.000 lang:ES site:com 114.330.000 58.020.000 language:es site:com 12.333.552 31.087.150 85 Delimitadores (VI) MOTORES DE BUSQUEDA GOOGLE MSN SEARCH YAHOO SEARCH EXALEAD GIGABLAST TIPO DE FICHERO AGO'05 filetype:pdf site:com filetype:pdf site:com originurlextension:pdf site:com filetype:pdf site:com type:pdf site:com AGO'05 GOOGLE MSN SEARCH YAHOO SEARCH EXALEAD GIGABLAST filetype:doc site:csic.es filetype:doc site:csic.es originurlextension:doc site:csic.es filetype:doc site:csic.es type:doc site:csic.es AGO'06 17.600.000 98.900.000 74.963.752 60.397.991 72.600.000 69.200.000 4.082.595 8.115.109 133.271 4.060 264 2.690 317 109 AGO'06 32.100 185 2.530 471 195 86 Siguiendo a Notess Instalación de Copernico 5.2 Capacidad de exportación a Excel Experimentos Cobertura Tamaño (Copernic) Solapamiento (Copernic) Búsqueda de términos (varios motores) Búsquedas delimitadas (cada motores) Teoría del máximo 300 primeros resultados Calidad de los enlaces (Copernic) Porcentaje de enlaces muertos (un único motor seleccionado) 87 Copernic 88 Visualización Relaciones “ocultas” TouchGraph Google www.touchgraph.com/TGGoogleBrowser.html Instalación previa del Java JRE 1.3+ Prácticas con un nodo Prácticas con más de un nodo Kartoo Grokker Mooter Ujiko www.kartoo.com www.grokker.com www.mooter.com www.ujiko.com 89 TouchGraph 90 Kartoo 91 Metabuscadores Primera generación Vivisimo ZapMeta Mooter iBoogie Infonetware MetaEureka Surfwax Info www.vivisimo.com www.zapmeta.com www.mooter.com www.iboogie.tv www.infonetware.com www.metaeureka.com www.surfwax.com www.info.com Segunda generación Copernico (5.2/6.1) www.copernic.com 92 Límites de los Metabuscadores Resultados proporcionados por buscadores y metabuscadores (Octubre scientometrics ornithology "Albert Einstein" Términos de búsqueda: ALLTHEWEB 6.718 258.498 1.108.420 GOOGLE 8.260 112.000 554.000 Buscadores WISENUT 2.932 90.608 565.892 ALTAVISTA 2.522 50.845 452.982 TEOMA 2.087 42.290 233.850 GIMENEI 73 70 71 ICYSPICY 33 57 55 METAEUREKA 42 46 56 Metabuscadores EZ2WWW 395 339 302 IBOOGIE 221 238 236 VIVISIMO 307 466 220 FUZZLE 1.050 1.057 1.016 2002) God 39.421.287 36.800.000 13.475.757 12.488.621 7.535.000 82 72 73 335 299 454 999 93 Metabuscadores 94 Recuperación automática inteligente Copernic 6.1 Pro www.copernic.com Indización Asignación automática de idiomas Filtrado por región y dominio WebQL 4.2 Screen Scraper 4.5 Web Content Extractor 3.1 Brown Recluse 1.58 WebAnalyst/PolyAnalyst 6.0 Anthracite (Mac) 1.7 www.ql2.com www.screen-scraper.com www.newprosoft.com softbytelabs.com www.megaputer.com www.metafy.com 95 Copernic 96 WebQL 97 Calidad, visibilidad e impacto Evaluación cuantitativa de sedes Web El modelo Google Instalación de la ToolBar (toolbar.google.com) Page Rank Escala logarítmica rankwhere.com/google-page-rank.php www.rustybrick.com/pagerank-prediction.php Componentes: visibilidad + peso Visibilidad Tipos de enlaces: inlinks, outlinks, self-links, back-links Cálculo mediante el uso de motores de búsqueda Impacto Web (WebIF) Calidad de los enlaces: Inspectores de enlaces 98 Google Toolbar 99 RankWhere 100 PageRank Prediction 101 urltrends 102 Nutch search.isc.swlabs.org/en 103 Popularidad Número de visitas Dificil de conseguir en estudios amplios comparativos Posición relativa Popularidad según Alexa Sólo dominios Amplia cobertura mundial Algunos valores “absolutos” Evolución temporal Sesgos geográficos (+ Asia) Snapshot Solo USA!!! Ranking.com Traffic Estimate Popularidad según Netcraft Sedes y variantes Cobertura más restringida No comparables www.alexa.com snapshot.compete.com www.ranking.com www.trafficestimate.com toolbar.netcraft.com/site_report 104 Alexa 105 Limitaciones de Alexa 106 Desigualdades en Alexa Posición % VISITAS Top 3 23 Top 500 45 Número 10 5 Número 100 0,1 Número 1.000 0,06% Número 10.000 0,02% 107 Snapshot 108 109 110 111 Trabajando con enlaces Visibilidad Inlinks (enlaces recibidos) Outlinks (enlaces emitidos)=Luminosidad Inspectores de enlaces Bing: linkfromdomain: Yahoo: linkdomain: +site: Selflinks (auto-enlaces) Impacto Web Definición del WebIF Yahoo: linkdomain: -site: Exalead: link: -site: Cálculo=Visibilidad/tamaño Calidad Inspectores de enlaces 112 Terminología básica A B E G C D F B has an outlink to C : ~ reference B has an inlink from A : ~ citation B has a selflink : ~ self-citation E and F are reciprocally linked A is transitively linked with H via B-D A has a transversal link to G : short cut H co-links C and D are co-linked from B, i.e. shared inlinks: co-citation B and E are co-linking to D, i.e. shared outlinks: bibliog.coupling 113 Cibercienciometria Desarrollo de indicadores de I+D en el Web Unidades Modelos Indicadores Co-sitación, redes sociales y teoría del “small world” sede institucional Small World vip.db.dk/lb/phd/phd-presentation.ppt Bibliometría de revistas-e y depósitos de documentos CiteSeerX CiteBase Google Scholar Arxiv Scirus DBLP citeseerx.ist.psu.edu www.citebase.org/search scholar.google.com arxiv.org www.scirus.com dblp.uni-trier.de 114 Indicadores Web 115 Indicadores (I) 116 Indicadores (II) 117 Indicadores (III) 118 Indicadores (IV) 119 Indicadores (V) 120 Obtención de indicadores Experimentos Codificación Institucional Temática (UNESCO) Geográfica (NUTS) Cálculo de indicadores Visibilidad (sitas) Visibilidad de los ficheros ricos Visibilidad de artículos en depósitos Visibilidad de revistas electrónicas Impacto (WebIF) Diversidad Co-citación 121 Indicadores combinados Factor de Impacto Web (WebIF) Visibilidad (sitas)/ Tamaño páginas Webometrics (Academic) Rank Tamaño Páginas (motores) Ficheros (motores) Ficheros ricos: pdf, ppt, doc, ps Visibilidad Enlaces externos recibidos (motores) Artículos Google Scholar Ratio 1:1 WR = 2*S+1*R+1*Sc + 4*V 122 www.webometrics.info 123 Tamaño (número de páginas) 124 Co-citación 125 Ejemplo 126 Ejemplo (II) 127 Otros rankings http://vcmike.blogspot.com/2006/01/ranking-colleges-using-google-and-oss.html 128 Otros rankings: G-factor www.universitymetrics.com/g-factor 129 Related (I) 130 Related (II) 131 Repositorios Una (green road) de las iniciativas “Open Access” Tipología Personales Institucionales Temáticos (verticales) Ventajas Depósitos de artículos científicos de acceso gratuito, inmediato, permanente, a texto completo a través de la web Pero también: Pre-prints, libros, actas de congresos, ficheros multimedia, material docente, divulgación, software, datos en bruto, .. Rapidez en la difusión, mayor visibilidad, amplia utilización y mejores posibilidades de cita Métrica de los repositorios Cita Uso 132 Recursos Directory of Open Access Repositories Registry of Open Access Repositories Arxiv eprintWeb eprintweb.org/S/ Digital Bibliography and Library Project RWTH Aachen DBL Browser Research Papers in Economics IDEAS CiteSeer www.opendoar.org archives.eprints.org arxiv.org dblp.uni-trier.de sunsite.informatik.rwth-aachen.de/dblp/db dbis.uni-trier.de/DBL-Browser repec.org ideas.repec.org citeseer.ist.psu.edu MIT citeseer.csail.mit.edu ETH Zurich UN Singapore sherry.ifi.unizh.ch citeseer.comp.nus.edu.sg/cs Cognitive Sciences Eprint Archive Eprints for LIS Citebase cogprints.org eprints.rclis.org www.citebase.org 133 RePEc 134 OpenDOAR 135 E-LIS 136 Arxiv/eprintweb 137 DBLBrowser 138 Proyecto MESUR mesur.lanl.gov/JCDL07poster_bollen.pdf 139 MODULO 2 Cibermetría Aplicada Posicionamiento en motores Cibermetría aplicada No sólo hay que publicar en la Web, sino lograr visibilidad En el 80% de las sesiones Web se utilizan motores de búsqueda Lograr un gran número de visitas (audiencia real cercana a la potencial) Recibir enlaces externos Estar presente en directorios y portales El posicionamiento es clave para incrementar la visibilidad La calidad influye en la obtención de una buena posición, pero también ... El volumen de información La estructura hipertextual La anotación de los contenidos 141 Posicionamiento Medidas de presencia Medidas de visibilidad Indización en directorios Páginas realmente indizadas por el motor/Páginas totales Page Rank Prominencia por términos Medidas de uso y consumo Popularidad • • Absoluta: Número de visitas Relativa: Ranking Alexa Consumo • • • Número de ficheros volcados Tiempo medio de visita Términos de referencia más frecuentes 142 PageRank Google Barra (Toolbar) de Google: Valores enteros entre 0 y 10 143 PageRank (Posiciones) 144 Visibilidad MSN Search 145 Problemas El diseño es irrelevante e incluso puede ser contraproducente Internet invisible Las bases de datos y muchas páginas dinámicas no son indizadas por los motores de búsqueda Link quality Pocos contenidos indizables en la página principal Animaciones Flash o programas Java que impiden la navegación de los robots Es necesario un exigente mantenimiento y actualización de los enlaces externos o internos Ficheros ricos Los ficheros documentales son prácticos para la distribución de información de valor añadido • Formatos pdf, ppt, doc, ps 146 Herramientas Webmasters World tools.webmastersworld.org SEO Encyclopedia Webmasters Tools SEO Online PageStrength Data Centers Tool SEO Tools SEO Web Directory SEO Company SEO ToolSet www.seopedia.info tools.devshed.com www.seoonline.info www.seomoz.org/tools/page-strength.php www.seocritique.com/datacentertool www.seochat.com/seo-tools www.seowebdirectory.com/SEO_Tools www.seocompany.ca/tool/seo-tools.html www.webconfs.com 147 148 149 Estimación de criterios en Google CRITERIOS DE POSICIONAMIENTO (GOOGLE ¿?) FILTRADO LINGÜÍSTICO (idioma del interfaz) HIPERTEXTUALES (enlaces) SEMANTICOS (términos) Frecuencia Página Web Número de enlaces Texto del ancla 16% externos <TITLE> PageRank URL Visible <Hn> Peso relativo de las 50% páginas que los Texto Posición originan <500 Kb 33% <META> <IMG ALT> Densidad Invisible Enlaces Frecuencia de propios <A> enlaces rotos Popularidad relativa (visitas interceptadas por el buscador) Frecuencia de actualización o Actualidad 150 Comentarios Estructura hipertextual Frecuencia de aparición de los términos de búsqueda Posición relativa de los mismos Título y URL Metadatos Encabezamientos Etiquetas ALT y anclajes externos Periodicidad en la actualización Madurez: Profundidad de las sedes Visibilidad: PageRank Vecindario: Enlaces internos y externos Edad del documento (contenidos nuevos) Popularidad: Visitas a la página Aspectos locales (geográficos, lingüísticos) 151 Presencia de términos en la URL Muy relevante Preferiblemente en el dominio o subdominio Recomendable hasta 30 caracteres El orden es importante http://mejor.bueno.xx/aceptable Palabras completas, no truncadas Términos independientes/frases (guión/guión bajo) Universidad-Complutense= +Universidad +Complutense Universidad_Complutense= “Universidad Complutense” 152 Agapea 153 Presencia de términos en el Título Muy relevante Contenidos de la etiqueta <TITLE>!!! Palabras clave, no título La posición es importante: cuidar las primeras palabras Frase larga, sin palabras vacías (~70 caracteres) No repetir términos, opción bilingüe Identificación institucional, localización geográfica También considerados los contenidos en las etiquetas <Hn> El encabezamiento marca el título percibido <H1> Derivar palabras genéricas: “Hola”, “Bienvenidos”, “Página de” a niveles inferiores <H2> ó <H3> 154 Términos en Título 155 Metaetiquetas Han perdido peso Description Keywords Hasta 155 caracteres Etiqueta repetible para versiones en otros idiomas La posición es importante: cuidar las primeras palabras No repetir palabras Hasta 20 términos Los términos DEBEN aparecer también el texto Etiqueta repetible para versiones en otros idiomas La posición es importante: cuidar las primeras palabras No repetir términos Descripción pre-catalográfica Utilizar otras etiquetas: Modelo Dublin Core (15 repetibles) 156 Buscando términos 157 Generando etiquetas META Meta Builder 2 vancouver-webpages.com/META/mk-metas.html Meta Tags Generator www.meta-tags.us MetaTags Generator tools.webmastersworld.org/MetatagsGenerator.php Meta Tag Generator www.invision-graphics.com/meta-tag-generator.html Meta Tag Generator www.submitcorner.com/Tools/Meta DC-Dot www.ukoln.ac.uk/metadata/dcdot/ 158 Palabras clave en el texto Seleccionar correctamente Densidad Estudiar sinonimia, variantes, términos similares en otros idiomas Analizar consumo en motores Total: Hasta 25% Individual: Hasta 5% Posición Etiquetas de encabezamiento <Hn> Primeros párrafos Etiquetas modificadoras de fuente Negrita <B><strong>; Itálica <I>; Font size Promover la adyacencia de términos (en su caso) 159 Biology, no Biological Sciences 160 Adwords Keyword Tool https://adwords.google.com/select/KeywordToolExternal 161 http://www.google.com/insights/search/# 162 Más sobre palabras clave Texto alternativo ALT Muy importante Utilizado para semantizar imágenes, gráficos y banners Tratamiento específico similar al título Hasta 250 caracteres Texto en anclaje de enlaces Utilizar palabras clave Muy importante en páginas que nos enlazan Relevante también en los enlaces de navegación internos 163 Google-boombing 164 Google Trends 165 Google Labs 166 Enlaces a páginas externas Densidad de enlaces Media de enlaces/página (incl. Internos) ~ 20 Estructurar listados de recursos en directorios jerarquizados Cada categoría, una o más páginas Páginas objetivo Enlazar a buenas páginas Página principal (si es el caso) Páginas con alto PR Páginas actualizadas Nacional>.edu>.org>.info>.com Comprobar con frecuencia que los enlaces estén activos Evitar enlaces a granjas de enlaces Cuidar el texto de enlace (evitar “aquí”, “página”) 167 Características de las sedes Dominio Propio Subdominio: Heredar PR de sede madre No cambiar el dominio!!! Sedes medianas o grandes Preferiblemente grandes Actualización Frecuente Evitar acrónimos, proporcionar contenido Nacional, .org, .info, .name frente a .com Incrementar número de páginas (mantener tasa nuevas/viejas) Promover enlaces Promover visitas Mantener estadísticas 168 Características de las páginas Tamaño Pequeñas o medianas <100 k Sedes medianas o grandes Actualización Frecuente, pero no tanto Cambiar contenidos, no dirección Pero 40-50 k puede ser mucho volumen de texto Estructurar correctamente los grupos de páginas mediante enlaces consecutivos (anterior-siguiente) Reducir al máximo las restructuraciones Versiones En páginas diferentes En otros idiomas En otros formatos (pdf, doc, ps, ppt, ...) 169 Barreras a los robots Enlaces ocultos, incompletos o no semantizados Gráficos y Banners de entrada sin enlace en modo texto Javascripts en menús de navegación Con enlaces ocultos Con enlaces relativos, incompletos (sin declaración de URL Base) Frames (pero NO siempre!!) Páginas huérfanas Evitar re-direccionamientos y alias Especialmente ficheros Flash Importante también la presencia de texto ALT Etiquetas de refresco Granjas de sedes (sede.es; sede.com; sede.org) Páginas dinámicas Reducir longitud y complejidad de las URLS: Semantizarlas 170 Robot-friendly Fichero robots.txt Mapa del sitio (html y xml) Enlaces de navegación internos Los justos y necesarios Alta en referentes No abusar del no index En los propios motores (no muy importante, solo acelera la indización) En directorios (En Yahoo incrementa la visibilidad) En supersitios (truco: Wikipedia) Combatir la invisibilidad Páginas estáticas Submenús de apoyo 171 Internet “visible” 172 Tácticas piratas (a evitar) Textos invisibles Enlaces en píxeles Granjas de enlaces Textos duplicados Cloaking Compra de enlaces Compra de visitas Páginas diferentes para el motor que para el usuario Mirrors piratas 173 Herramientas: Densidad de palabras Site Content Analyzer 3 www.sitecontentanalyzer.com Good Keywords 3.0 www.goodkeywords.com Keyword Density www.keyworddensity.com Keyw. Dens. & Prominence 2.5 www.ranks.nl/tools/spider.html Keyword Density Analyzer tool.motoricerca.info/keyword-density.phtml KDAnalyzer Version 2.0 www.webjectives.com/keyword.htm Google Adwords adwords.google.com/select/KeywordSandbox Keyword Investigator www.keywordster.com/keyword-investigator.htm GRKda 2.2 www.grsoftware.net/search_engines/software/grkda.html 174 Keyword Density & Prominence 175 Herramientas: Posición Accurate Monitor 2.7 Advanced Web Ranking 6.5 AgentWebRanking Pro 2.6 IBP 10.4 Dynamic Web Ranking 8.0 Link Popularity Analysis 2.0 Link Popularity Check 3.0 Link Survey 1.6 Trellian SEO Toolkit 3.0 Web CEO 8.0 www.cleverstat.com www.advancedwebranking.com www.agentwebranking.com www.axandra.com www.dynamicwebrank.com www.link-popularity-analysis.com www.checkyourlinkpopularity.com www.antssoft.com www.trellian.com/seotoolkit www.webceo.com 176 WebPosition 177 Advanced Web Ranking 178 Calidad: Duplicados, enlaces rotos 179 Evolución y persistencia Volatilidad Persistencia Los cambios en las páginas web suelen ser menores o cosméticos La frecuencia de cambio varía según los dominios La magnitud del cambio depende más del tamaño Las páginas grandes cambian más y más frecuentemente research.microsoft.com/research/sv/sv-pubs/p97-fetterly/p97-fetterly.pdf 180 Más información: Blogs OjoBuscador Abel Gonzalez Marketing.es Posicionamiento en buscadores Google Web Posizionamendua Search Engine News MSN´s Search Weblog Yahoo Search Blog Search Engine Marketing Weblog Batelle’s Searchblog SE Showdown Blog Google Blog Matt Cutts Blog www.ojobuscador.com www.abelgonzalez.com/blog www.marketing.es bibo.bitacoras.com euskal-seo.blogspot.com www.prweaver.com/blog blogs.msdn.com/livesearch www.ysearchblog.com sem.weblogsinc.com battellemedia.com www.searchengineshowdown.com/blog googleblog.blogspot.com www.mattcutts.com/blog 181 ojobuscador 182 Más información: Empresas LFChannel ITNet Altas Buscadores Ferca Network T20 Media NTBuscadores Azalpen Serprimeros SEOsolución prs-marketing Atraczion Lucernario 24/7 Search Tanta Tecnología y Comunicación ConsulData ZentoMedia Websdirect De los primeros Davilac www.lfchannel.com www.grupoitnet.com www.altas-buscadores.com www.ferca.com www.t2o.es www.ntbuscadores.es www.azalpen.com www.serprimeros.com www.seolucion.com www.prs-marketing.com www.atraczion.com www.lucernario.com www.247search.com www.tantacom.com www.consuldata.net www.zentomedia.com www.websdirect.net www.delosprimeros.com www.davilac.net 183 MODULO 3 Minería de datos Web Análisis de ficheros de visitas Webmetria (Web Usage Mining) Definiciones Data mining: Extracción de conocimiento de las bases de datos Web Mining: Recolección y análisis de los patrones de visita de una sede Web Objetivos: Aspectos a explorar No es buscar o recuperar información de dicha sede Asociación Clasificación y agrupación (clustering) Patrones transversales Patrones sequenciales Similaridades Análisis de las visitas a sedes Web Ficheros log: Definición y estructura Programas para análisis de logs Prácticas con WebTrends Analysis Suite (www.netiq.com) 185 Taxonomía de la Minería Web Minería Web Minería de contenidos Web Minería basada en agentes Motores de búsqueda Metabuscadores Agentes personales Minería del uso del Web Minería de Bases de datos Identificación Descripción Herramientas de análisis Internet invisible 186 Ficheros log (bitácora) Fichero que recopila automáticamente todos los datos sobre las visitas que reciben las páginas de una sede Web Dirección IP del visitante URL visitadas Hora de la visita Tiempo dedicado a la visita URL desde la que se accedió Apache web log Tipo de petición Tipo de respuesta Tamaño de la respuesta (bytes) Navegador usado etc… 205.188.209.10 - - [29/Mar/2002:03:58:06 -0800] "GET /~sophal/whole5.gif HTTP/1.0" 200 9609 "http://www.csua.berkeley.edu/~sophal/whole.html" "Mozilla/4.0 (compatible; MSIE 5.0; AOL 6.0; Windows 98; DigExt)" 216.35.116.26 - - [29/Mar/2002:03:59:40 -0800] "GET /~alexlam/resume.html HTTP/1.0" 200 2674 "-" "Mozilla/5.0 (Slurp/cat; [email protected]; http://www.inktomi.com/slurp.html)“ 202.155.20.142 - - [29/Mar/2002:03:00:14 -0800] "GET /~tahir/indextop.html HTTP/1.1" 200 3510 "http://www.csua.berkeley.edu/~tahir/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)“ 187 Utilidades Preguntas a responder ¿Como se ha utilizado la información? ¿Con que frecuencia? ¿Que es lo más y lo menos popular (visitado)? ¿Por donde entran los visitantes?. ¿Por donde salen? ¿Donde se entretienen más? ¿Cuanto tiempo dedican? ¿Que rutas de visita son las más utilizadas? ¿Quienes son los visitantes? ¿De donde vienen? ¿Como han llegado? 188 Interceptores de visitas (counters & trackers) Google Analytics StatCounter ActiveMeter 123Statmore Counter Central Digits Web Counter Free Hit Counter GoStats MyWebStats OneStat Free OneStat Opentracker ShinyStat TDstats TheCounter WebSTAT What Counter www.google.com/analytics www.statcounter.com www.activemeter.com www.123stat.com www.countercentral.com www.digits.com www.ritecounter.com www.gostats.com www.mywebstats.org www.onestatfree.com www.onestat.com www.opentracker.net www.shinystat.com www.tdstats.com www.thecounter.com www.webstat.com www.whatcounter.com 189 Google Analytics 190 StatCounter 191 Programas de estadísticas de visitas 10-Strike Log-Analyzer 1.5 123LogAnalyzer 3.2 Absolute Log Analyzer 2.3 AdvancedLogAnalyzer 1.6 Alterwind Log Analyzer 3.3 Analog 6.0 Analyse Spider 3.01 Deep Log Analyzer 3.2 eWebLogAnalyzer 2.3 FastStats Analyzer 4.1 Nihuo Web Log Analyzer 3.21 SawMill 7.2 SmarterStats 3.3 Surfstats 8.4 WebLogStorming 1.8 WebLogExpert 5.0 WebTrends Analytics 8 www.10-strike.com www.123loganalyzer.com www.bitstrike.com/analyzer www.abacre.com/ala/index.htm www.alterwind.com www.analog.cx www.analysespider.com www.deep-software.com www.esoftys.com www.mach5.com/products/analyzer www.nihuo.com www.sawmill.net www.smartertools.com www.surfstats.com www.datalandsoftware.com/weblog www.weblogexpert.com www.webtrends.com 192 10-Strike Log Analyzer 193 Absolute Log Analyzer 194 Alterwind Log Analyzer 195 SawMill 196 Prácticas Experimentos con freeware Funnel Web Analyzer 5.0 www.quest.com/funnel-web-analyzer Webalizer 2.21 www.mrunix.net/webalizer Prácticas con fichero log Visitas totales y desagregadas Páginas y directorios más populares Ficheros volcados Puntos de entrada y salida Demografía de los visitantes Referentes de entrada (origen, navegador y palabras de acceso) 197 Configurando Funnel Web 198 Resultados 199 Referrals 200 Informetría Estudio de las distribuciones Aplicación de las leyes bibliométricas: Lotka, Zipf www.cindoc.csic.es/cybermetrics/articles/v4i1p4.html www.cindoc.csic.es/cybermetrics/articles/v4i1c1.html Generalización a “Power law” Estructura Media de enlaces externos por página (outlinks): 7-8 Distribución de enlaces por página (n) : 1/nk Recibidos (k=2,1) Emitidos (k=2,7) Páginas web por sitio (k= 2,2) PageRank (k=2,1) Consumo Visitantes a un sitio por día (k=2,07) Enlaces visitados por página (k=1,5) 201 Lotka en Excel 202 Investigación en Cibermetría 203 Bibliografia/Webliografía 204 Bibliografia/Webliografía Björneborn, L. & Ingwersen, P. (2001). Perspectives of webometrics. Scientometrics, 50(1): 65-82. http://www.db.dk/lb/2001webometrics.pdf van Raan, A. F. J. (2001). Bibliometrics and internet: Some observations and expectations. Scientometrics, 50(1): 59-63 Bar-Ilan, J. (2001). Data collection methods on the Web for infometric purposes. A review and analysis. Scientometrics, 50(1):7-32 Björneborn, L. (2004). Small-world link structures across an academic web space : a library and information science approach. PhD dissertation. Royal School of Library and Information Science. xxxvi, 399 p. ISBN 87-7415-276-9.<http://www.db.dk/lb/phd/phd-thesis.pdf > Björneborn, L. & Ingwersen, P. (2005). Towards a basic framework for webometrics. Journal of the American Society for Information Science and Technology. Special Issue on Webometrics. Thelwall, M.; Vaughan, L. & Björneborn, L. (2005). Webometrics. Annual Review of Information Science and Technology, 39. Ingwersen, P. & Björneborn, L. (2004). Methodological issues of webometric studies. In: Glänzel, W. et al. (eds.). Quantitative Science and Technology Research. Klüwer Academic Publishers. The Statistical Cybermetrics Research Group. Wolverhampton University <http://cybermetrics.wlv.ac.uk> Alonso Berrocal, J.L.; Figuerola, C.G. & Zazo, A.F. (2004). Cibermetría:nuevas técnicas de estudio aplicables al Web. Ediciones Trea, Gijón. 207 pags. Faba Perez, C., Guerrero Bote, V. P. & Moya Anegón, F. (2004). Fundamentos y técnicas cibermétricas: modelos cuantitativos de análisis. Junta de Extremadura, Mérida. Serie Sociedad de la Información, no. 18. 216 pags. Thelwall, M. (2009). Introduction to Webometrics: Quantitative Web Research for the Social Sciences. http://www.scribd.com/doc/14613059/Intro-to-Webometrics-2009 Bibliografía/Webliografía General del Curso www.cindoc.csic.es/cybermetrics/links03.html 205