RClimTool MANUAL DEL USUARIO
Transcription
RClimTool MANUAL DEL USUARIO
RClimTool MANUAL DEL USUARIO Lizeth Llanos Herrera, estudiante de Estadística Esta herramienta ha sido diseñada para el apoyo, automatización de procesos y análisis de series climáticas dentro del convenio CIAT-MADR. No se pretende competir, ni suplantar otras herramientas disponibles y desarrolladas por otras entidades. Por el contrario, buscamos un trabajo colaborativo y de retroalimentación constante entre metodologías. www.aclimatesectoragropecuariocolombiano.org RClimtool ha sido diseñada con el objetivo de facilitar a los usuarios el análisis estadístico, control de calidad, llenado de datos faltantes, análisis de homogeneidad y cálculo de indicadores para las series climatológicas diarias de temperatura máxima, temperatura mínima y precipitación. INSTALACIÓN Y EJECUCIÓN DE R Debido a que la herramienta fue creada bajo el lenguaje de R, es indispensable tener éste programa instalado, específicamente la versión R 2.15.0, que puede ser descargada desde el siguiente link: http://cran.r-project.org/bin/windows/base/old/2.15.0/ Una vez lo hemos instalado, al abrirlo aparecerá la siguiente ventana: www.aclimatesectoragropecuariocolombiano.org INSTALACIÓN Y EJECUCIÓN DE RClimTool Para ejecutar la interfaz de la aplicación debemos cargar el código fuente tal como se muestra en la siguiente figura: Una vez se ha cargado el código exitosamente aparecerá la siguiente interfaz gráfica: www.aclimatesectoragropecuariocolombiano.org En la figura 1 se observa la ventana principal de la herramienta, la cual se encuentra dividida en diferentes módulos, cada uno ubicado en los paneles de la parte izquierda de la interfaz. El contenido de estos módulos será desarrollado más adelante. ¿QUÉ HACE RClimTool? RClimTool ofrece diferentes opciones de análisis, diseñadas con el objetivo de brindar una aplicación que reúna todo lo necesario para llevar a cabo un estudio completo de las series climatológicas. Para ilustrar las funciones de cada uno de los módulos, a continuación se muestra el análisis de las series climatológicas diaria para las variables temperatura máxima, temperatura mínima y precipitación de 10 estaciones meteorológicas. 1. Lectura de datos: En el módulo de lectura de datos encontraremos diferentes botones que nos permitirán leer y cargar las bases de datos que contienen la información de las variables de interés. Importante: No utilizar tildes ni la letra “ñ” para nombrar carpetas y archivos que se utilizarán con la herramienta, ya que esto genera conflicto al momento de usar la aplicación. El botón cambiar directorio (1) ofrece la opción de seleccionar el directorio donde se encuentran los archivos que se van a cargar, también será la ubicación para guardar todas las salidas de la aplicación. 1 2 Figura 1. Ventana para lectura de datos www.aclimatesectoragropecuariocolombiano.org En la parte (2) de la figura 1 se encuentran los botones que permite cargar la información cada una de las variables. Por ejemplo, al dar clic en el botón Temp. Máxima aparecerá una ventana emergente en la cual se debe ubicar el archivo que contiene las temperaturas máximas diarias de las diferentes estaciones. Este procedimiento se realiza para las demás variables a analizar. i a g n o s Ventana emergente t i c Figura 2. Ejemplo de selección de archivo s R e En esta ventana se selecciona la ubicación y el archivo que deseamos cargar. Seleccionamos el p archivo y damos clic en ok como se ve en la figura 2. Recuerde cerrar la ventana emergente cada vez o que se cargue una variable diferente. r t ( en Anexos. Nota: El formato de los datos de entrada se especifica ) 2. Análisis gráfico – descriptivo: Una vez tenemos los datos cargados para todas las variables a analizar, procedemos a realizar el análisis descriptivo para cada una de ellas, para ello debemos especificar el período de análisis, útil si se desea analizar solo una sección de la serie, por ejemplo Marzo-1990 hasta Enero-1991, si por el contrario se desea analizar la serie completa entonces estos campos deben estar vacíos. www.aclimatesectoragropecuariocolombiano.org Opción de análisis por período Figura 3. Ejemplo análisis descriptivo Después de seleccionar la variable a analizar tal como se muestra en la figura 3, procedemos a dar clic en el boto Descriptivas, los resultados se pueden visualizar en la consola de R (ver figura 4). Consola en R Figura 4. Análisis descriptivo www.aclimatesectoragropecuariocolombiano.org Para el análisis gráfico se tiene la opción de generar diferentes tipos de Gráficos automáticos, los cuales se generan para todas las variables. Si se desea trabajar con información climatológica mensual (promedio mensual para temperatura y total mensual para precipitación) se debe seleccionar Mensual en la opción Tipo de análisis, luego al dar clic en alguno de los botones (Gráficos Plot, Gráficos Boxplot o Gráficos de dispersión) aparecerá un mensaje con la ubicación de los gráficos generados (ver figura 5). Opción para gráficos mensuales Figura 5. Análisis gráfico automático Otra opción es realizar los gráficos de forma personalizada, al dar clic en los botones del módulo Gráficos Personalizados aparecerá una ventana donde se encuentran los campos necesarios que se deben especificar; para los argumentos x e y, se escogen las variables mediante un lista desplegable. Los demás argumentos, como el título, etiquetas de los ejes, color, entre otros sirven para personalizar el gráfico (para consultar la ayuda sobre los argumentos del gráfico dar clic en el botón Help). Una vez seleccionadas las variables y modificados los argumentos damos clic en ok y en una nueva ventana se desplegará el gráfico (ver figura 6). www.aclimatesectoragropecuariocolombiano.org Figura 6. Análisis gráfico personalizado 3. Control de calidad: Un aspecto importante a tener en cuenta en el análisis de las series climatológicas, es el control de calidad, que consiste en generar algunos criterios y/o filtros para ayudar a identificar datos no razonables y/o erróneos. Figura 7. Control de calidad www.aclimatesectoragropecuariocolombiano.org En la figura 7 se encuentra el módulo Control de calidad, aquí se encuentran algunos campos editables que deben ser llenados a criterio del usuario, como el No. de desviaciones estándar, un criterio útil para identificar datos atípicos en la serie (por defecto son 3). El Rango de la variable se debe especificar de acuerdo con los valores lógicos esperados que puede tomar la variable. Al dar clic en el botón Validar aparecerá un ventana que indica el estado de cada estación respecto al rango establecido para la variable. Los criterios ejecutados en la consola son (ver figura 8): % Datos atípicos: Se definen como el porcentaje de datos que no se encuentran dentro del siguiente intervalo [ ̅ ], donde ̅ y es el promedio muestral y la desviación estándar muestral de la variable a validar respectivamente. Nota: Este criterio no es recomendable para la variable precipitación ya que su distribución suele ser asimétrica. % Datos fuera del rango: Indica el porcentaje de datos que se encuentran por fuera de los límites definidos para el rango de la variable. Los datos identificados para este criterio serán automáticamente reemplazados por NA’s. % Datos tmax<tmin: Se calcula únicamente para temperaturas e indica el porcentaje de datos en los que la temperatura máxima fue menor que la temperatura mínima en la misma fecha. Los datos identificados para este criterio serán automáticamente reemplazados por NA’s. % Datos variación≥10 (TM_10): Sólo se calcula para la variable temperatura, y éste nos indica el porcentaje de días en los cuales la variación de un dato de temperatura con respecto a otro fue mayor o igual a 10ºC. % Datos consecutivos: Identifica los datos iguales en un período mayor a cinco días consecutivos en la serie analizada y éstos son reemplazados por NA’s. Figura 8. Criterios para el control de calidad Para los filtros datos atípicos y datos TM_10, se crearán diferentes archivos en Excel para cada una de las estaciones, en ellos encontraremos los datos que fueron identificados aquí, acompañados con su respectiva fecha. Se deja a criterio del usuario el reemplazar o no por NA’s los datos identificados www.aclimatesectoragropecuariocolombiano.org por éstos filtros, el cual se debe llevar a cabo manualmente sobre los archivos generados en la carpeta Datos faltantes, donde se encuentran los archivos después haber realizado el Control de calidad a todas las variables (ver figura 9). Si se desean reemplazar los datos identificados en el Control de Calidad por NA’s se deben hacer sobre estos archivos. Carpetas con archivos de los datos no razonables y/o erróneos para c/estación Figura 9. Identificación y reemplazo de datos no razonables por NA’s Figura 10. Creación del informe preliminar Al dar clic en el botón generar pre-informe, automáticamente se creará un archivo Word con un informe que incluye un análisis descriptivo preliminar y los criterios generados en el módulo del Control de calidad, complementado con los gráficos que realiza la aplicación. El pre-informe quedará guardado en el directorio que aparece en la ventana emergente, como se muestra en la figura 10. www.aclimatesectoragropecuariocolombiano.org 4. Datos faltantes: El llenado de datos faltantes es realizado mediante el paquete RMAWGEN de R, el cual a partir de la estimación de modelos VAR realiza el llenado de los datos. Es importante resaltar que esta metodología es útil cuando se tienen porcentajes de datos NA bajos e información de varias estaciones que se encuentren relacionadas y que no presenten mucha variabilidad. Para este módulo es indispensable que se tengan datos de varias estaciones en el MISMO PERÍODO para las variables temperatura máxima, temperatura mínima y precipitación, ya que interactúan entre sí para completar los datos faltantes. Figura 11. Llenado de datos faltantes www.aclimatesectoragropecuariocolombiano.org En la figura 11 se muestran los campos necesarios que se deben especificar para el llenado de datos faltantes, al dar clic en el botón completar datos, se iniciará el proceso que puede tardar varios minutos. Una vez finalice el proceso, aparecerá de nuevo una ventana indicando que el proceso ha finalizado. En la carpeta Datos faltantes se crearán las bases de datos para cada una de las variables y los gráficos de la serie original versus la serie generada (ver figura 12). Carpetas con salidas gráficas Archivos con datos generados (Sin datos faltantes) Figura 12. Ubicación archivos Datos faltantes 5. Análisis de Homogeneidad de la serie: En este módulo se implementaron varias pruebas estadísticas con el fin de analizar la homogeneidad de la serie: Pruebas de normalidad: estas pruebas comprueban si los datos de la variable en estudio proceden de una distribución normal, si se cumple este supuesto se deben utilizar pruebas paramétricas; sino se cumple debemos acudir a las pruebas no paramétricas. Estacionalidad (tendencia): Se propone la prueba del Rango de Correlación de Spearman* y el Test de Mann-Kendall. Para estimaciones futuras es necesario que se cumpla este supuesto Estabilidad en varianza: Test F* aplicado en subconjuntos de información. Estabilidad en Media: Incluye el Test T* y el Test U Mann-Whiney como alternativa no paramétrica al Test T, usando las medianas como estadístico más robusto que la media. Nota: Las pruebas con * requieren del cumplimiento del supuesto de normalidad. En la figura 13 se observan algunos de los resultados obtenidos para este módulo, en el ejemplo se utilizó la variable tmax y un nivel de significancia del 5%. En la consola se muestran las tablas www.aclimatesectoragropecuariocolombiano.org obtenidas para cada prueba, las cuales incluyen para cada estación el valor-p y la decisión de acuerdo al nivel de significancia escogido. Figura 13. Análisis de homogeneidad de las series Para este módulo se encuentra opción de generar un informe que resume todas las pruebas estadísticas incluidas en el análisis de la homogeneidad, para realizarlo damos clic en el botón Generar Informe. 6. Calculo de indicadores: Para el cálculo de indicadores se tienen los siguientes sub-módulos: Indicadores anuales: Se calcula el número de días para cada año que cumplen con la condición indicada (Mayor que o Menor que), el valor del criterio que define la condición se deja libre al usuario. Indicadores mensuales: Para este sub-módulo se calculan los máximos o mínimos mensuales para la variable escogida. Para llevar a cabo estos cálculos, primero seleccionamos el período y la variable a analizar, luego se escoge el valor para el indicador de interés, y procedemos a dar clic sobre el checkbox del mismo. En la carpeta Indicadores se generarán archivos de Excel con los indicadores calculados (ver figura 14). www.aclimatesectoragropecuariocolombiano.org Figura 14. Cálculo de indicadores anuales y mensuales 7. Condición ENSO (El Niño/Oscilación Sur): RClimTool cuenta con información sobre la condición ENSO desde el año 1950 hasta el 2013 que se puede consultar (ver figura 15). Después de seleccionar el período de interés se procede a dar clic en la consulta que se desee realizar y aparecerán los resultados en la consola de R (ver figura 16). 1 2 Figura 15. Consulta Condición ENSO www.aclimatesectoragropecuariocolombiano.org Figura 16. Ejemplo consulta Condición ENSO PROBLEMAS CONOCIDOS: Un problema identificado para esta versión se encuentra en el módulo de datos faltantes, el rango de las fechas de las variables debe estar desde el 1 de enero del año inicial de análisis hasta el 31 de diciembre del año final, para poder llevar a cabo el llenado de datos. REPORTE DE PROBLEMAS Por favor reporte cualquier problema a Lizeth Llanos [email protected] y David Arango [email protected] junto con los mensajes de error y los datos que se usaron para el análisis. También apreciamos las sugerencias que contribuyan a mejorar la herramienta. www.aclimatesectoragropecuariocolombiano.org ANEXO A: FORMATO DE ENTRADA DE LOS DATOS Los archivos que vayan a ser utilizados deben estar en formato CSV (delimitado por comas). Se deben emplear bases diferentes para cada una de las variables, con las estaciones que se deseen analizar. Estas bases deben cumplir con los siguientes aspectos: 1. Columnas en las siguientes secuencias: day, month, year seguido de los nombres de las estaciones. NOTA: unidades de Precipitación= milímetros y unidades de Temperatura= grados Celsius 2. Para los casos en el que se presenten datos faltantes, se deben codificar como NA; los registros de datos deben estar en orden cronológico. No se permite fechas faltantes. Ejemplo de formato de datos de entrada para RClimTool: Nombres Estaciones Figura 17: Formato de entrada variable precipitación www.aclimatesectoragropecuariocolombiano.org Figura 18: Formato de entrada variable temperatura máxima Figura 19: Formato de entrada variable temperatura mínima www.aclimatesectoragropecuariocolombiano.org