Lecturas De Cátedra Garibaldi Y Otros Modelos Modelos . - UNRN

1y ago
13 Views
3 Downloads
4.05 MB
264 Pages
Last View : 18d ago
Last Download : 3m ago
Upload by : Milo Davies
Transcription

Lecturas de CátedraModelosestadísticosen lenguaje RLucas Alejandro GaribaldiFacundo José OddiFrancisco Javier AristimuñoAliosha Nicolás Behnisch

Modelos estadísticos en lenguaje R

Lecturas de CátedraModelos estadísticos en lenguaje RLucas Alejandro GaribaldiFacundo José OddiFrancisco Javier AristimuñoAliosha Nicolás Behnisch

Utilice su escáner decódigo qr para accedera la versión digital

ÍndicePrefacio.13Capítulo1Regresión lineal con dos variables . 17Introducción.17TP N 1. Introducción al lenguaje R y sus funciones básicas .171. 1. Instrucciones para instalar R y R Studio.181. 2. Codificación del texto .181. 3. Directorio de trabajo .181. 4. Importación de datos .181. 5. Explorar datos.191. 6. Problema y gráfico de dispersión.201. 7. Modelo de regresión lineal simple .221. 8. Objetos.241. 9. Limpiar espacio de trabajo.24TP N 2. Primeros pasos con el modelo de regresión lineal simple.252. 1. Problema .252. 2. Cargar datos manualmente «concatenando».252. 3. Diseño .252. 4. Gráfico de dispersión .252. 5. Modelo: estimación y predicción .262. 6. Clases y funciones genéricas.292. 7. Ejercicio adicional .30TP N 3. Pruebas, intervalos y supuestos del modelode regresión lineal simple.313. 1. Problema y datos .313. 2. Modelo, prueba «t» e intervalos .313. 3. Bondad de ajuste.353. 4. Coeficiente de correlación de Pearson.373. 5. Supuestos .383. 5. 1. Independencia, homogeneidad de varianza y linealidad . 383. 5. 2. Normalidad. 393. 5. 3. Observaciones atípicas, gran leverage e influyentes . 453. 6. Análisis de la varianza (anova) .473. 7. Inferencia multimodelo por criterio de informaciónde Akaike (aic).483. 8. Ejercicio .493. 9. Ejemplo adicional .49Lista de referencias bibliográficas.51

Capítulo 2Análisis de la varianza (anova) y comparaciones múltiples.53Introducción.53TP N 4. Análisis de la varianza (anova) y comparaciones múltiples .534. 1. Problema y datos.534. 2. Sobre factores en R .544. 2. 1. Cambiar orden .544. 2. 2. Cambiar nombres.554. 2. 3. Caracteres versus factores.554. 3. Modelo y anova .554. 4. Comparaciones múltiples .564. 4. 1. Bonferroni .564. 4. 2. Tukey .574. 4. 3. lsd.584. 4. 4. Aspectos clave sobre comparaciones múltiples.604. 5. Gráfico.604. 6. Supuestos.624. 7. ¿Cuántas repeticiones necesito?.644. 8. Sobre probabilidades e inferencia .654. 9. Función de verosimilitud y matrices .65Lista de referencias bibliográficas.65Capítulo 3Diseño de experimentos (muestreos).67Introducción .67TP Nº 5. Diseño en bloques completos aleatorizados (dbca) .675. 1. Problema y datos.675. 2. Consignas a resolver .685. 3. Supuesto de ausencia de interacción entre los efectosde bloques y tratamientos.685. 4. Más consignas .695. 5. Otro ejemplo dbca .69TP Nº 6. Diseño multifactorial.726. 1. Problema y datos.726. 2. Gráficos .726. 3. Modelo y anova .746. 4. Potencia.766. 5. Supuestos.776. 6. Una alternativa: transformaciones.786. 7. Segundo problema.79TP Nº 7. Diseño multifactorial.827. 1. Problema y datos.827. 2. Consignas a resolver.82

7. 3. Otro ejemplo.83Lista de referencias bibliográficas.87Capítulo 4Regresión múltiple.89Introducción.89TP Nº 8. Multicolinealidad, bondad de ajuste y potencia .898. 1. Problema y datos.898. 2. Consignas a resolver.908. 3. Otro ejemplo.918. 4. Gráfico y modelo.918. 5. Multicolinealidad.948. 6. Factor de inflación de la varianza .958. 7. Intervalos de confianza y predicción .998. 8. Bondad de ajuste.1008. 9. Coeficiente de determinación.1018. 10. Supuestos.1028. 11. Potencia.1048. 12. Selección de modelos por aic.1068. 13. Mínimos cuadrados.1078. 14. Información útil para objetos con clase «lm» .108TP Nº 9. Modelos polinómicos y logarítmicos .1099. 1. Problema y datos.1099. 2. Primer modelo.1099. 3. Polinomio de segundo grado.1119. 4. Polinomio de tercer grado.1159. 5. Polinomio de grado 10.117Lista de referencias bibliográficas.123Capítulo 5Modelos lineales generales.125Introducción.125TP Nº 10. Modelo de regresión con variables categóricas.12510. 1. Problema y datos.12510. 2. Consignas a resolver .128TP Nº 11. Un ejemplo de utilización de variables dummies.12911. 1. Problema y datos .12911. 2. Consignas a resolver .130TP Nº 12. Análisis de corte trasversal con diferentes años como factor.13412. 1. Problema y datos.13412. 2. Consignas a resolver .13512. 3. Intervalos de predicción y confianza .137Lista de referencias bibliográficas.138

Capítulo 6Modelos lineales generales con heterogeneidad de varianza .139Introducción.139TP Nº 13. Varianzas en función de variable independiente categórica.13913. 1. Problema y datos.13913. 2. Modelo de varianzas homogéneas .14013. 3. Modelo de varianzas heterogéneas según región .14113. 4. Prueba del cociente de verosimilitudes.143TP Nº 14. Varianzas en función de variable independiente cuantitativa.14514. 1. Problema y datos.14514. 2. Modelo con varianzas homogéneas usando «lm» .14514. 3. Modelo con varianzas homogéneas utilizando «gls» .14814. 4. Modelo de varianza fijada.14914. 5. Modelo de varianza como potencia de la variableindependiente.15114. 6. Residuos de Pearson .15214. 7. Modelo constante más potencia de la variableindependiente .154TP N 15. Ejemplos de modelos de heterogeneidad de varianzaaplicados a la macroeconomía y la producción minera.15515. 1. Ejercicio 1 .15515. 1. 1. Consignas a resolver .15615. 2. Ejercicio 2 .15715. 2. 1. Modelo con varianzas homogéneas entre minas.15715. 2. 2. Modelo varianzas distintas para cada mina.159Lista de referencias bibliográficas.160Capítulo 7Modelos no lineales generales .161Introducción.161TP Nº 16. Primeros pasos con el modelo no lineal general.16116. 1. Problema y datos .16116. 2. Modelo lineal .16216. 3. Modelo no lineal .16216. 4. Prueba «F» para comparar modelos no lineales anidados . 16516. 5. Bondad de ajuste en modelos no lineales.16816. 6. Comparación modelos lineales y no lineales.16916. 7. Modelo no lineal con heterogeneidad de varianzas.169TP Nº 17. Diferentes modelos de crecimiento demográfico.17017. 1. Problema y datos.17017. 2. Modelo exponencial de crecimiento demográfico.17017. 3. Modelo logístico de crecimiento demográfico.17117. 4. Supuestos.174

17. 5. Fórmulas en «nls» .177TP Nº 18. La cinética Michaelis Menten y la función self-start.17818. 1. Problema y datos.17818. 2. Paquetes para modelos no lineales .182Lista de referencias bibliográficas.183Capítulo 8Modelos lineales generalizados.185Introducción.185TP Nº 19. Distribución binomial.18519. 1. Problema y datos.18519. 2. Repaso distribución binomial.18619. 3. Modelo con distribución de error binomial.19019. 4. Estimación y análisis de la devianza .19019. 5. Escalas de expresión del modelo .19219. 5. 1. Escala variable respuesta.19219. 5. 2. Escala «logit» .19319. 5. 3. Escala «odd».19419. 6. Bondad de ajuste.194TP Nº 20. andeva y otros componentes de modelos «glm».19520. 1. Componentes de los modelos «glm» .19520. 2. Problema y datos.19520. 3. andeva.19820. 4. Bondad de ajuste.19920. 5. Función de verosimilitud.200TP Nº 21. Función binomial y su expresión a travésde diferentes escalas.20021. 1. Problema y datos.20021. 2. Sobredispersión y Chi 2.20621. 3. Residuos dentro del modelo glm .20821. 3. 1. Residuos de Pearson.20921. 3. 2. Residuos deviance .209TP Nº 22. Distribución Gamma y Chi 2.21022. 1. Problema y datos.21022. 2. Gamma.21222. 3. Chi 2 .214TP Nº 23. Funciones Gamma versus Normal.22023. 1. Problema y datos.22023. 2. Consignas a resolver.225TP Nº 24. Distribución de Poisson y binomial negativa.22724. 1. Problema y datos.22724. 2. Distribución Poisson.227

24. 3. Distribución binomial negativa.23024. 4. Varianza en función de la media.23224. 5. glm y binomial negativa.23324. 6. Supuestos.23624. 6. 1. Poisson .23724. 6. 2. Binomial Negativa.237TP Nº 25. Ejercicios varios.23925. 1. Problema y datos.23925. 2. Primer ejercicio.23925. 3. Segundo ejercicio.245TP Nº 26. Ejemplos de diferentes distribucionesy sus relaciones varianza versus media.24626. 1. Distribuciones.24626. 1. 1. Binomial.24626. 1. 2. Gamma.24926. 1. 3. Chi 2.25126. 1. 4. Poisson .25426. 1. 5. Binomial negativa.25526. 2. Relación varianza versus media para las distribuciones.255Lista de referencias bibliográficas.257Autorías y colaboraciones .259

PrefacioLos profesionales de las ciencias económicas y ambientales deben resolverproblemas a partir de la colección y el análisis de datos. En general, estosdatos son tomados de una muestra procedente de relevamientos o experimentos, es decir que la información con la que trabajan es parcial. Porlo tanto, deben contar con herramientas que los ayuden a tomar la mejordecisión ante preguntas que tienen respuestas inciertas.La estadística aporta las herramientas necesarias para colectar los datos, a la vez que permite resumir y presentar la información contenida enla muestra, para luego inferir en base a ella características fundamentalesde la población de la que fue extraída. Además, posibilita cuantificar laincertidumbre asociada a nuestras respuestas o, dicho de otra manera,la probabilidad de equivocarnos en la decisión tomada. Por lo tanto, alutilizar la estadística, las conclusiones estarán sustentadas por un sólidomarco de análisis.Con el objetivo de brindar al lector y a los profesionales las técnicas estadísticas necesarias para un adecuado análisis de datos, el doctor LucasA. Garibaldi ha diseñado el curso de postgrado «Modelos generalizadosaplicados a la economía en lenguaje R», el cual también forma parte dela currícula de grado de la Licenciatura en Economía de la UniversidadNacional de Río Negro (como Estadística ii). Este cubre los temas de unsegundo curso de grado en estadística y amplía sus contenidos a muchasde las herramientas utilizadas actualmente para la resolución de problemas económicos y ambientales, acerca de las cuales la oferta académicaes reducida. Creemos que ello, junto con el enfoque de taller del curso,flexibiliza el aprendizaje del lector ayudándolo a lograr independenciapara resolver los problemas a los cuales se enfrentará durante su actividad profesional.A lo largo de los capítulos (suponemos que el lector está familiarizadocon los conceptos básicos de estadística y probabilidad) ponemos a disposición ejercicios prácticos para adquirir los conocimientos básicos sobre cómocolectar datos (diseño de estudios), modelarlos y analizarlos utilizando elprograma R. Recomendamos seguir los capítulos frente a una computadoraanalizando los datos reales que se encuentran disponibles en el siguienteenlace: http://editorial.unrn.edu.ar/descargas/lenguaje r datos eunrn.zipLos ejercicios se presentan con la intención de proporcionar al lector unmarco similar al que un profesional se enfrentaría comúnmente en su ámbito de trabajo. Esto es, con un marco conceptual del que deriva un problemarelacionado, y para el cual el lector es guiado hacia su resolución (analizarPrefacio 13

cómo ha sido la recolección de los datos, explorarlos, plantear modelos interesantes, determinar si el modelo planteado es adecuado, plantear modelosalternativos, realizar las inferencias y las predicciones) y arribar a una conclusión. Un aspecto relevante es que los ejercicios están basados en datosreales (datos publicados en sitios web, o cedidos por colegas).Limitándonos al estudio de modelos con una sola variable de respuesta (dependiente), la obra se organiza en ocho capítulos. Los primeros sieteabarcan el modelado de datos con distribución normal. En el capítulo 1 seestudia el modelo de regresión lineal entre dos variables cuantitativas (regresión lineal simple) y se introducen los conceptos de criterio de mínimoscuadrados ordinarios para la estimación de parámetros, bondad de ajustey validez de los modelos a partir de sus supuestos. Los capítulos 2 y 3 tratancon variables independientes categóricas, el análisis de la varianza (anova)y los test a posteriori (comparaciones múltiples). En particular, se aborda eldiseño completamente aleatorizado (dca), y se introduce el modelado conmás de una variable independiente, todas categóricas en este caso, a partirdel diseño en bloques completamente aleatorizados (dbca) y el diseño multifactorial. El capítulo 4 trata con más de una variable independiente, peroen este caso, cuantitativas (regresión lineal múltiple) e introduce un aspecto fundamental del modelado estadístico: la multicolinearidad. Para ello,en este capítulo se estudian las sumas de cuadrados parciales (anova tipoiii) y secuenciales (anova tipo i). En el capítulo 5 se formaliza el conceptode modelo lineal general y se plantean problemas que tratan con variablesindependientes cuantitativas y categóricas de manera conjunta. Se introducen, además, los conceptos de verosimilitud y los distintos criterios deinformación (aic, bic, etcétera) como medidas de bondad de ajuste, y el criterio de máxima verosimilitud como método de estimación de parámetros.Al llegar al capítulo 4, se incorpora el modelado de la varianza flexibilizandola homocedasticidad, uno de los supuestos del modelo lineal. Por su parte,el capítulo 7 cubre conceptos detrás del modelado de relaciones no lineales.Finalmente, en el Capítulo 8 se flexibiliza el supuesto de normalidad paramodelar datos no normales. Este es el campo de los modelos lineales generalizados que permiten tratar con distribuciones de la familia exponencial:binomial, Poisson, normal y Gamma, y también se abarca la distribuciónbinomial negativa. En forma general, a través de la obra presentamos elmarco de inferencia frecuentista y abordamos la evaluación de relacionesde verosimilitud e inferencias multimodelo. Los capítulos no desarrollanlos conceptos teóricos. Para ello, sugerimos la lectura de diversos libros detextos que abordan los conceptos presentes en esta obra de manera exhaustiva (Pinheiro y Bates 2000; Webster, 2000; Anderson y otros, 2008; Gelman yHill 2007; Fox y Weisberg, 2010, 2011, entre otros).14 Modelos estadísticos en lenguaje R

Esta obra es fruto de varios años de llevar adelante este curso en la Universidad Nacional de Río Negro. Esperamos que les resulte útil y de ayudapara el abordaje de sus propios análisis.Para terminar, queremos agradecer a Silvana Alzogaray, quien es fuentede admiración por su incansable altruismo, conocimiento y entusiasmo; aMariana Dondo, por su bondad absoluta, tolerancia y enseñanzas; y a Quimei Vigo, por su compasión incondicional, honestidad y dedicación.Lucas Alejandro GaribaldiFacundo José OddiFrancisco Javier AristimuñoAliosha Nicolás BehnischPrefacio 15

Capítulo 1Regresión lineal con dos variablesIntroducciónEn este capítulo el lector será introducido al modelo clásico de regresiónlineal simple y sus supuestos. Al ser el primer capítulo, utilizaremos estemodelo para ofrecer una introducción al lenguaje R y sus funciones básicas. Posteriormente, a lo largo del libro y de modo progresivo, se irán agregando otros conceptos y funciones.Con relación al modelo de regresión, discutiremos la estimación de los parámetros del modelo por el método de mínimos cuadrados ordinarios y laecuación de regresión estimada para la predicción media de la variable dependiente. Reflexionaremos sobre regresión y causalidad y las diferenciasentre relaciones causales y relaciones estadísticas. En este contexto tambiéncuantificaremos coeficientes de determinación y de correlación, cuadradomedio del error como estimador insesgado de la varianza residual y medidade bondad de ajuste. Aplicaremos a los modelos de regresión conceptos queesperamos el lector maneje con cierta fluidez como: error estándar de losestimadores, inferencia, significancia, confianza, potencia, error de tipo 1,error de tipo 2, estimación puntual, por intervalos de confianza, por intervalos de predicción. Evaluaremos los supuestos del modelo utilizando herramientas como los gráficos cuantil-cuantil, el test de Kolmogorov-Smirnov (ymodificación Lilliefors), el test de Shapiro-Wilk, la cuantificación de asimetría y curtosis, y los gráficos de valores observados en función de predichos.Entre los múltiples textos introductorios sobre estos temas, el lector puedeconsultar los de Anderson, Sweeney y Williams (2012); Bowerman, O’Connelly Koehler (2007); Lind, Marchal y Mason (2006); Levin, Rubin, Balderas, delValle y Gómez (2004); y Webster (2000). En relación con el lenguaje R, algunostextos de referencia son los de Paradis (2003) y Matloff (2011).Trabajo práctico 1Introducción al lenguaje R y sus funciones básicasR es un lenguaje y un ambiente para análisis de datos y gráficos. Puedeser considerado una implementación de S, un lenguaje de programacióndesarollado inicialmente en los laboratorios Bell durante la década de1970. El proyecto R fue iniciado por Robert Gentleman y Ross Ihaka en laRegresión lineal con dos variables 17

Universidad de Auckland, Nueva Zelanda, en la década de los 90, y continuó siendo desarrollado por un equipo internacional desde mediados de1997. Los archivos de comandos de R, conocidos como scripts y cuya extensión es «.R», se pueden leer con cualquier editor de texto.1. 1. Instrucciones para instalar R y R StudioEl sitio de descarga de R es https://cran.r-project.org/Una vez descargado, se procede a la instalación. Durante el proceso esnecesario permitir la instalación, además, de los plugins que el programasolicite. Completado este paso, se descargará R Studio del sitio Es en este último programa, R Studio, que el lector deberá copiar los códigos o sentencias que se presentan a lo largo del libro.1. 2. Codificación del textoEn R studio, realizar lo siguiente:1. Ir a «Tools».2. Luego, ir a «Options».3. Finalmente, cambiar «Default texting encoding» a «UTF-8».Esto garantiza que podamos abrir los scripts tanto en Linux como en Windows sin errores.1. 3. Directorio de trabajo1. Indicamos «Working directory» (directorio de trabajo) en la ventana inferior derecha.2. Nos situamos en el directorio donde se encuentran los archivoscon los que trabajaremos.3. Por último, apretamos «More» y luego «Set as workingdirectory».1. 4. Importación de datosCargamos la tabla de datos,1 en este caso con extensión «.txt». A esta tablala llamaremos datos.1Los datos son de la Organización de las Naciones Unidas para la Agricultura y laAlimentación (FAO), cuyo sitio es http://www.fao.org/18 Modelos estadísticos en lenguaje R

En este libro, los comandos en R, como el que sigue, se escriben ennegritas (comandos), mientra

Modelos estadísticos en lenguaje R Aliosha Nicolás Behnisch Garibaldi y otros Lecturas de Cátedra Modelos estadísticos en lenguaje R Esta guía práctica les permitirá a los lectores interesados en el análisis estadístico una completa inmersión en el programa R de análisis de datos.

Related Documents:

¡Te pillé Caperucita! Cano Carlos Zona lecturas de 10 a 12 años ¡Vamos por la copa! Nahrgang, Frauke Zona lecturas de 10 a 12 años ¿De vacaciones en México? Zona lecturas de 10 a 12 años ¿Han muerto todos los gigantes? Norton, Mary Zona lecturas de 10 a 12 años ¿Puedo jugar

unification. Garibaldi's dream of a united Italy made him come out from his retirement in the island of Caprera. In 1860 he sailed from Genoa with the Thousand Red Shirts (an army of patriotic volunteers) and freed Sicily and Naples from the Bourbon King. Garibaldi then delivere

Jan 27, 2015 · Chrysler agreed to install a trailer hitch on some of the subject vehicles. According to Chrysler's former head of engineering, Francois Castaing, "the tow package does not protect the tank." Mr. Strickland is now a partner at Venable LLP, a law firn1 that does legal and lobbying wor

Sacristan: K. Kelleher Music: C. Clancy, M. Lundy 10 am Mass -Living and Deceased Mothers of our Parishioners Deacon: No Deacon, EM: J. Chapman, D. Lauletta, T. Powell, . Ann Barr, at 610-869-8559 or email tedra.farrell@redcross.org. Help the RED CROSS to maintain a safe and stable blood supply by making your blood donation appointment today!

sin isbn licencia anual libro digital lenguaje y comunicaciÓn 7 bÁsico todos juntos . 9789561529069 61069910 grandes lecturas santillana 1 bÁsico 12.101 14.400 9789561529076 61069911 grandes lecturas santillana 2 bÁsico 12.101 14.400

Lecturas Teoría Sociológica Contemporánea TEMA 1. El estructural-funcionalismo TALCOTT PARSONS El sistema de las sociedades modernas (E. Trillas, México D. F. 1977, pp. 13-41) 1. Concepto de sociedad

La serie Español.Primer gradoestá formada por tres nuevos libros de texto gratuitos: Lecturas, Actividades y Recortable. Fueron elaborados en 1997 y sustituyen a todos los materiales que, hasta el ciclo 96-97, se venían utilizando en las escuelas primarias para esta asignatura y grado. El libro de Lecturas es el eje articulador de los nuevos materiales.

The API is most useful when there is a need to automate a well-defined workflow, such as repeating the same tasks to configure access control for new vRealize Operations Manager users. The API is also useful when performing queries on the vRealize Operations Manager data repository, such as retrieving data for particular assets in your virtual environment. In addition, you can use the API to .