Month: July 2017
Anuncio de nuevo Curso de “Big Data” (MATE 4995, Sección 23)
Universidad de Puerto Rico
Recinto de Rio Piedras
Semestre: primer semestre 2017-2018
Codificación: MATE 4995 Sección 23
Título del curso- Análisis de datos masivos en aplicaciones biomédicas I (BBD1)
Profesora- Dra. Maria E. Perez
Requisitos- MATE 3026 o equivalente y CCOM 3030 o permiso de la profesora.
Este curso busca preparar al estudiante para dos objetivos fundamentales:
- Poder trabajar con grandes cantidades de datos. Algo esencial en futuros aspectos de todo tipo de investigación.
- Poder participar en el proyecto de IDI-BD2K el próximo verano con experiencias de investigación en los Centro de Excelencia de BD2K en las universidades de Harvard, Pittsburgh y la Univ. de California, Santa Cruz.
Estudiantes de cualquier bachillerato de Ciencias Naturales pueden matricularse.
Mas información sobre el proyecto IDI-BD2K
Hoy como nunca antes la investigación biomédica está generando cantidades masivas de datos, cuyo análisis e interpretación tiene el potencial de producir dramáticos avances en nuestro conocimiento sobre la salud humana y sobre nuestra calidad de vida. El análisis de estos conjuntos masivos de datos (“Big Data”) requiere técnicas que combinan conocimientos en Biología, Química, Estadística, Ciencias de Cómputo y otras áreas.
El proyecto IDI-BD2K estará ofreciendo el curso MATE 4995 Sección 23 – Análisis de datos masivos en aplicaciones biomédicas I (BBD1) en otoño 2017. En este curso podrás aprender cómo encontrar grupos de genes sobreexpresados en una condición, como el cáncer. Puedes aprender a crear e interpretar modelos lineales que describen la respuesta a un tratamiento. Verán cómo manejar conjuntos masivos de datos genómicos y analizarlos.
Estudiantes que completen este curso y su continuación BBD2 calificarán para ir a un internado en alguno de los Centros de Excelencia de BD2K como Harvard, University of California Santa Cruz, y Pittsburgh.
Para información adicional puedes comunicarte con la Dra. Perez: maria.perez34@upr.edu
Si aun no estas preparado para tomar BBD1 y 2, asegurate que estas tomando los cursos sugeridos por los Centros de Excelencia BD2K para tu concentración consultando la tabla a continuación:
Curso: MATE 4995 Sección 23 – Análisis de datos masivos en aplicaciones biomédicas I (BBD1)
Descripción del curso
Este curso es un curso intermedio sobre conceptos estadísticos y competencias de programación en el lenguaje de programación R para análisis de datos masivos (“Big Data”). En la primera parte del curso, se revisarán conceptos básicos de la Inferencia Estadística, incluyendo distribuciones de probabilidad, Teorema del Límite Central, intervalos de confianza y pruebas de hipótesis haciendo uso intensivo de R . Posteriormente, se estudiarán modelos lineales comúnmente usados para inferencia estadística. Para ello, se introducirán conceptos fundamentales de álgebra matricial requeridos para la representación y manejo de modelos lineales, así como técnicas de inferencia (estimación, pruebas de hipótesis y diagnósticos) para los mismos. Se discutirán los conceptos de interacción y contraste, y cómo realizar inferencia sobre los mismos. Finalmente, se discutirán varios tópicos estadísticos relevantes para el análisis de grandes volúmenes de datos, incluyendo problemas de múltiples pruebas de hipótesis, tasas de error, procedimientos para control de las tasas de error, tasas de falsos descubrimientos, valores q y métodos exploratorios para grandes volúmenes de datos. Se introducirán conceptos de modelización estadística y su aplicación a grandes volúmenes de datos, discutiendo en particular modelos probabilísticos paramétricos y técnicas de estimación de parámetros. Todo el contenido se discutirá en casos prácticos usando R para programación y análisis de datos.
Este curso expande los cursos PH525.1x: Statistics and R, PH525.2x Data Analysis for Life Sciences 2: Introduction to Linear Models and Matrix Algebra , PH525.3x Data Analysis for Life Sciences 3: Statistical Inference and Modeling for High-throughput Experiments de la secuencia de cursos diseñada por el Prof. Rafael Irizarry (Biostatistics, Harvard University) para HarvardX en http://www.edx.org.
Objetivos del curso
Al finalizar del curso el estudiante podrá:
- Identificar variables aleatorias con distribución normal y binomial, y calcular probabilidades asociadas con ellas.
- Usar el Teorema del Límite Central para calcular probabilidades asociadas al promedio de grandes cantidades de datos.
- Calcular e interpretar p-valores para pruebas de hipótesis asociadas con medias de distribuciones normales o con grandes cantidades de datos.
- Calcular e interpretar intervalos de confianza para las situaciones indicadas en 3.
- Interpretar la potencia de una prueba de hipótesis
- Usar gráficos adecuados para resumir la información en un conjunto de datos.
- Usar notación matricial y realizar operaciones entre matrices.
- Usar notación matricial para representar modelos lineales y usar operaciones entre matrices para ajustar dichos modeloss
- Realizar inferencia sobre modelos lineales, e interpretar términos de interacción y contrastes.
- Aplicar técnicas para control de errores en el problema de múltiples pruebas de hipótesis simultáneas.
- Aplicar técnicas de inferencia para distintos modelos probabilísticos.
- Aplicar técnicas para la exploración de grandes volúmenes de datos.
Estrategias instruccionales
Se usarán estrategias al estilo del Flipped Massive Online Course. Se usarán el primero, segundo y tercer curso de la serie “Data Analysis for Life Sciences” en el site edX de Harvard creado por el Prof. Rafael Irizarry, denominados “Statistics and R”, “Introduction to Linear Models and Matrix Algebra” y “Statistical Inference and Modeling for High-throughput Experiments”.
Bibliografía
- Libro de texto: Data Analysis for the Life Sciences. Rafael Irizarry and Michael Love (disponible en http://www.leanpub.com)
- Software for Data Analysis: Programming with R (Statistics and Computing) by John M. Chambers (Springer)
- S Programming (Statistics and Computing) Brian D. Ripley and William N. Venables (Springer)
- Programming with Data: A Guide to the S Language by John M. Chambers (Springer)
Referencias Electrónicas
- R reference card (PDF) by Tom Short (more can be found under Short Documents and Reference Cards here)
- Quick-R: Quick online reference for data input, basic statistics, and plots
- Thomas Girke’s R & Bioconductor manuals
- R programming class on Coursera, taught by Roger Peng, Jeff Leek, and Brian Caffo
- The free “try R” class from Code School is also a good place to start: http://tryr.codeschool.com/
- swirl: learn R interactively from within the R console