Data Carpentry Genomics workshop August 17-18, 2018

South Big Data Hub/DataUP/Georgia Tech are sponsoring a Data Carpentry Genomics workshop with IDI-BD2K in Rio Piedras August 17-18, 2018.

Genomics Project Organization

  • Data tidiness
  • Planning NGS Projects
  • Examining Data on NCBI SRA database

The Unix Shell

  • Files and directories
  • Pipes and redirection
  • Creating and running shell scripts
  • Organizing bioinformatics projects

Wrangling Genomics Data

  • Assessing Read Quality
  • Trimming and Filtering Reads
  • Variant Calling
  • Automation

Cloud computing

  • What is the cloud
  • Logging into the cloud
  • Setting up your environment
  • Moving data and results to and from the cloud

See the course page for details and registration:

https://idi-bd2k.github.io/2018-08-17-puertorico-genomics/

Anuncio de Curso de “Big Data” (MATE 4995, Sección 012)

Universidad de Puerto Rico

Recinto de Rio Piedras

Semestre: primer semestre 2018-2019

Codificación: MATE 4995 Sección 012

Título del curso- Análisis de datos masivos en aplicaciones biomédicas I (BBD1)

Profesora-  Dra.  Maria E. Perez

Requisitos-  MATE 3026 o equivalente y CCOM 3030 o permiso de la profesora.

Este curso busca preparar al estudiante para dos objetivos fundamentales:

  1. Poder trabajar con grandes cantidades de datos.  Algo esencial en futuros aspectos de todo tipo de investigación.
  2. Poder participar en el proyecto de IDI-BD2K el próximo verano con experiencias de investigación en los Centro de Excelencia de BD2K en las universidades de Harvard, Pittsburgh y la Univ. de California, Santa Cruz.

Estudiantes de cualquier bachillerato de Ciencias Naturales pueden matricularse.

Mas información sobre el proyecto IDI-BD2K

Hoy como nunca antes la investigación  biomédica está generando cantidades masivas de datos, cuyo análisis e interpretación tiene el potencial de producir dramáticos avances en nuestro conocimiento sobre la salud humana y sobre nuestra calidad de vida. El análisis de estos conjuntos masivos de datos (“Big Data”) requiere técnicas que combinan conocimientos en Biología, Química, Estadística, Ciencias  de Cómputo y otras áreas.

El proyecto IDI-BD2K estará ofreciendo el curso MATE 4995 Sección 23 – Análisis de datos masivos en aplicaciones biomédicas I (BBD1) en otoño 2017. En este curso podrás aprender cómo encontrar grupos de genes sobreexpresados en una condición, como el cáncer. Puedes aprender a crear e interpretar modelos lineales que describen la respuesta a un tratamiento. Verán cómo manejar conjuntos masivos de datos genómicos y analizarlos.

Estudiantes que completen este curso y su continuación BBD2 calificarán para ir a un internado en alguno de los Centros de Excelencia de BD2K como Harvard, University of California Santa Cruz, y Pittsburgh.

Para información adicional puedes comunicarte con la Dra. Perez:  maria.perez34@upr.edu

Si aun no estas preparado para tomar BBD1 y 2, asegurate que estas tomando los cursos sugeridos por los Centros de Excelencia BD2K para tu concentración consultando la tabla a continuación:

A Multiplexed Strategy for Regulatory Genome Analysis

The IDI-BD2K project is pleased to announce two events with Dr. Andy Cameron, Caltech.

A seminar Tuesday February 20, 2018 at 12:00 PM in JGD-123, Julio Garcia Diaz Building, Rio Piedras Campus, University of Puerto Rico.

A conversation with students Wednesday February 21, 2018 at 11:30 AM Room A-231, College of Natural Sciences, Rio Piedras Campus, University of Puerto Rico.

Diversity in Data and Computer Science

Diversity flyerA conversation with David Boone, PhD, Assistant Professor of the University of Pittsburgh where he will introduce STUDENT AND FACULTY INTERNSHIPS in the Department of Biomedical Informatics at his university through the Increasing Diversity in Interdisciplinary Biomedical Big Data to Knowledge (IDI-BD2K) Program of the UPRRP. A brief overview of the IDI-BD2K DATA SCIENCE PROGRAM will be given. Finally, he will engage in fish bowl conversation with Dr. Patricia Ordóñez, Associate Professor of the Department of Computer Science, and the audience to talk about his career path and DIVERSITY IN DATA AND COMPUTER SCIENCE. Topics will include the Imposter Syndrome, Unconscious bias, and Stereotype Threat.

Fellowship opportunity for recent graduates

The Opportunity:

The National Institute of Allergy and Infectious Diseases (NIAID) is offering an exciting fellowship opportunity in data science for recent undergraduate or graduate students (Bachelor’s, Master’s, or Doctorate) who are interested in acquiring a unique training experience involving rotations throughout the Institute to either intramural or extramural programs engaged in data-intensive science.  The rotations will provide a broad overview of the data-intensive science that NIAID supports and train fellows through hands-on experience in how to apply and manage big data, bioinformatic strategies, computational platforms and tool development towards the study of infectious, immunological, and allergic diseases.  The application deadline is October 2nd.

If you know of anyone who may be interested, please feel free to share this opportunity with them.

Please see the link below for additional information on how to apply:

https://www.zintellect.com/Posting/Details/3600

Anuncio de nuevo Curso de “Big Data” (MATE 4995, Sección 23)

Universidad de Puerto Rico

Recinto de Rio Piedras

Semestre: primer semestre 2017-2018

Codificación: MATE 4995 Sección 23

Título del curso- Análisis de datos masivos en aplicaciones biomédicas I (BBD1)

Profesora-  Dra.  Maria E. Perez

Requisitos-  MATE 3026 o equivalente y CCOM 3030 o permiso de la profesora.

Este curso busca preparar al estudiante para dos objetivos fundamentales:

  1. Poder trabajar con grandes cantidades de datos.  Algo esencial en futuros aspectos de todo tipo de investigación.  
  2. Poder participar en el proyecto de IDI-BD2K el próximo verano con experiencias de investigación en los Centro de Excelencia de BD2K en las universidades de Harvard, Pittsburgh y la Univ. de California, Santa Cruz.

Estudiantes de cualquier bachillerato de Ciencias Naturales pueden matricularse.

Mas información sobre el proyecto IDI-BD2K

Hoy como nunca antes la investigación  biomédica está generando cantidades masivas de datos, cuyo análisis e interpretación tiene el potencial de producir dramáticos avances en nuestro conocimiento sobre la salud humana y sobre nuestra calidad de vida. El análisis de estos conjuntos masivos de datos (“Big Data”) requiere técnicas que combinan conocimientos en Biología, Química, Estadística, Ciencias  de Cómputo y otras áreas.

El proyecto IDI-BD2K estará ofreciendo el curso MATE 4995 Sección 23 – Análisis de datos masivos en aplicaciones biomédicas I (BBD1) en otoño 2017. En este curso podrás aprender cómo encontrar grupos de genes sobreexpresados en una condición, como el cáncer. Puedes aprender a crear e interpretar modelos lineales que describen la respuesta a un tratamiento. Verán cómo manejar conjuntos masivos de datos genómicos y analizarlos.

Estudiantes que completen este curso y su continuación BBD2 calificarán para ir a un internado en alguno de los Centros de Excelencia de BD2K como Harvard, University of California Santa Cruz, y Pittsburgh.

Para información adicional puedes comunicarte con la Dra. Perez:  maria.perez34@upr.edu

Si aun no estas preparado para tomar BBD1 y 2, asegurate que estas tomando los cursos sugeridos por los Centros de Excelencia BD2K para tu concentración consultando la tabla a continuación:

Curso: MATE 4995 Sección 23 – Análisis de datos masivos en aplicaciones biomédicas I (BBD1)

Descripción del curso

Este curso es un curso intermedio sobre conceptos estadísticos y competencias de programación en el lenguaje de programación R para análisis de datos masivos (“Big Data”). En la primera parte del curso, se revisarán conceptos básicos de la Inferencia Estadística, incluyendo distribuciones de probabilidad, Teorema del Límite Central, intervalos de confianza y pruebas de hipótesis haciendo uso intensivo de R . Posteriormente, se estudiarán modelos lineales comúnmente usados para inferencia estadística. Para ello, se introducirán conceptos fundamentales de álgebra matricial requeridos para la representación y manejo de modelos lineales, así como técnicas de inferencia (estimación, pruebas de hipótesis y diagnósticos) para los mismos. Se discutirán los conceptos de interacción y contraste, y cómo realizar inferencia sobre los mismos. Finalmente, se discutirán varios tópicos estadísticos relevantes para el análisis de grandes volúmenes de datos, incluyendo problemas de múltiples pruebas de hipótesis, tasas de error, procedimientos para control de las tasas de error, tasas de falsos descubrimientos, valores q y métodos exploratorios para grandes volúmenes de datos. Se introducirán conceptos de modelización estadística y su aplicación a grandes volúmenes de datos, discutiendo en particular modelos probabilísticos paramétricos y técnicas de estimación de parámetros. Todo el contenido se discutirá en casos prácticos usando R para programación y análisis de datos.

Este curso expande los cursos PH525.1x: Statistics and R, PH525.2x Data Analysis for Life Sciences 2: Introduction to Linear Models and Matrix Algebra ,  PH525.3x Data Analysis for Life Sciences 3: Statistical Inference and Modeling for High-throughput Experiments  de la secuencia de cursos diseñada por el Prof. Rafael Irizarry (Biostatistics, Harvard University) para HarvardX en http://www.edx.org.

Objetivos del curso

Al finalizar del curso el estudiante podrá:

  1. Identificar variables aleatorias con distribución normal y binomial, y calcular probabilidades asociadas con ellas.
  2. Usar el Teorema del Límite Central para calcular probabilidades asociadas al promedio de grandes cantidades de datos.
  3. Calcular e interpretar p-valores para pruebas de hipótesis asociadas con medias de distribuciones normales o con grandes cantidades de datos.
  4. Calcular e interpretar intervalos de confianza para las situaciones indicadas en 3.
  5. Interpretar la potencia de una prueba de hipótesis
  6. Usar gráficos adecuados para resumir la información en un conjunto de datos.
  7. Usar notación matricial y realizar operaciones entre matrices.
  8. Usar notación matricial para representar modelos lineales y usar operaciones entre matrices para ajustar dichos modeloss
  9. Realizar inferencia sobre modelos lineales, e interpretar términos de interacción y contrastes.
  10. Aplicar técnicas para control de errores en el problema de múltiples pruebas de hipótesis simultáneas.
  11. Aplicar técnicas de inferencia para distintos modelos probabilísticos.
  12. Aplicar técnicas para la exploración de grandes volúmenes de datos.

Estrategias instruccionales

Se usarán estrategias al estilo del Flipped Massive Online Course.  Se usarán el primero, segundo y tercer curso de la serie “Data Analysis for Life Sciences” en el site edX de Harvard creado por el Prof.  Rafael Irizarry, denominados “Statistics and R”, “Introduction to Linear Models and Matrix Algebra” y “Statistical Inference and Modeling for High-throughput Experiments”.  

Bibliografía

  1. Libro de texto: Data Analysis for the Life Sciences. Rafael Irizarry and Michael Love (disponible en http://www.leanpub.com)
  2. Software for Data Analysis: Programming with R (Statistics and Computing) by John M. Chambers (Springer)
  3. S Programming (Statistics and Computing) Brian D. Ripley and William N. Venables (Springer)
  4. Programming with Data: A Guide to the S Language by John M. Chambers (Springer)

Referencias Electrónicas

  1. R reference card (PDF) by Tom Short (more can be found under Short Documents and Reference Cards here)
  2. Quick-R: Quick online reference for data input, basic statistics, and plots 
  3. Thomas Girke’s R & Bioconductor manuals
  4. R programming class on Coursera,  taught by Roger Peng, Jeff Leek, and Brian Caffo
  5. The free “try R” class from Code School is also a good place to start: http://tryr.codeschool.com/
  6. swirl: learn R interactively from within the R console

Student Publication

Ivan Jimenez-Ruiz, IDI-BD2k student, went to our partner institution, the Center for Causal Discovery in Pittsburgh last summer for an internship.

This summer he will present work done at his Summer 2016 internship at the Practice & Experience in Advanced Research Computing Conference Series (PEARC’17) conference July 9-13, 2017 in New Orleans, Louisiana, USA.

After that, he will be starting PhD studies in North Carolina. We wish you the best Ivan!

  1. I. Jimenez-Ruiz, R. Gonzalez-Mendez, A. Ropelewski. 2017. In Proceedings of ACM PEARC conference, New Orleans, USA, July 2017 (PEARC’17), 4 pages. http://dx.doi.org/10.1145/3093338.3093372

Local copy:

ILJR_PEARC_Final_Draft