Fellowship opportunity for recent graduates

The Opportunity:

The National Institute of Allergy and Infectious Diseases (NIAID) is offering an exciting fellowship opportunity in data science for recent undergraduate or graduate students (Bachelor’s, Master’s, or Doctorate) who are interested in acquiring a unique training experience involving rotations throughout the Institute to either intramural or extramural programs engaged in data-intensive science.  The rotations will provide a broad overview of the data-intensive science that NIAID supports and train fellows through hands-on experience in how to apply and manage big data, bioinformatic strategies, computational platforms and tool development towards the study of infectious, immunological, and allergic diseases.  The application deadline is October 2nd.

If you know of anyone who may be interested, please feel free to share this opportunity with them.

Please see the link below for additional information on how to apply:

https://www.zintellect.com/Posting/Details/3600

Jovaniel Rodríguez Maldonado: nuestros estudiantes en internados de verano 2017

Mi nombre es Jovaniel Rodríguez Maldonado, pertenezco al departamento de química de la Universidad de Puerto Rico, Recinto de Rio Piedras y comienzo mi 4to año este próximo semestre. Como parte del programa IDI-BD2K tuve la oportunidad de participar en el Summer Program in Biostatistics and Computational Biology en el Harvard T.H. Chan School of Public Health.

Durante 6 semanas trabaje junto al Dr. Corwin Zigler y el Dr. Chanmin Kim en trazar y predecir el movimiento de emisiones de sulfato (SO4) a partir del dióxido de azufre (SO2) que emiten las plantas de energía eléctrica en los Estados Unidos. La pregunta principal era saber que personas están respirando los contaminantes emitidos por cada planta. Para esto utilizamos datos que contenían información de todas las plantas ubicadas en los Estados Unidos, incluyendo los niveles de emisiones por día y sus coordenadas. De igual manera utilizamos datos que contenían información sobre detectores de particulado menores de 2.5 micrómetros (PM2.5) en todos los Estados Unidos incluyendo los niveles de particulado por día y sus coordenadas. Con esta información creamos un modelo de regresión lineal que tomaba en cuenta la mayoría de los factores que pueden causar variabilidad en las emisiones para encontrar una asociación entre las emisiones y los detectores. Finalmente creamos una aplicación en shiny utilizando el modelo y los datos espaciales que compara el modelo estadístico que creamos con el modelo HYSPLIT que es utilizado actualmente en este tipo de investigación. Este modelo toma factores como el viento e imágenes satelitales para crear sus predicciones mientras que el nuestro es estrictamente matemático. En adición a la investigación tuve la oportunidad de tomar clases de bioestadísticas y epidemiología a nivel graduado. Tuve la oportunidad de conocer a la facultad de la universidad y a muchísimas personas en áreas tanto académicas como en la industria. Una de las experiencias más emocionantes fue visitar el Broad Institute, que es un centro de investigación genómica aplicado a las ciencias biomédicas creado en conjunto entre MIT y Harvard.

Al final del internado tuvimos la oportunidad de presentar nuestros resultados en The Dana Farber Cancer Institute como parte del Pipelines into Biostatistics Symposium y discutirlos con personas expertas en el área. Estoy sumamente agradecido con el programa BD2K y con Harvard por darme esta oportunidad. Es una experiencia inolvidable, llena de retos y de crecimiento tanto personal como estudiantil y profesional. Se lo recomiendo a todo el que esté interesado, lo único que se necesita es ganas de aprender y estar abierto a nuevas áreas de estudio.

Jovaniel Rodríguez Maldonado, IDI-BD2K student at Harvard for a summer internship.

Alexandra Carruthers Ferrero: Nuestros estudiantes en internados de verano 2017

Hi! I am Alexandra Carruthers Ferrero. I am currently an undergraduate physics major at the University of Puerto Rico, Río Piedras Campus. This summer, I participated in Harvard T.H. Chan School of Public Health‘s Summer Program in Biostatistics and Computational Biology through IDI-BD2K (Increasing Diversity in Interdisciplinary Big Data to Knowledge). Thanks to this incredible opportunity, I was able to work on a public health research project under the mentorship of Dr. Cory Zigler and Dr. Chanmin Kim. The project focused on tracking air pollution from coal power plants throughout the United States. We worked with time-varying data to construct linear regression models and learn how the emissions of certain power plants spread and impact populations throughout the country. Traditionally, chemical and physical models are used to study the spread of air pollution. Therefore, another key point of our project was to compare the results of a purely data based statistical model with those of chemical and physical models. In addition to working on a research project, the program provided us with professional workshops and courses in biostatistics and epidemiology.

I cannot say enough how grateful I am to have had the opportunity to take classes and research in the school of public health this past summer. It provided an environment for not only professional but also personal growth. I wholeheartedly recommend others to participate!

Jovaniel, Alexandra, David and Dr. Chanmin Kim show us the Zigler Lab

Stephanie Colón Marrero: Nuestros estudiantes en internados de verano 2017

My name is Stephanie Colón Marrero and I am a Biology undergraduate student at University of Puerto Rico, Rio Piedras Campus (UPR-RP). This past summer I participated in the Internship in Biomedical Research, Informatics, and Computer Science (iBRIC) from the Department of Biomedical Informatics at the University of Pittsburgh. I had the opportunity to work alongside Dr. Qiming Jane Wang and Dr.
Sahdeo Prasad, from the Department of Pharmacology and Chemical Biology at the University of Pittsburgh School of Medicine, on a research project that aimed to exploit the therapeutic potential of combining protein kinase D inhibitors with chemotherapeutic agents for prostate cancer treatment. We first studied the potential of these drugs to inhibit cell proliferation and cell migration, fundamental biological processes implicated in cancer development and progression, by performing cell viability and wound-healing assays, respectively. Our findings contribute to a mouse prostate cancer metastasis model currently being developed in the Wang laboratory.

At the end of the program, I participated in the Summer Research Symposium at Duquesne University. I encourage every student interested in bioinformatics and biomedical research to take part in the research opportunity offered by the Increasing Diversity in Interdisciplinary Big Data to Knowledge (IDI-BD2K) program. Participating in research programs, like iBRIC, provides valuable tools that could improve significantly your personal and professional growth.

Stephanie Colon presenting at the Summer Research Symposium at
Duquesne University.

Israel O. Dilán-Pantojas: Nuestros estudiantes en internados de verano 2017

Hola soy Israel O. Dilán-Pantojas, estudiante del programa de bachillerato de estudios generales, tengo la meta de completar una segunda concentración en Ciencias de Cómputos. Este próximo año sería mi 7mo año de estudio en la Universidad de Puerto Rico, y actualmente participo activamente en grupos de investigación de Biomedicina y Bioinformática.

Este verano he estado trabajando, con investigación en el campo de Descubrimiento Causal con modelos gráficos, en el Centro para el Descubrimiento Causal bajo la tutela del Dr. Greg Cooper y la mentoria del estudiante graduado Bryan Andrews. Este campo busca identificar correctamente la orientación de de relaciones de causalidad, es decir si un agente o causa A controla el resultado de una variable dependiente o efecto B. Ósea, A y B no están casualmente relacionado (A    B),  A causa B (A -> B), B causa A (A <- B) o ambos A y B están mediados por otro agente que los causa a ambos (A<->B). Actualmente los algoritmos que hacen este trabajo están limitados identificando ciertas orientaciones causales como A — B — C, ya que la misma es equivalente en los siguientes tres casos A –> B –> C, A <– B –> C, A <– B <– C. Nuestro trabajo busca poder distinguir entre estos tres casos utilizando información de intervenciones llevadas a cabo por los investigadores y representadas como variables diferentes en los modelos, lo que nos permitirán orientar con certeza este tipo de relaciones causales.

Israel Dilán at Pittsburgh.

Andres Lopez Rivas: Nuestros estudiantes en internados de verano 2017

Hi! I am Andres Lopez Rivas, a Biology undergraduate student at the University of Puerto Rico, Río Piedras campus. Thanks to the IDI-BD2K program, I am currently on an Internship in Biomedical Research, Informatics and Computer Science (iBRIC) at the University of Pittsburgh. Working with professor Takis Benos, I collaborated with graduate students on a groundbreaking research, examining gene expression and pathway analysis involved in resistance to PD-1/PD-L1 immunotherapy on melanoma patients. We are trying to identify biomarkers that can predict the outcome of the patient’s cancer when the immunotherapy is delivered. Understanding the mechanism involved in this immunotherapy is not only important in melanoma patients but also in numerous cancer types like kidney, bladder, non-small cell lung and others since the pathway that this therapy triggers governs in a multitude of cancer types. Nowadays the researchers of medicine, as well as researchers in other branches of investigation, must assume a more interdisciplinary role to encompass the challenges and find a solution. This program not only deepened my knowledge in biology, mathematics and computer science but also gave me the tools to apply it to problems that every researcher in my field faces. At the end of the week all of the interns will be presenting a poster at Duquesne University along with other interns from different programs. Although it has been a challenging 10 week internship, my colleagues and I have been enjoying every minute of it by going to baseball games, festivals, museums, theaters, concerts and many other things the city of Pittsburgh has to offer.

Andres Lopez presenting his poster.

Louis Gil: Nuestros estudiantes en internados de verano 2017

Hi, my name is Louis Gil. I’m a senior from the University of Puerto Rico Rio Piedras Campus, Department of Computer Science. This summer thanks to the IBD2k program, I worked in a computational genomics
research project in UPMC Shadyside Hospital as part of the University of Pittsburgh and DBMI program iBRIC with my mentor William LaFramboise. Here I worked in my first sequencing lab, having the first-hand experience of having your data created right next to you is an amazing feeling, it’s like getting bread right out the oven.

I’m working with papillary renal cell carcinomas which are rare form of kidney cancer that have been sub-classified into type 1 (PP1) and Type 2 (PP2) based on phenotypic differences. Here we were tasked to find molecular difference between these two classes. By then comparing these data sets we could later infer a pathway for each type, such that we can then distinguish main drivers and differences of both subclasses. We worked with expression data, CNV’s, SNP’s and indels, and used tools that were all new to me such as Galaxy (VarScan), Nexus, NIH David, Genome Oncology Browser and IPA (Ingenuity). This hands-on approach to all these tools was a great experience and facing hurdles along the way just motivates you to keep going and not make mistakes.

Pittsburgh is a great city filled with amazing and lovely people and every corner seemed to be an adventure. I also attended many conferences and talks where I learned of new technologies like Tetrad, learned about graduate school and how to improve my skills in presenting and overall skills associated to my field. I made great friends and contacts that will help me in the future to become a better person and professional.

Louis Gil in his work area at UPMC Shadyside Hospital.

Jaziel Torres: Nuestros estudiantes en internados de verano 2017

Soy Jaziel Torres, estudiante subgraduado del Departamento de Matemáticas (UPR-RP), y este próximo semestre comenzaré mi tercer año. Gracias al programa IDI-BD2K me encuentro participando del programa iBRIC (Internship in Biomedical Research, Informatics, and Computer Science) en la Universidad de Pittsburgh. Estoy trabajando con el Dr. Panos K. Chrysanthis y el estudiante graduado Xiaoyu Ge, del departamento de Ciencias de Cómputos de la Universidad de Pittsburgh, en una plataforma experimental que le recomienda al usuario, basado en su localización y sus preferencias, un conjunto de lugares o establecimientos diversos y relevantes para el usuario, los cuales puede visitar. Específicamente mi investigación se enfoca en desarrollar un algoritmo que recomiende una ruta que se pueda completar en menos de una cantidad determinada de tiempo, pasando por una cantidad determinada de lugares o establecimientos y que esa ruta maximice la relevancia de los lugares o establecimientos a visitar, y manteniendo la diversidad de la ruta, tal que dos establecimientos del mismo tipo no sean visitados consecutivamente.
Palabras claves de mi investigación: Informática urbana (Urban Informatics), Problema de satisfacción de condiciones (Constraint Satisfaction Problem), Sistemas de recomendación (Recommender Systems)

Anuncio de nuevo Curso de “Big Data” (MATE 4995, Sección 23)

Universidad de Puerto Rico

Recinto de Rio Piedras

Semestre: primer semestre 2017-2018

Codificación: MATE 4995 Sección 23

Título del curso- Análisis de datos masivos en aplicaciones biomédicas I (BBD1)

Profesora-  Dra.  Maria E. Perez

Requisitos-  MATE 3026 o equivalente y CCOM 3030 o permiso de la profesora.

Este curso busca preparar al estudiante para dos objetivos fundamentales:

  1. Poder trabajar con grandes cantidades de datos.  Algo esencial en futuros aspectos de todo tipo de investigación.  
  2. Poder participar en el proyecto de IDI-BD2K el próximo verano con experiencias de investigación en los Centro de Excelencia de BD2K en las universidades de Harvard, Pittsburgh y la Univ. de California, Santa Cruz.

Estudiantes de cualquier bachillerato de Ciencias Naturales pueden matricularse.

Mas información sobre el proyecto IDI-BD2K

Hoy como nunca antes la investigación  biomédica está generando cantidades masivas de datos, cuyo análisis e interpretación tiene el potencial de producir dramáticos avances en nuestro conocimiento sobre la salud humana y sobre nuestra calidad de vida. El análisis de estos conjuntos masivos de datos (“Big Data”) requiere técnicas que combinan conocimientos en Biología, Química, Estadística, Ciencias  de Cómputo y otras áreas.

El proyecto IDI-BD2K estará ofreciendo el curso MATE 4995 Sección 23 – Análisis de datos masivos en aplicaciones biomédicas I (BBD1) en otoño 2017. En este curso podrás aprender cómo encontrar grupos de genes sobreexpresados en una condición, como el cáncer. Puedes aprender a crear e interpretar modelos lineales que describen la respuesta a un tratamiento. Verán cómo manejar conjuntos masivos de datos genómicos y analizarlos.

Estudiantes que completen este curso y su continuación BBD2 calificarán para ir a un internado en alguno de los Centros de Excelencia de BD2K como Harvard, University of California Santa Cruz, y Pittsburgh.

Para información adicional puedes comunicarte con la Dra. Perez:  maria.perez34@upr.edu

Si aun no estas preparado para tomar BBD1 y 2, asegurate que estas tomando los cursos sugeridos por los Centros de Excelencia BD2K para tu concentración consultando la tabla a continuación:

Curso: MATE 4995 Sección 23 – Análisis de datos masivos en aplicaciones biomédicas I (BBD1)

Descripción del curso

Este curso es un curso intermedio sobre conceptos estadísticos y competencias de programación en el lenguaje de programación R para análisis de datos masivos (“Big Data”). En la primera parte del curso, se revisarán conceptos básicos de la Inferencia Estadística, incluyendo distribuciones de probabilidad, Teorema del Límite Central, intervalos de confianza y pruebas de hipótesis haciendo uso intensivo de R . Posteriormente, se estudiarán modelos lineales comúnmente usados para inferencia estadística. Para ello, se introducirán conceptos fundamentales de álgebra matricial requeridos para la representación y manejo de modelos lineales, así como técnicas de inferencia (estimación, pruebas de hipótesis y diagnósticos) para los mismos. Se discutirán los conceptos de interacción y contraste, y cómo realizar inferencia sobre los mismos. Finalmente, se discutirán varios tópicos estadísticos relevantes para el análisis de grandes volúmenes de datos, incluyendo problemas de múltiples pruebas de hipótesis, tasas de error, procedimientos para control de las tasas de error, tasas de falsos descubrimientos, valores q y métodos exploratorios para grandes volúmenes de datos. Se introducirán conceptos de modelización estadística y su aplicación a grandes volúmenes de datos, discutiendo en particular modelos probabilísticos paramétricos y técnicas de estimación de parámetros. Todo el contenido se discutirá en casos prácticos usando R para programación y análisis de datos.

Este curso expande los cursos PH525.1x: Statistics and R, PH525.2x Data Analysis for Life Sciences 2: Introduction to Linear Models and Matrix Algebra ,  PH525.3x Data Analysis for Life Sciences 3: Statistical Inference and Modeling for High-throughput Experiments  de la secuencia de cursos diseñada por el Prof. Rafael Irizarry (Biostatistics, Harvard University) para HarvardX en http://www.edx.org.

Objetivos del curso

Al finalizar del curso el estudiante podrá:

  1. Identificar variables aleatorias con distribución normal y binomial, y calcular probabilidades asociadas con ellas.
  2. Usar el Teorema del Límite Central para calcular probabilidades asociadas al promedio de grandes cantidades de datos.
  3. Calcular e interpretar p-valores para pruebas de hipótesis asociadas con medias de distribuciones normales o con grandes cantidades de datos.
  4. Calcular e interpretar intervalos de confianza para las situaciones indicadas en 3.
  5. Interpretar la potencia de una prueba de hipótesis
  6. Usar gráficos adecuados para resumir la información en un conjunto de datos.
  7. Usar notación matricial y realizar operaciones entre matrices.
  8. Usar notación matricial para representar modelos lineales y usar operaciones entre matrices para ajustar dichos modeloss
  9. Realizar inferencia sobre modelos lineales, e interpretar términos de interacción y contrastes.
  10. Aplicar técnicas para control de errores en el problema de múltiples pruebas de hipótesis simultáneas.
  11. Aplicar técnicas de inferencia para distintos modelos probabilísticos.
  12. Aplicar técnicas para la exploración de grandes volúmenes de datos.

Estrategias instruccionales

Se usarán estrategias al estilo del Flipped Massive Online Course.  Se usarán el primero, segundo y tercer curso de la serie “Data Analysis for Life Sciences” en el site edX de Harvard creado por el Prof.  Rafael Irizarry, denominados “Statistics and R”, “Introduction to Linear Models and Matrix Algebra” y “Statistical Inference and Modeling for High-throughput Experiments”.  

Bibliografía

  1. Libro de texto: Data Analysis for the Life Sciences. Rafael Irizarry and Michael Love (disponible en http://www.leanpub.com)
  2. Software for Data Analysis: Programming with R (Statistics and Computing) by John M. Chambers (Springer)
  3. S Programming (Statistics and Computing) Brian D. Ripley and William N. Venables (Springer)
  4. Programming with Data: A Guide to the S Language by John M. Chambers (Springer)

Referencias Electrónicas

  1. R reference card (PDF) by Tom Short (more can be found under Short Documents and Reference Cards here)
  2. Quick-R: Quick online reference for data input, basic statistics, and plots 
  3. Thomas Girke’s R & Bioconductor manuals
  4. R programming class on Coursera,  taught by Roger Peng, Jeff Leek, and Brian Caffo
  5. The free “try R” class from Code School is also a good place to start: http://tryr.codeschool.com/
  6. swirl: learn R interactively from within the R console