¡Hola! ¿Cómo estás? Somos el grupo 4 de la cohorte 10 de la carrera Data Science (modalidad: Full Time) en la academia Henry. En este repositorio encontrarán nuestro proyecto grupal, o también podríamos decir proyecto final, ya que es el último de la carrera. Para comenzar, te contaré un poco sobre lo que hemos estado haciendo. Después de un examen de ingreso, 3 meses de Bootcamp (cursada regular) y dos proyectos individuales, hemos llegado al proyecto grupal. Para esto, debemos agruparnos de a 5 compañeros con el objetivo de aprender a trabajar en grupo, como un equipo, con el fin de lograr una sinergia que nos permita completar este largo y complejo proyecto en poco mas de tres semanas. Con mucho esfuerzo y un poco de suerte, pronto seremos Data Scientists ;). En este archivo readme.MD encontrarás toda la información necesaria para navegar correctamente a través del repositorio.
Para este proyecto debíamos asumir el rol de un grupo de trabajo en una consultora de data y nuestro cliente sería parte de un conglomerado de empresas de restaurantes y afines. Como tarea se nos pidió un análisis detallado sobre hoteles, restaurantes y otros negocios afines al turismo y ocio, del mercado estadounidense. Se debía hacer en base a la opinión de los usuarios en Yelp, cruzada con la opinión de los usuarios en Google Maps. Había tres objetivos principales. El primero, predecir cuáles serán los rubros de los negocios que más crecerán o decaerán, mediante un análisis de sentimientos. El segundo, era localizar los sitios más convenientes para emplazar los nuevos locales. El último, era crear un sistema de recomendación para los usuarios de ambas plataformas para darles, por ejemplo, la posibilidad de poder conocer nuevos lugares basados en sus experiencias previas. Si deseas estudiar más en profundidad el proyecto, haz click aquí (link) y serás redirigido al archivo con la consigna completa.
Previo a la presentación del equipo vamos a definir los roles y qué tareas deben llevar a cabo. Los tres puestos fundamentales son Data Engineer, Data Analyst y Data Scientist.
- Data Engineer (Ingeniero de datos) Son los encargos de la recopilación, depuración y disponibilización de los datos, para que posteriormente sean tratados.
- Data Analyst (Analista de datos) Son los encargados de analizar la información y luego presentarla.
- Data Scientist (Científico de datos) Son los encargados de la creación de los modelos de machine learning. También se lo podría llamar Machine Learning Specialist.
Cabe destacar que a pesar de definir roles para que cada integrante se centre en una tarea, este grupo trabajara como equipo, y que en caso de que un compañero necesite ayuda, un integrante se puede desempeñar más allá de su función inicial.
Como ya se mencionó, para este proyecto debíamos formar grupos de cinco personas. La división de roles, sería una tarea fundamental para la consecución del objetivo, por lo que era necesario integrantes con distintas cualidades. A continuación se presentara al equipo.
Luz Veronica Oblea Guerrero Linkedin
Data Engineer
¡Hola! Soy Luz Oblea, egresada de la carrera de Arquitectura de Plataformas y Servicios de TI. Como profesional responsable, me enorgullece adherirme a valores sólidos y éticos. Desde el inicio de mi carrera, he demostrado un compromiso inquebrantable con la integridad y la transparencia en todas mis acciones. Considero que el trabajo en equipo y la colaboración son fundamentales para lograr resultados excepcionales. Valoro la diversidad de perspectivas y creo en la importancia de escuchar y aprender de los demás.
Me enorgullece asumir responsabilidad y enfrentar nuevos retos con valentía y determinación. Creo en la importancia de la mejora continua y estoy constantemente buscando oportunidades para crecer profesionalmente y expandir mis habilidades.
Dany Alfredo Tumbajulca Cruzado Linkedin
Data Engineer
Dany A.Tumbajulca Cruzado me desempeño como Medico Veterinario en el area de ganaderia, con gran interes en la ciencia de datos y tecnologias afines, actualmente contribuyo como data enginner en este gran proyecto que me permitira formar parte de la gran comunidad de egresados soyhenry.
Ricardo Esteban Zegarra Pacheco Linkedin
Data Analyst
Mi nombre es Ricardo Zegarra, soy profesional de Ingenieria Industrial, con estudios en proyectos y analisis de datos. Me considero una persona comprometida con los valores de honestidad, mejora continua, respeto, confianza y justicia, y busco aplicar estos valores en todas las acciones que realizo. Mi experiencia en Marketing Digital me ha permitido desarrollar habilidades en el análisis de datos, la generación de informes y la elaboración de estrategias de comunicación efectivas. Además, mi formación en proyectos me ha proporcionado habilidades en la planificación, coordinación y seguimiento de proyectos, así como en la gestión del tiempo y los recursos.
Joel Agustin Camatta Linkedin
Data Scientist
Soy Joel, un entusiasta de la Física y el Data Science. A mis 23 años, me gradué en Física en la UBA, Argentina, y durante mi tiempo en la universidad, descubrí mi pasión por el apasionante mundo del Data Science.
Trabajé durante dos años para ahorrar y hacer realidad mi sueño de dedicarme al Data Science. A partir de ahi, realicé un bootcamp especializado en esta área, que me permitió adquirir habilidades en Machine Learning y Desarrollo de Software.
Lo que realmente me apasiona es combinar estas herramientas para hacer la vida de las personas más sencilla y mejorar su accesibilidad. Me interesa especialmente cómo estas tecnologías pueden empoderar a personas con discapacidades y ayudarles a superar barreras.
Actualmente, estoy inmerso en el fascinante mundo del Deep Learning, centrándome en LLM. Además, en un futuro próximo, tengo planes de estudiar Reinforcement Learning.
Tobias Oliva Pinto Linkedin
Data Analyst
¡Hola! Soy Tobias, un ingeniero industrial de 25 años de Córdoba, Argentina. Mi pasión por la innovación y la exploración me ha llevado al emocionante mundo de la ciencia de datos. Como Data Analyst, combino habilidades técnicas y visión práctica para descubrir ideas transformadoras. Además, tengo experiencia en higiene y seguridad en la industria química, lo cual me brinda un sólido entendimiento de los aspectos prácticos y la importancia de mantener entornos seguros. También he tenido la oportunidad de embarcarme en un emocionante viaje a Italia para obtener mi ciudadanía europea. Este viaje me ha permitido adquirir una perspectiva internacional y una apreciación por la diversidad cultural. Estoy emocionado por utilizar mis habilidades y conocimientos para generar insights valiosos y contribuir al éxito del proyecto.
En este apartado encontrarás una pequeña guia para navegar a través de los archivos del repositorio. Hemos decidido dividir los archivos por area, siendo estas Data Engineer, Data Analytics y MLOps, sumado a una carpeta general, donde hay información pertinente a las 3 areas, con el fin de lograr una disposición simple.
-
ReadME.md (link) → En el archivo "ReadME.md", encontrarán toda la información pertinente al repositorio de Git Hub y como navegar correctamente a traves de el.
-
General (link) → En la carpeta "General", encontrarán información pertinente al proyecto completo.
- Consigna (link) → Es la consigna provista por Henry, contiene los links de los datasets, el contexto del proyecto, los roles que debíamos tomar, los productos que debíamos entregar, entre otra información relativa al proyecto.
- Diagrama de Gantt(.mpp) (link) → En este diagrama de Gantt encontrarán las tareas que se llevaron a cabo en el proyecto, con información adicional como por ejemplo, quien las hizo y en qué momento del proyecto. Este archivo está dispuesto en formato .mpp para una mejor visualización.
- Diagrama de Gantt(.pdf) (link) → En este diagrama de Gantt encontrarán las tareas que se llevaron a cabo en el proyecto, con información adicional como por ejemplo, quien las hizo y en qué momento del proyecto. Este archivo está dispuesto en formato .pdf, para una visualización simple y rápida.
- Presentación grupal N°1 (link) → Es la presentación de la primera semana de trabajo.
- Presentación grupal N°2 (link) → Es la presentación de la segunda semana de trabajo.
- Presentación grupal N°3 (link) → Es la presentación de la tercera semana de trabajo.
- Presentación grupal Final (link) → Es la presentación final del trabajo.
-
Data Engineer (link) → En la carpeta "Data Engineer", encontrarán información pertinente al trabajo realizado en el area de Data Engineer.
-
Data Analytics (link) → En la carpeta "Data Analyticsr", encontrarán información pertinente al trabajo realizado en el area de Data Analytics.
-
MLOps (link) → En la carpeta "MLOps", encontrarán información pertinente al trabajo realizado en el area de MLOps.
En este apartado encontrarán los diferentes subgrupos que hemos seleccionado para este proyecto con sus respectivos cometidos. Esta decisión se toma, ya que se considera fundamental la división de tareas para poder alcanzar el objetivo planteado. Recuerden que el proyecto se debe completar en poco más de tres semanas, a pesar de ser extenso y complejo, por lo que es necesario lograr una sinergia en el equipo para poder completar todas las tareas de forma correcta. Como ya aclaramos, a pesar de lo recientemente explicado, si un compañero tiene complicaciones con sus labores, otro se puede desempeñar más allá de su rol inicial y colaborar con quien lo necesite.
Hola somos el equipo de Data Engineer, en este apartado te describimos el Diseño adecuado del Modelo ER(Power BI), los pipelines para alimentar el DW (Bigquery), implementación, automatización y validación de datos (Mage.ai), migración del proyecto a GCP (Cloud Storage), Data Lake (Cloud Storage + Bigquery).
¡Hola de nuevo! Somos Ricardo y Tobias, el equipo de Data Analytics. Para este proyecto contamos con dos objetivos principales relacionados entre sí. El primero, es la creación de los indicadores claves de rendimiento que contribuyen al análisis solicitado. El segundo, es la construcción de un dashboard interactivo, donde se puedan visualizar el análisis realizado de los datos proveídos. Además, deben estar incluidos los KPI´s en el. Hemos seleccionado BigQuery para hacer el análisis exploratorio de datos propio de este grupo, con el objetivo de luego disponer de los datos en forma deseada para trabajarlos en el próximo paso. En cuanto a la visualización de los datos, hemos optado por Looker Studio. Estas herramientas se han seleccionado ya que pertenecen a Google Cloud Platform, donde el grupo ha decidido llevar a cabo el proyecto. La mayor parte de nuestro trabajo lo podrán encontrar en la carpeta de la tercera semana, donde hallarán nuestro análisis exploratorio de datos, el dashboard interactivo y un informe con toda la información necesaria para navegar correctamente a través del dashboard y poder comprender nuestro análisis.
Buenas, soy Joel del área de Machine Learning Ops. En este proyecto, hemos desarrollado un sistema de recomendación híbrido utilizando técnicas de filtrado colaborativo y filtrado basado en contenido. Para entrenar y evaluar nuestros modelos, utilizamos conjuntos de datos de reviews de Google y Yelp. Además, hemos aplicado herramientas de Procesamiento del Lenguaje Natural (NLP) utilizando modelos como BERT y BART, los cuales hemos obtenido de la biblioteca de Hugging Face. Estos modelos nos han permitido realizar tareas de análisis y comprensión de texto para mejorar la precisión y relevancia de nuestras recomendaciones. En la carpeta MLOps correspondiente a este proyecto, encontrarán todos los detalles sobre nuestro enfoque de recomendación, la implementación de los modelos de NLP y los resultados obtenidos. Espero que les sea de utilidad.