26 octubre 2018

Machine Learning, introducción de Alejandro Arranz

Uno cuando lee artículos de Machine Learning puede quedar impresionado por los casos que describen en sus logros gracias a los altgorismos que emplean, pero Alejando Arránz quiso quitar tanta "mitología" y desarrolló su charla como de una manera más sencilla y cercana haciendo una introducción a los de conceptos básicos que emplea

Se presentó como informático programador que trabaja en Datahack Labs en labores de consultoría aunque también daba algunas clases, pero no era su principal función, además nos dijo que no se consideraba más inteligente que los demás sino que simplemente le pone empeño a las cosas en las que trabaja.

Alejandro Arranz
Alejandro Arranz


Empezó con dos definiciones de Machine Learning; la primera como "La ciencia (y el arte) de programar máquinas de manera que estas puedan aprender a partir de los datos".

Por "arte" él entiende que no hay una lista de reglas, sino que depende de los problemas que uno se enfrenta; uno va, con la práctica, creando estrategias y trucos que has experimentado en otros problemas similares, pero no existe un libro donde estén todas las soluciones.

Nos dijo que las personas que se adentran en el mundo del Machine Learning y vienen la parte técnica y de programación, informática, ingeniería... se tienen que enfrentar a un nuevo paradigma porque están acostumbrados a escribir órdenes para máquinas, pero si se enfrentan a Machine Learnin y surgen discrepancias a lo esperado no debe de entenderlas como errores cometidos en su "programación" sino que es la máquina la que va aprendiendo con los datos produciendo "resultados inesperados". No so fallos en "su programación".

Meetup con asistentes a Introducción Machine Learning en Datahack Sevilla
Meetup con asistentes a Introducción Machine Learning en Datahack Sevilla
Otra definición que dio para ML, un poco más técnica, era considerar la fórmula ETR.
E de Experiencia. cuanto más datos vea la máquina con relación a una T (tare) mejor va a ser los resultados (R)

Alejandro nos explico que el ML no es algo nuevo, o por lo menos los fundamentos de su uso se empezaron a usarse cuando los correos se empezaron a llenar de spam y algunos mensajes eran clasificados como tal por detectar palabras y expresiones comunes siguiendo un proceso.

- Detección de palabras
- Codificar algoritmo de detención para todos los patrones detectados.
- Probar el programa y repetir los dos pasos anteriores hasta que el resultado sea bueno.

Este proceso heredado del filtro de correo que ha heredado Machine Learning se le añade un elemento más llamado "Entrenar al modelo" (modelo matemático), que busque patrones y que sean más efectivos que el que haríamos nosotros y, además, se añade una tercera ventaja: la adaptación al cambio, ya que pueden aparecer nuevas reglas. El modelo tiene que aprender y adaptarse.
Pero cuidado, siempre tiene que haber un control para vigilar los datos que le suministremos porque puede ocurrir a veces como le ocurrió a un bot de Microsft, que aprendió de una manera tan inesperada que, al cabo de 24 horas la conversación con el robot, sus expresiones y mensajes derivaron en comentarios machistas, agresivos y xenófobos.

Hubo comentarios y preguntas a Alejandro durante su exposición con dudas y él confirmó algunos casos de errores en la identificación de patrones, como clasificar a dos personas negras como gorilas o el caso que uno de los asistentes comentó casos de machismo, pero dijo que el problema viene más de los sesgos de los datasets que se suministran a las máquinas, más que errores "de programación" (?)

Otras de las preguntas que se hizo era si era siempre necesario la intervención humana par vigilar al modelo, y confirmó que sí, que, a veces hay que realizar ciertos ajustes revisando los resultados y que las predicciones que está dando el modelo son persistentes y si los datos que se le suministra también lo son.

La máquina no solo aprende, el humano también aprende porque puede llevarnos a descubrir tendencias o relaciones que no sospechaba siquiera.

¿Cuando es buen momento para usar Machine Learning?
Cuando nos enfrentemos a problemas cambiantes, que necesiten muchas reglas, muchos datoss o sea humanamente muy difícil hacerlo.

Problemas y tipos de aprendizajes en Machine Learning


APRENDIZAJE SUPERVISADO Y TAMBIÉN PARA APRENDIZAJES NO SUPERVISADOS.
Para explicarlo introdujo dos conceptos, el de FEATURE y el de LABEL=TARGET.

Por feature explicó que serían los datos que se suministra, en caso del correo, sería por ejemplo, cuerpo del correo, asunto, la ip, etc, es decir, los datos que se le van a pasar. Y el LABEL o TARGET sería el resultado a lo que el modelo llegue, en caso del correo sería si es SPAM O NO SPAM.

En el aprendizaje supervisado es el humano el que ayuda al modelo dando las features y tambien las labels.

Sin embargo cuando se aplica el modelo hay que tener en cuenta que pueden surgir problemas, cuando los datos son insuficientes datos y si tenemos muchos o demasiados, ver que tipo de algoritmo puede ser mejor (según la cantidad).

Problemas con los datos
Distintos roblemas con los datos

Otro problema puede ser que lo datos no son representativos, y puso un caso ¿La satisfacción en la vida está relacionada con la renta percápita? y nos mostró un gráfico donde, con los datos reales (puntos azules) se elaboró un modelo diciendo que efectivamente, los países con renta per cápita lo eran, pero el problema se descubre que los datos no son representativos porque con el tiempo, las pruebas de nuevos resultados otros paises resultaron, que diendo más ricos, no estaban tan "feliz de la vida"
(eso se llama sampling noise).
Otro caso seria el sampling bias, cuando la muestra es grande pero el método no es adecuado, no había representativo.

Más problemas, com que se suministren Datos de baja calidad, como outliers que son valores que están muy distantes de los valores medios de la representación. ¿Pero como se gestionan? Se eliminan; pero ¿cómo definirlos? Depende del problema.

los Missig values, por ejemplo registros a los que le faltan algunos huecos, normalmente se dan valores concesuales, o entrenar modelos imputando valores disintos para distintos modelos.

Features irrelevantes. Por ejemplo meter en una base de datos del cliente el nombre del perro. o que países son más felices según las letras que contiene su nombre.

Pero también puede no existir correlación con una causa aparente. Puede existir otras variables ocultas que relaccione una causa con un resultado.
El machine learning dará variables lineales, el deep learning si daria las no lineales.

No solo con los datos podemos tener problemas, también puede ser por los altgoritmos los que nos den quebraderos de cabeza, lo llamados el OVERFITTING, es el riesgo de generalizar y no predecir nada más que los datos que le dan en el entrenamiento. Cuanto más complejo sea el modelo más fácil encontrar relaciones no lineales. Para ello suministraremos más datos.
Otra manera de solucionar el overfitting seria introducir REGULARIZACIÓN, es decir, limitar la libertad del modelo.

UNDERFITTING, otro problema porque se puede dar el caso de tener un modelo tan simple que no abarca la complejidad de los datos que manejamos. La solución sería si hemos metido regularizacion, aflojarla para dar más libertad al modelo.

Alejandro terminóo la última parte de su charla sobre Machine Learning hablando de TRAINING, VALIDACIÓN Y TEST

Pero no se quiso despedir de nosotros sin antes confesarnos que él fue alumno también de Datahack, nos enseñó hasta su diploma, y nos dio varias razones, eligió este máster por los profesores que lo imparten, auténticos profesionales dentro de su sector, por la parte práctica de las enseñanzas, por el trato humano que recibió desde el primer día y porque es un máster vivo, en continua mejora y cambio donde al alumno se le escucha para seguir mejorando.

Merchandaising Datahack
Regalitos, merchandaising que regaló Datahack a los asistentes
VIDEO próximamente: (Se está editando para solucionar un problema de sonido). Mientras se mejora podéis ver esta otra charla que dio en Madrid con relación al mismo tema.

17 octubre 2018

Datahack Sur, presentación en Sevilla

El 16 de octubre del 2018 se inauguró en Sevilla Datahack Sur; apunten esta fecha señores, que eramos poquitos y quizás en un futuro no muy lejano, ojalá seamos muchos los que podamos asistir a presentaciones como esta.
Inauguración Datahack Sur

En la recepción estos chicos de Madrid, y alguno también del sur, nos obsequiaron con iPatch, es decir, un cacharrito de plástico para tapar la webcam de portátiles, a parte de un descuento en los masters que venían a promocionar. Todo un detalle la encuesta para que opináramos del evento, debería de ser algo obligatorio en cualquier conferencia que se precie.


Gregorio Romero nos dió la bienvenida y nos pidió que nos presentáramos. Allí había de todo, estudiantes de informática, empleados de empresas públicas en busca de formación, trabajadores que quieren reciclarse, estudiantes e ingenieros de informática, personas que se han quedado en desempleo y quieren dar un giro a su vida y hasta algún que otro headhunter que trabaja en bigdata, amigo del equipo de Datahack.

Hubo tres presentaciones; primero Javier Moralo habló de Internet de las Cosas, Inteligencia Artificial y Big Data, nos dio datos y fechas muy interesantes en las que todas estas tendencias nacieron, y lo más sorprendente que solo recientemente, se han potenciado.

Javier Moralo y Gregorio Romero de Datahack
Javier Moralo y Gregorio Romero de Datahack
 De IoT, es decir, de la interconexión de objetos cotidianos que a través de Internet son capaces de mandar datos, nos dio unas previsiones para el año 2020 que habrá 6,8 aparatos de este tipo por habitante del planeta.
También nos habló de qué significa BigData, no solo de las tres V que se conoce, Velocidad, Variedad y Volumen, sino también otras "Vs" como de que el BigData tiene que ser Verificado y que aporten Valor.

El campo es tan grande y tan por explorar que afirmó que solo se está usando el 20% de los datos que existen en las empresas para tomar decisiones, por eso prometía un futuro de mucho trabajo en esta área.

Todo se puede medir, hasta el color de Sevilla, ¿Sabéis cual es el color de nuestra ciudad? Tomad nota, el #FFAB60

La siguiente ponencia sobre empleabilidad corrió a cargo de Lourdes, CEO fundadora de Datahack, nos contó como fue la idea de crear ésta; en un principio academia y ahora algo más que un centro de estudio.

Lourdes, CEO de Datahack
Lourdes, CEO de Datahack
AREAS DE DATAHACK

Datahack labs, Consultoria y Proyectos como robots para tratamientos de enfermedades degenerativa.
Datahack Share, Donde comparten toda la información. Comunidad de conocimiento, y sea a través de eventos como meetups o congresos.
Datahack School, Formación con profesores expertos, Práctico. Adaptan el master a lo que demandan las empresas.
Datahack Seed, Un área nueva de recursos humanos, ya que prepara gente, pues ¿por qué no gestionar su empleabilidad?

¿Por qué surge Datahack? Porque existe un gap entre lo que demanda el mercado y los profesionales existen, además la formación que exitía, y que mayor mente sigue exitiendo en estas áreas es/era demasiado teórica. o muy específica en cada materia.

¿Qué hay que saber para estudiar esto? pues muchas herramientas.

Hizo un repaso de las dos áreas que ellos llevan trabajando, el Analytics machine learning y la Arquitectura de datos, además de los nombres que se le dan a estos tipos de especialistas como DATA SCIENTIST, DATA ENGINEER, DATA ARCHITECT, DATA ANALIST, STATISTICIAN, DATABASE ADMINISTRATOR, DATA ANALYTICS...

Pero los profesionales con esos títulos no sólo necesitan APTITUDES como saber estadisticas, analitica, reporting, visualización, almacenamiento y procesamiento, sino que también ACTITUDES como curiosidad, creatividad, flexibilidad, aprendizaje, motivación...

En su presentación, hizo un análisis de como está el mercado en demanda de este tipo de profesionales y, aunque se basó en Infojobs, dijo que no era realmente el mejor sitio para buscarlos, las cifras eran pequeña localmente, pero grandes a nivel mundial en previsiones en los próximos años, además, como confirmó uno de los asistentes, casi el 90% de la oferta no se hace publica, se cuece entre las empresas y los centros de formación, ni da tiempo a publicarlas y si lo hacen es con motivos de autopublicidad para decir que ellos están en "la onda" contratando este tipo de trabajadores de moda.

Lourdes, afirmó que el 100% de los alumnos que terminan el master encuentran trabajo y que el nivel que poseen es como si lo hubieran hecho en una empresa durante dos años como junior, ya que se trabaja con casos reales y siempre prácticos, y sobre todo, porque se dan muchas herramientas, no una, la que por defecto puede usar una empresa en su dia a día.

Para Lourdes, el producto que esta tarde presentaba en Sevilla no era el master, son las personas que forma Datahack.

 Resumen de las ponencias en #VisualThinker
Resumen de las ponencias en #VisualThinker
La presentación final fue de Goyo, que nos explicó el Master en sí, su calendario, sus contenidos y los casos de usos.

En CONTENIDOS, nos explicó los dos grandes bloques en los que consiste, para especializarte en Científico de datos, los encargados de extraer los datos y convertirlos en información. Estaditica, R, python,  y/o arquitecto de datos. Y los Arquitectos de datos, encargados de diseñar la infraestrutura para mantener, extraer y procesarlos. Hadoop, Spark

El calendario, 22 fines de semana hasta abril, antes de feria, en horario de viernes tarde y sábado por la mañana. Aunque siempre se le va a pedir trabajo extra, a una media de dos o tres horas por sesiónn presencial

Los casos de uso seran muy variados, podrán ser desde Análisis de comportamiento de clientes, Personalización oferta, Modelo bursátil, Detección de ciberataques, Seguridad personas, Optimización del transporte, Mejora del rendimiento deportivo, Salud Prevención temprana, etc.

Goyo definió El big data como una solución buscando problema.


Y al igual que Lourdes recomendó los siguientes perfiles para hacer el master:
Personas con conocimientos y/o experiencia técnica.
Que desean mejorar condiciones laborales
Empleados que encuentran estos problemas.
Que estén dispuestos a un esfuerzo extra.

Y las cosas básicas que hay que tener para hacerlo Motivación y Capacidad.

Asi ahi estoy, poniéndome las pilas en programación para ver si puedo optar una plaza en este master de Datahack.

¿Te apuntas conmigo? Si llevo a un amigo nos hacen un buen descuento a los dos.

Venga, pregúntame o, mejor aún, pregúntale a ellos, que estarán encantados de ayudarte.

Asistentes a la inauguración de Datahack Sur
Asistentes a la inauguración de Datahack Sur






15 octubre 2018

Los amigos de mis amigos en Facebook

Aprovechando los conocimientos en la práctica que estoy haciendo he importado desde Facebook usando Lost Circles, una extensión para Chrome, las relaciones que entre mis amigos tienen entre sí y he descubierto entre tres y cuatro grupos grandes y dos menores.
Grupos de amigos de Nono en Facebook
El principal grupo de amigos que tengo en Facebook son los que he hecho en los últimos 10 años gracias a la parte profesional y de eventos relacionados con el Marketing Digital y el emprendimiento en Sevilla; el segundo grupo, al que he llamado los "Alamederos" es de hace más tiempo, unos 20 años y son los amigos que conocí de forma más personal y continuidad, son con los que he compartido vivencias, excursiones, penas y felicidades. Hay un tercer grupo de una antigüedad de 6-8 años relacionados con mis actividades políticas que durante 4 años estuve siendo afiliado en un partido. Hay otros dos grupos menores pero significativos, los amigos que hice cuando fui voluntario del proyecto Andalucía compromiso digital y el último grupo menor es para mis compañeros de universidad, los más antiguos "amigos" pero que en la época en que los conocí no existía Facebook y por supuesto no conocía Internet, hace más de 25 años, ha sido con el tiempo y en un encuentro que tuvimos como recuerdo del 25 aniversario de la carrera cuando agregué a algunos.

Para mí ha sido interesante ver esta clasificación, me ha traído recuerdos y también he descubierto relaciones de amigos que no sabían que se conocían, he visto también amigos que han fallecido pero siguen activos sus perfiles en Facebook y los más aislados son sobre todo extranjeros que pasaron por Sevilla y tuve la oportunidad de establecer una buena amistad, aunque solo durara un par de días.

Grafo de todos mis amigos en Facebook
Grafo de todos mis amigos en Facebook
Si tú eres uno de mis amigos en Facebook, he subido el grafo a internet y puedes buscarte entre esta maraña de nombres poniendo el tuyo en la caja donde poner Search

¿Qué opinas de todo esto? Hay algunos que se asustan que haga esta información pública, ¿Eres de los que van a dejar se ser "mi amigo" por publicarla? o al revés ¿Quieres que te analice tu red de amigos?