Importancia del Big Data y la Ciencia de Datos en las instituciones públicas de Costa Rica

 


Msc. Carlos Morales Castro

Universidad de Costa Rica

pro.cmc@gmail.com


Fecha de recibido: 1 de junio 2018

Fecha de aprobado: 16 de junio de 2018


Resumen— El crecimiento de los últimos años en las tecnológicas del big data ha dado origen a un nuevo perfil dentro de las organizaciones, este perfil es el científico de datos, capaz de utilizar diferentes técnicas del área  de la matemática, la estadística y la computación para transformar datos crudos y convertirlos en insumos claves para los tomadores de decisiones. Por esta razón, las diferentes organizaciones públicas deben conocer cuál es la relación de los diferentes conceptos que engloban esta nueva gama de herramientas e identificar claramente como pueden ser aprovechadas para mejorar los procesos  de  toma  de  decisiones  disminuyendo  los costos operativos en recopilar y procesar datos.

Palabras clave: Big Data, Data Science, inteligencia de negocio, minería de datos, machine learnig, presupuesto público.

Abstract— The growth of the last years in big data technologies has given rise to a new profile within organizations, this profile is the data scientist, capable of using different techniques from the area of ​​mathematics, statistics and computing to transform raw data and turn it into key inputs for decision makers. For this reason, the different public organizations must know what is the relationship between the different concepts is that comprise this new range of tools and clearly identify how they can be used to improve decision-making processes, reducing operating costs in collecting and processing data.

Keywords: Big Data, Data Science, business intelligence, data mining, machine learning, public budget.

               I.     INTRODUCCIÓN

Las diferentes organizaciones públicas sin importar su tamaño, se enfrentan a una serie de nuevosretos,comoresultadodenuevastendencias o   situaciones   donde   sobresale   el gobierno abierto que exige fortalecer temas como la transparencia o la opinión pública en el tema del uso efectivo de los recursos asignados. Aditivo a esto, la gran cantidad de información que se genera dentro de las organizaciones y fuera de ellas se convierte en un insumo de gran valor que no siempre logra ser utilizado de la mejor forma.

Por  otra   parte,   diferentes   avances   tecnológicos  han desarrollado técnicas para obtener, procesar y transformar todos esos datos para generar valor a las organizaciones y mejorar los procesos en la toma de decisiones. Por todo lo anterior, el presente artículo busca responder la siguiente pregunta: ¿Cómo potenciar la capacidad de análisis de los tomadores de decisiones sin impactar fuertemente el presupuesto institucional haciendo uso del big data y la ciencia de datos?

             II.     RELACIÓN DE CONCEPTOS

Con toda esta nueva tendencia tecnológica existen varios conceptosimportantesqueserelacionanentresí,generando una extensa variedad de herramientas para realizar análisis avanzado de datos y soluciones innovadoras que aprovechan bondades de la inteligencia artificial, por esta razón se detalla brevemente cada uno de estos conceptos antes  de  abordar  el  tema  principal  de  este  artículo.

A grandes rasgos se define el big data como información que provenga de cualquier origen, en cualquier formato y en grandes volúmenes (TB o PB); no obstante, según el autor que se consulte, existen algunas características que se deben cumplir para hablar de este tema, estas son las famosas V’s del Big Data, por ejemplo Majkic[1] afirma que por motivo de la gran cantidad  de  información  que se  produce  en  internet  se  deben  considerar  cinco características que son: volumen, variedad, velocidad, variabilidad y complejidad; dándole especial importancia a esta última por el trabajo adicional que  se requiere durante la extracción y limpieza de datos. Por otra parte, Frampton[2] se enfoca en el volumen, variedad, velocidad y la veracidad, resaltando que esta última es indispensable para garantizar la exactitud de la información generada. Sin embargo,  considerando los nuevos retos a los que se enfrenta las diferentes organizaciones públicas de Costa Rica es indispensable considerar siete características del big data, estas son:

·      Volumen: Grandes cantidades de datos que ya no se logran procesar con la infraestructura actual de la organización.

·      Velocidad: Se refiere a los periodos para capturar la información y los tiempos para procesar los resultados esperados.

·      Variedad: Son los datos crudos en cualquier formato.

·      Variabilidad: Define que los datos se encuentran en constante cambio.

·      Veracidad: Los resultados deben ser precisos.

·      Visualización: Los resultados deben mostrarse de forma atractiva, con la cantidad de detalle necesaria para ayudar en la toma de decisiones.

·      Valor: Es indispensable que el esfuerzo de almacenar y procesar grandes volúmenes de datos, generen un valor para la institución.

La Inteligencia de negocios es la creación de conocimiento a través del  análisis  de  los  datos  en  una organización, con el fin de apoyar la toma de decisiones, considerado al conjunto de acciones necesarias para lograr ese objetivo  como  un  proceso de la organización, esto significa que dentro de este proceso es posible utilizar diferentes  herramientas como la minería de datos[1] o el machine learning[2] para generar conocimiento con valor para la organización, que potencie la capacidad de los tomadores de decisiones.

El big data y el machine learning son temas que se han desarrollado en los últimos años, básicamente por tres razones principales, la primera es la gran cantidad de información que se genera cada día a lo interno y externo de la organización; la segunda son los grandes avances tecnológicos en hardware y software que permiten costos bajos de almacenamiento y transferencia de datos con tiempos cortos de procesamiento, para facilitar la publicación de información precisa y la tercera razón   es por la necesidad de maximizar las habilidades de los tomadores de decisiones, haciendo un uso eficiente de los recursos públicos por medio de la innovación pública[3]. Es en este punto donde se establece un nuevo concepto que es la ciencia de datos, esta última, aunque aún no tiene definiciones oficiales se puede describir como el arte de crear información valiosa y precisa a partir de datos crudos sin importar su origen; generando la necesidad  de incluir un nuevo rol dentro de las organizaciones   del Estado, este rol es el  científico  de  datos,  este perfil se  puede  describir  como  una  persona  curiosa  y    disciplinada    con    conocimientos    en matemática, estadística   e   informática,   capaz      de         descubrir y      mostrar      información      de      forma     creativa.

Ilustración 1 - Relación de conceptos

La imagen anterior “Ilustración 1 - Relación de conceptos” muestra en línea con las diferentes necesidades de las organizaciones públicas en el área de toma de decisiones, como el proceso de inteligencia de negocios hoy utiliza técnicas modernas para transformar los  datos  y  convertirlos  en  conocimientos  claves  que generaran valor a la organización, además estos datos pueden ser estructurados o no estructurados y pueden ser generados a lo interno o a lo externo de la organización. Por otra parte, dentro de estas técnicas se pueden mencionar modelos matemáticos, estadísticos, minería de datos, machine learning, entre otros.

           III.     REQUISITOS ORGANIZACIONALES PARA SOLUCIONES INNOVADORAS

Es importante para la correcta implementación de soluciones innovadoras dentro de las organizaciones públicas, contar con una serie de características indispensables, estas se describirán a continuación según el criterio de importancia identificado con la experiencia de las implementaciones realizadas en el Poder Judicial de Costa Rica, estas características son:

1.        Ganas de  innovar:  Esta  es  la  característica más importante que debe estar presente en las organizaciones que  desean  incursionar  en  este  tipo de soluciones basadas en análisis de datos avanzados, porque se refiera a la actitud de las personas que trabajen en este ámbito. En el pasado se esperaba a que los usuarios o interesados describieran una necesidad y a lo interno se atendía, esta forma de trabajo se cambia y los involucrados en el proceso innovador descubren y desarrollan soluciones que se le muestran al usuario para que puedan ser aprovechadas en sus procesos diarios.

2.        Acceso a datos: Esta característica se refiera a   la capacidad de la organización para generar datos que pueden ser estructurados o no estructurados y   la identificación de los  datos  generados  fuera  de  la organización que pueden llegar a aportar valor.

3.        Capacidad: Esta se refiere a la capacidad de la plataforma tecnológica de la organización para procesar y publicar información, también hace referencia a las habilidades y conocimientos de las personas involucradas en estos procesos de creación de soluciones con análisis avanzado de datos.

Las ganas de innovar se considera  la  característica  más importante, porque en dado caso donde el acceso   a datos o la capacidad sean muy limitadas, se puede encontrar un equilibrio para desarrollar una solución innovadora que aproveche los datos y la infraestructura actual de la organización  para  incrementar  la capacidad en la toma de decisiones de los usuarios.

           IV.     BREVE EJEMPLO DE IMPLEMENTACIÓN

Uno de los procesos más complejos que afrontan las organizaciones del estado es el control y seguimiento  de la ejecución del presupuesto, en el Poder Judicial    de Costa Rica se implementó una solución que utiliza modelos  matemáticos y machine learning            para mejorar este proceso. La solución cuenta con dos ejes importantes, el primero es identificar cuáles son los documentos susceptibles a convertirse en compromiso no devengado[4], para tener una visión general y comenzar  a tomar decisiones de forma proactiva; el segundo era saber según el comportamiento actual del presupuesto cual sería el resultado final al cierre del año.

Para esto se desarrolló un método de regresión lineal con machine learning que toma como insumo más de sesenta mil documentos presupuestarios finalizados y con esto se entrena un modelo que predice la fecha probable de finalización de los documentos actuales, este ejercicio permite identificar cuales documentos no se podrán tramitar este año y así tomar la decisión de caducarlos   o asignarle más recurso para su tramitación. También se desarrolla una métrica porcentual que permite proyectar según la ejecución a la fecha del presupuesto, cuanto se ejecutará al final de año si se sigue comportando de la misma forma. Estas dos implementaciones se actualizan de forma automática todos los días con la información de  los  sistemas  transaccionales  de  la  organización.

El producto final fue un reporte que unifica y muestra  la información procesada con indicadores y gráficos; la implementación de este reporte potencia la capacidad de los tomadores de decisiones y reduce significativamente el tiempo de generación de información precisa y oportuna, ahorrándole  al  Poder  Judicial  de  Costa Rica más de cien  millones  de  colones  por  año,  al  ser utilizado para darle control y seguimiento al presupuesto  por  todos  los  centros  gestores[5]   del país.

            V.     CONCLUSIÓN

Las nuevas tecnologías y técnicas del big data y la ciencia de datos, nos brindan un sinfín de herramientas que pueden ser aprovechas por las organizaciones públicas para  desarrollar  soluciones  innovadoras  en  el análisis avanzado de datos, que permitan de forma eficiente, oportuna y transparente, potenciar la capacidad de las personas involucradas en los procesos de toma  de decisiones, porque la probabilidad de acertar una buena decisión reside en la cantidad de información precisa y actual disponible para elegirla. Además, disminuyen los costos porque estas soluciones pueden desarrollarse en cortos periodos de tiempo y automatizan procesos  de  recolección,   limpieza,   transformación   y  presentación  de  los  datos,  tiempos  que  pueden  ser  utilizados  por  los  usuarios  para  realizar  análisis.

También es  importante  mencionar  que  sin  importar  la infraestructura  de  la  organización  o  la  cantidad  de datos a los que tenga acceso, siempre se puede implementar una de estas soluciones, únicamente se debe identificar un caso de uso, elegir las herramientas que se utilizaran para desarrollarlo y trabajar en esa idea. La implementación de estas soluciones poco a poco justificará su uso, logrando que la organización descubra  la  necesidad  de  seguir  invirtiendo  en  ellas.

           VI.     REFERENCIAS

[1]       Z. Majkic, Big Data Integration Theory, Springer, 2014.

[2]       M. Frampton, Complete Guide to Open Source Big Data Stack, APRESS, 2018.

[3]       I. H. Witten, E. Frank y M. A. Hall, Data Mining, Practical Machine Learning Tools and Techniques, Elsevier, 2011.

[4]       A. Vijayvargia, Machine learning with python, BPB Publications, 2018