Importancia del Big
Data y la Ciencia de Datos en las instituciones públicas de Costa Rica
Fecha
de recibido: 1 de junio 2018
Fecha
de aprobado: 16 de junio de 2018
Resumen— El
crecimiento de los últimos años en las tecnológicas del big data ha dado origen
a un nuevo perfil dentro de las organizaciones, este perfil es el científico de
datos, capaz de utilizar diferentes técnicas del área de la matemática, la estadística y la computación
para transformar datos crudos y convertirlos en insumos claves para los
tomadores de decisiones. Por esta razón, las diferentes organizaciones públicas
deben conocer cuál es la relación de los diferentes conceptos que engloban esta
nueva gama de herramientas e identificar claramente como pueden ser
aprovechadas para mejorar los procesos
de toma de
decisiones disminuyendo los costos operativos en recopilar y procesar
datos.
Palabras clave: Big
Data, Data Science, inteligencia de negocio, minería de datos, machine learnig,
presupuesto público.
Abstract— The growth of the last years in big data technologies
has given rise to a new profile within organizations, this profile is the data
scientist, capable of using different techniques from the area of
mathematics, statistics and computing to transform raw data and turn it into
key inputs for decision makers. For this reason, the different public organizations
must know what is the relationship between the different
concepts is that comprise this new range of tools and clearly identify
how they can be used to improve decision-making processes, reducing operating
costs in collecting and processing data.
Keywords: Big Data, Data Science, business intelligence, data
mining, machine learning, public budget.
Las
diferentes organizaciones públicas sin importar su tamaño, se enfrentan a una
serie de nuevosretos,comoresultadodenuevastendencias o situaciones
donde sobresale el gobierno abierto que exige fortalecer
temas como la transparencia o la opinión pública en el tema del uso efectivo de
los recursos asignados. Aditivo a esto, la gran cantidad de información que se
genera dentro de las organizaciones y fuera de ellas se convierte en un insumo
de gran valor que no siempre logra ser utilizado de la mejor forma.
Por otra
parte, diferentes avances
tecnológicos han desarrollado
técnicas para obtener, procesar y transformar todos esos datos para generar
valor a las organizaciones y mejorar los procesos en la toma de decisiones. Por
todo lo anterior, el presente artículo busca responder la siguiente pregunta:
¿Cómo potenciar la capacidad de análisis de los tomadores de decisiones sin
impactar fuertemente el presupuesto institucional haciendo uso del big data y
la ciencia de datos?
Con
toda esta nueva tendencia tecnológica existen varios
conceptosimportantesqueserelacionanentresí,generando una extensa variedad de
herramientas para realizar análisis avanzado de datos y soluciones innovadoras
que aprovechan bondades de la inteligencia artificial, por esta razón se
detalla brevemente cada uno de estos conceptos antes de
abordar el tema
principal de este
artículo.
A
grandes rasgos se define el big data como información que provenga de cualquier
origen, en cualquier formato y en grandes volúmenes (TB o PB); no obstante,
según el autor que se consulte, existen algunas características que se deben
cumplir para hablar de este tema, estas son las famosas V’s del Big Data, por
ejemplo Majkic[1] afirma que por motivo de la gran cantidad de
información que se produce
en internet se
deben considerar cinco características que son: volumen,
variedad, velocidad, variabilidad y complejidad; dándole especial importancia a
esta última por el trabajo adicional que
se requiere durante la extracción y limpieza de datos. Por otra parte,
Frampton[2] se enfoca en el volumen, variedad, velocidad y la veracidad,
resaltando que esta última es indispensable para garantizar la exactitud de la
información generada. Sin embargo,
considerando los nuevos retos a los que se enfrenta las diferentes
organizaciones públicas de Costa Rica es indispensable considerar siete
características del big data, estas son:
·
Volumen:
Grandes cantidades de datos que ya no se logran procesar con la infraestructura
actual de la organización.
·
Velocidad:
Se refiere a los periodos para capturar la información y los tiempos para
procesar los resultados esperados.
·
Variedad:
Son los datos crudos en cualquier formato.
·
Variabilidad:
Define que los datos se encuentran en constante cambio.
·
Veracidad:
Los resultados deben ser precisos.
·
Visualización:
Los resultados deben mostrarse de forma atractiva, con la cantidad de detalle
necesaria para ayudar en la toma de decisiones.
·
Valor:
Es indispensable que el esfuerzo de almacenar y procesar grandes volúmenes de
datos, generen un valor para la institución.
La
Inteligencia de negocios es la creación de conocimiento a través del análisis
de los datos
en una organización, con el fin
de apoyar la toma de decisiones, considerado al conjunto de acciones necesarias
para lograr ese objetivo como un
proceso de la organización, esto significa que dentro de este proceso es
posible utilizar diferentes herramientas
como la minería de datos[1] o el machine learning[2] para generar conocimiento
con valor para la organización, que potencie la capacidad de los tomadores de
decisiones.
El
big data y el machine learning son temas que se han desarrollado en los últimos
años, básicamente por tres razones principales, la primera es la gran cantidad
de información que se genera cada día a lo interno y externo de la
organización; la segunda son los grandes avances tecnológicos en hardware y
software que permiten costos bajos de almacenamiento y transferencia de datos
con tiempos cortos de procesamiento, para facilitar la publicación de
información precisa y la tercera razón
es por la necesidad de maximizar las habilidades de los tomadores de
decisiones, haciendo un uso eficiente de los recursos públicos por medio de la
innovación pública[3]. Es en este punto donde se establece un nuevo concepto
que es la ciencia de datos, esta última, aunque aún no tiene definiciones
oficiales se puede describir como el arte de crear información valiosa y
precisa a partir de datos crudos sin importar su origen; generando la
necesidad de incluir un nuevo rol dentro
de las organizaciones del Estado, este
rol es el científico de
datos, este perfil se puede
describir como una
persona curiosa y
disciplinada con conocimientos en matemática, estadística e
informática, capaz de
descubrir y mostrar información de
forma creativa.
Ilustración 1 - Relación de
conceptos
La
imagen anterior “Ilustración 1 - Relación de conceptos” muestra en línea con las
diferentes necesidades de las organizaciones públicas en el área de toma de
decisiones, como el proceso de inteligencia de negocios hoy utiliza técnicas
modernas para transformar los datos y
convertirlos en conocimientos
claves que generaran valor a la
organización, además estos datos pueden ser estructurados o no estructurados y
pueden ser generados a lo interno o a lo externo de la organización. Por otra
parte, dentro de estas técnicas se pueden mencionar modelos matemáticos,
estadísticos, minería de datos, machine learning, entre otros.
Es
importante para la correcta implementación de soluciones innovadoras dentro de
las organizaciones públicas, contar con una serie de características indispensables,
estas se describirán a continuación según el criterio de importancia
identificado con la experiencia de las implementaciones realizadas en el Poder
Judicial de Costa Rica, estas características son:
1. Ganas de
innovar: Esta es
la característica más importante
que debe estar presente en las organizaciones que desean
incursionar en este
tipo de soluciones basadas en análisis de datos avanzados, porque se
refiera a la actitud de las personas que trabajen en este ámbito. En el pasado
se esperaba a que los usuarios o interesados describieran una necesidad y a lo
interno se atendía, esta forma de trabajo se cambia y los involucrados en el
proceso innovador descubren y desarrollan soluciones que se le muestran al
usuario para que puedan ser aprovechadas en sus procesos diarios.
2. Acceso a datos: Esta característica se
refiera a la capacidad de la
organización para generar datos que pueden ser estructurados o no estructurados
y la identificación de los datos
generados fuera de la
organización que pueden llegar a aportar valor.
3. Capacidad: Esta se refiere a la
capacidad de la plataforma tecnológica de la organización para procesar y
publicar información, también hace referencia a las habilidades y conocimientos
de las personas involucradas en estos procesos de creación de soluciones con
análisis avanzado de datos.
Las
ganas de innovar se considera la característica más importante, porque en dado caso donde el
acceso a datos o la capacidad sean muy
limitadas, se puede encontrar un equilibrio para desarrollar una solución
innovadora que aproveche los datos y la infraestructura actual de la
organización para incrementar
la capacidad en la toma de decisiones de los usuarios.
Uno
de los procesos más complejos que afrontan las organizaciones del estado es el
control y seguimiento de la ejecución
del presupuesto, en el Poder Judicial
de Costa Rica se implementó una solución que utiliza modelos matemáticos y
machine learning para mejorar
este proceso. La solución cuenta con dos ejes importantes, el primero es
identificar cuáles son los documentos susceptibles a convertirse en compromiso
no devengado[4], para tener una visión general y comenzar a tomar decisiones de forma proactiva; el
segundo era saber según el comportamiento actual del presupuesto cual sería el
resultado final al cierre del año.
Para
esto se desarrolló un método de regresión lineal con machine learning que toma
como insumo más de sesenta mil documentos presupuestarios finalizados y con
esto se entrena un modelo que predice la fecha probable de finalización de los
documentos actuales, este ejercicio permite identificar cuales documentos no se
podrán tramitar este año y así tomar la decisión de caducarlos o asignarle más recurso para su tramitación.
También se desarrolla una métrica porcentual que permite proyectar según la
ejecución a la fecha del presupuesto, cuanto se ejecutará al final de año si se
sigue comportando de la misma forma. Estas dos implementaciones se actualizan
de forma automática todos los días con la información de los
sistemas transaccionales de
la organización.
El
producto final fue un reporte que unifica y muestra la información procesada con indicadores y
gráficos; la implementación de este reporte potencia la capacidad de los
tomadores de decisiones y reduce significativamente el tiempo de generación de
información precisa y oportuna, ahorrándole
al Poder Judicial
de Costa Rica más de cien millones
de colones por
año, al ser utilizado para darle control y
seguimiento al presupuesto por todos
los centros gestores[5]
del país.
Las
nuevas tecnologías y técnicas del big data y la ciencia de datos, nos brindan
un sinfín de herramientas que pueden ser aprovechas por las organizaciones
públicas para desarrollar soluciones
innovadoras en el análisis avanzado de datos, que permitan
de forma eficiente, oportuna y transparente, potenciar la capacidad de las
personas involucradas en los procesos de toma
de decisiones, porque la probabilidad de acertar una buena decisión
reside en la cantidad de información precisa y actual disponible para elegirla.
Además, disminuyen los costos porque estas soluciones pueden desarrollarse en
cortos periodos de tiempo y automatizan procesos de recolección, limpieza,
transformación y presentación
de los datos,
tiempos que pueden
ser utilizados por
los usuarios para
realizar análisis.
También
es importante mencionar
que sin importar
la infraestructura de la
organización o la
cantidad de datos a los que tenga
acceso, siempre se puede implementar una de estas soluciones, únicamente se
debe identificar un caso de uso, elegir las herramientas que se utilizaran para
desarrollarlo y trabajar en esa idea. La implementación de estas soluciones
poco a poco justificará su uso, logrando que la organización descubra la
necesidad de seguir
invirtiendo en ellas.
[1] Z. Majkic, Big Data Integration Theory, Springer, 2014.
[2] M.
Frampton, Complete Guide to Open Source Big Data Stack, APRESS, 2018.
[3] I. H.
Witten, E. Frank y M. A. Hall, Data Mining, Practical Machine Learning Tools
and Techniques, Elsevier, 2011.
[4] A. Vijayvargia, Machine learning with python, BPB
Publications, 2018