Mostrar el registro sencillo del ítem
Transformación Digital de la Banca: Modelo basado en Machine Learning para la clasificación de transacciones bancarias realizadas a través de PSE
dc.contributor.advisor | Soto Duran, Darío Enrique | |
dc.contributor.advisor | Vargas Agudelo, Fabio Alberto | |
dc.contributor.author | Urrego Álvarez, Mauricio | |
dc.contributor.author | Yepes Sánchez, Edison | |
dc.date.accessioned | 2022-05-17T20:55:25Z | |
dc.date.available | 2022-05-17T20:55:25Z | |
dc.date.issued | 2022-02-10 | |
dc.identifier.uri | https://dspace.tdea.edu.co/handle/tdea/1953 | |
dc.description | ilustraciones, anexos | spa |
dc.description.abstract | Esta investigación de maestría consiste en el desarrollo de una propuesta de modelo de clasificación usando técnicas de Machine Learning (ML), mediante el aprendizaje supervisado, que permita asignar una categoría a una transacción realizada en la plataforma de pagos seguros PSE, a partir de su descripción en texto libre. Se realizó una detallada búsqueda de proyectos que permitieron identificar los principales retos, técnicas y metodologías usadas para resolver problemas similares, y sirvieron como apoyo al contexto del proyecto. El modelo propuesto para clasificación de transacciones a través de pasarelas de pago, tiene como propósito apoyar en el análisis de las finanzas personales del sector de la banca. Para el desarrollo de la propuesta, se siguieron las fases de la metodología CRISP-DM, obteniendo como resultado un modelo óptimo de ML, que dio solución al problema de clasificación planteado. | spa |
dc.description.tableofcontents | Contenido Pág. 1. Introducción ........................................................................................................... 17 Motivación ......................................................................................................... 17 Planteamiento del Problema ............................................................................. 18 Pregunta de Investigación ................................................................................. 20 Hipótesis ........................................................................................................... 20 Objetivos ........................................................................................................... 21 1.5.1 Objetivo General ............................................................................................ 21 1.5.2 Objetivos Específicos: ................................................................................... 21 Marco Teórico ................................................................................................... 21 1.6.1 Conceptos Generales: ................................................................................... 21 Machine Learning ..................................................................................................... 21 Big Data ................................................................................................................... 23 Lematización ............................................................................................................ 24 Optimización. ........................................................................................................... 25 Evaluación de modelos. ........................................................................................... 27 1.6.2 Metodologías para Proyectos de Machine Learning. ..................................... 29 KDD (Knowledge Discovery in Databases) .............................................................. 30 CATALYST .............................................................................................................. 31 CRISP-DM (Cross Industry Standard Process for Data Mining) ............................... 33 SEMMA (Sample, Explore, Modify, Model, and Assess) .......................................... 34 ASUM-DM (Analytics Solutions Unified Method for Data Mining) ............................. 35 1.6.3 Algoritmos de Clasificación ............................................................................ 36 KNN (K Vecinos más Cercanos) .............................................................................. 36 SVM (Maquinas de Soporte Vectorial) ..................................................................... 38 Regresión Logística ................................................................................................. 39 Arboles de Decisión ................................................................................................. 40 1.6.4 Pasarela de Pagos: ....................................................................................... 41 Metodología ...................................................................................................... 42 1.7.1 Fase de exploración. ..................................................................................... 42 1.7.2 Fase de Integración. ...................................................................................... 44 1.7.3 Fase de validación. ........................................................................................ 45 2. ESTADO DEL ARTE DE LA APLICACIÓN DE MACHINE LEARNING EN EL DOMINIO DE LA BANCA Y OTROS SECTORES, EN PROBLEMAS DE CLASIFICACIÓN. ........................................................................................................... 46 Revisión de Literatura ....................................................................................... 46 2.1.1 Resumen Comparativo .................................................................................. 53 3. COMPARATIVA ENTRE METODOLOGÍAS PARA EL DESARROLLO DE PROYECTOS DE MACHINE LEARNING....................................................................... 57 Comparativa y Resultados. ............................................................................... 58 4. DEFINICIÓN Y VALIDACIÓN DE LA PROPUESTA. .............................................. 62 Adaptación Metodológica. ................................................................................. 62 Definición del Modelo. ...................................................................................... 63 4.2.1 ANALYSIS .................................................................................................... 65 4.2.2 DATA ENGINEERING ................................................................................... 70 4.2.3 MODELING ................................................................................................... 73 5. Impacto Esperado .................................................................................................. 79 6. Conclusiones y Trabajos Futuros ........................................................................ 80 Conclusiones .................................................................................................... 80 Trabajos Futuros............................................................................................... 82 Lista de figuras Figura 1 Diagrama Ishikawa ............................................................................................ 19 Figura 2 Machine Learning .............................................................................................. 22 Figura 3 Fórmula TF-IDF ................................................................................................. 26 Figura 4 Fórmula IDF ...................................................................................................... 27 Figura 5 Proceso de medición ......................................................................................... 28 Figura 6 Etapas en un proyecto de Machine Learning. .................................................... 29 Figura 7 Metodología KDD. ............................................................................................. 31 Figura 8 Metodología CATALYST (MII). .......................................................................... 32 Figura 9 Metodología CATALYST (MIII). ......................................................................... 33 Figura 10 Metodología CRISP-DM. ................................................................................. 34 Figura 11 Metodología SEMMA....................................................................................... 35 Figura 12 Metodología ASUM-DM. .................................................................................. 36 Figura 13 Algoritmo KNN................................................................................................. 37 Figura 14 Diagrama de Voronoi....................................................................................... 38 Figura 15 Algoritmo SVM ................................................................................................ 39 Figura 16 Función Sigmoide ............................................................................................ 39 Figura 17 Algoritmo Árboles de decisión ......................................................................... 40 Figura 18 Proceso de Pasarela de Pagos. ...................................................................... 41 Figura 19 Pagos Seguros en Línea. PSE. ....................................................................... 42 Figura 20 Encuesta realizada por KDnuggets (2014). ..................................................... 58 Figura 21 Adaptación metodológica ................................................................................ 62 Figura 22 Flujo de trabajo del modelo propuesto ............................................................. 64 Figura 23 Relación financiera .......................................................................................... 66 Figura 24 Proceso de transferencia en PSE .................................................................... 67 Figura 25 Resultado de TF-IDF ....................................................................................... 72 Figura 26 Resultado de entrenamiento con KNN ............................................................ 74 Figura 27 Resultado de entrenamiento con Arboles de Decisión..................................... 75 Figura 28 Resultado de entrenamiento con SVM ............................................................ 75 Figura 29 Resultado de entrenamiento con SVM ............................................................ 76 Figura 30 Resultado de entrenamiento con Regresión Logística ..................................... 76 Figura 31 Ejemplo usando set de pruebas ...................................................................... 77 Figura 32 Ejemplo de estimación .................................................................................... 77 Figura 33 Resultado de la evaluación de modelo ............................................................ 78 Lista de tablas Tabla 1 Proceso de lematización .................................................................................... 25 Tabla 2 Ejemplo TF-IDF .................................................................................................. 26 Tabla 3 Ejemplo TF-IDF .................................................................................................. 26 Tabla 4 Ejemplo TF-IDF .................................................................................................. 27 Tabla 5 Resumen comparativo de artículos .................................................................... 51 Tabla 6 Resumen comparativo de artículos .................................................................... 54 Tabla 7 Resumen comparativo de metodologías ............................................................ 59 Tabla 8 Resumen comparativo de metodologías ............................................................ 59 Tabla 9 Actividades, resultado y objetivo. ....................................................................... 65 Tabla 10 Ejemplo de set de datos de transacciones ....................................................... 68 Tabla 11 Ejemplo de set de datos de transacciones transformado ................................. 71 Tabla 12 Ejemplo de set de datos de etiquetas ............................................................... 72 Tabla 13 Estadísticas del set de datos de evaluación ..................................................... 77 | spa |
dc.format.extent | 89 páginas | spa |
dc.format.mimetype | application/pdf | spa |
dc.language.iso | spa | spa |
dc.publisher | Tecnológico de Antioquia, Institución Universitaria | spa |
dc.rights | Tecnológico de Antioquia, Institución Universitaria, 2021 | spa |
dc.rights.uri | https://creativecommons.org/licenses/by-nc/4.0/ | spa |
dc.title | Transformación Digital de la Banca: Modelo basado en Machine Learning para la clasificación de transacciones bancarias realizadas a través de PSE | |
dc.type | Trabajo de grado - Maestría | spa |
dcterms.references | ACH Colombia. (2020). Recuperado de: www.pse.com.co | spa |
dcterms.references | Agarwal, S., Mukherjee, P., Chakraborty, B. y Nandi, D. (2019). A Novel Automated Financial Transaction System Using Natural Language Processing, vol. 921. Springer International Publishing. | spa |
dcterms.references | Alvarez Munarriz, L. (2001). Antropología Social e Inteligencia Artificial. (pp. 95). ISSN 0213-1404. | spa |
dcterms.references | Azevedo, A. y Santos, M. F. (2008). KDD, SEMMA AND CRISP-DM: A PARALLEL OVERVIEW,” Proc. Informatics 2008 Data Min., (pp. 182–185). | spa |
dcterms.references | Banco de Bogota. (2021). ¿Sabes cómo funciona la economía? Recuperado de https://www.bancodebogota.com/wps/portal/banco-de-bogota/bogota/educacionfinanciera/ articulos-educacion-financiera/que-es-un-banco/sabes-como-funciona-laeconomia | spa |
dcterms.references | Cifuentes Ramos, F. (2016). Clasificación automática de Tweets utilizando K-NN y KMeans como algoritmos de clasificación automática, aplicando TF-IDF y TF-RFL para las ponderaciones (Tesis universitaria). Recuperado de http://opac.pucv.cl/pucv_txt/Txt- 8500/UCD8528_01.pdf | spa |
dcterms.references | Cios, K. J. y Kurgan, L. A. (2007). Trends in Data Mining and Knowledge Discovery,” Adv. Tech. Knowl. Discov. Data Min., (pp. 1–26). | spa |
dcterms.references | Claypoole, R. (2016). Why Traditional PFM Is Dead. Recuperado de https://www.mx.com/moneysummit/why-traditional-pfm-is-dead/ | spa |
dcterms.references | Curso BIG DATA (2018). Análisis y Visualización de datos. | spa |
dcterms.references | DUDA, R., Hart, P.E. y Stork, D.G. (2001). Pattern classification Pattern Classification and Scene Analysis: Pattern Classification”. Wiley, New York. | spa |
dcterms.references | Dataprix. (2017). “La guía de usuario de CRISP DM”. Recuperado de: https://www.dataprix.com/es/metodologia-crisp-dm-mineria-datos/guia-usuario-crisp-dm | spa |
dcterms.references | Edition, S. (2005). “Data Mining and Knowledge Discovery Handbook,” Data Min. Knowl. Discov. Handb. | spa |
dcterms.references | Fayyad, U., Piatetsky-Shapiro, G. y Smyth, P. (1996). Knowledge Discovery and Data Mining: Towards a Unifying Framework. Int Conf Knowl. Discov. Data Min., (pp. 82–88). | spa |
dcterms.references | Fayyad, U., Piatetsky-Shapiro, G. y Smyth, P. (1996). The KDD process for extracting useful knowledge from volumes of data,” Commun. ACM, vol. 39, (pp. 27–34). | spa |
dcterms.references | Giacomo, G. (2020). 24th European Conference on Artificial Intelligence. España: Santiago de Compostela. | spa |
dcterms.references | He, C., Zhu, B., Zhang, M., Zhuang, Y., He, X. y Du, D. (2015). Customers’ risk type prediction based on analogcomplexing,” Procedia Comput. Sci., vol. 55, (pp. 939–943). | spa |
dcterms.references | KDnuggets (2014). ¿Qué metodología principal está utilizando para sus proyectos de análisis, minería de datos o ciencia de datos? Recuperado de: https://www.kdnuggets.com/polls/2014/analytics-data-mining-data-sciencemethodology. html | spa |
dcterms.references | Khandelwal, R. (2018). Support Vector Machines. Recuperado de: https://medium.datadriveninvestor.com/support-vector-machines-ae0ff2375479 | spa |
dcterms.references | Kim, A. y Cho, S. B. (2019). An ensemble semi-supervised learning method for predicting defaults in social lending,” Eng. Appl. Artif. Intell., vol. 81, (pp. 193–199). | spa |
dcterms.references | Kim, Y. y Enke, D. (2017). Instance Selection Using Genetic Algorithms for an Intelligent Ensemble Trading System. Procedia Comput. Sci., vol. 114. (pp. 465–472). | spa |
dcterms.references | Ma, F., Shi, Y., Wang, B. y Chen, Z. (2016). Research on the Classification of Commercial Banks’ Fund Clients Based on Learning with Label Proportions,” Procedia Comput. Sci., vol. 91, (pp. 988–994). | spa |
dcterms.references | Mahalingam, P. R. y Vivek, S. (2016). Predicting Financial Savings Decisions Using Sigmoid Function and Information Gain Ratio. Procedia Comput. Sci., vol. 93, no. September, (pp. 19–25). | spa |
dcterms.references | Mérida, J. (2017). Adaptación de estándares de dirección de proyectos particularizados para la minería de datos (Tesis de maestría). Recuperado de http://hdl.handle.net/10651/43633 | spa |
dcterms.references | Mi. Moine, J., Haedo, A. y Gordillo, S. (2011). “Estudio comparativo de metodologías para minería de datos,” XIII Work. Investig. en Ciencias la Comput., (pp. 278–281). | spa |
dcterms.references | Moine, J. M. (2013). Metodologías para el descubrimiento de conocimiento en bases de datos: un estudio comparativo, (p. 111). | spa |
dcterms.references | MRUSSELL, S., P.A., N., y R.B., G. (1996). Inteligencia Artificial: Un Enfoque Moderno Colección de Inteligencia Artificial. Prentice Hall Hispanoamericana, S.A., Ciudad de México. | spa |
dcterms.references | Msc., Lcdo. Chaviano Arteaga, H. (2015). Técnicas de Aprendizaje Supervisado y no Supervisado para el Aprendizaje Automatizado de Computadoras. (pp. 549-564). ISBN 978-9942-17-011-8. | spa |
dcterms.references | MURPHY, K. (2012). Machine Learning: A Probabilistic Perspective MIT Press, Massachusetts. | spa |
dcterms.references | Noya, E. (2016). ¿Es el fintech el mayor desafío que afronta la banca? Harcard Deusto Business Review. (pp. 22-29) Recuperado de: https://www.gref.org/nuevo/docs/economia_digital_280416.pdf | spa |
dcterms.references | Potharaju, S. P. y Sreedevi, M. (2018). A Novel Subset Feature Selection Framework for Increasing the Classification Performance of SONAR Targets. Procedia Comput. Sci., vol. 125, (pp. 902–909). | spa |
dcterms.references | Pyle, D. (2003). Business Modeling and Data Mining, vol. 2003. | spa |
dcterms.references | Rojas, J. C. (2016). Sistema Financiero un Análisis del mercado desde la perspectiva del derecho económico. Revista del derecho privado, 56, doi: 10.15425/redepriv.56.2016.02 | spa |
dcterms.references | Rollins, J. (2015). Why we need a methodology for data science | IBM Big Data & Analytics Hub. Recuperado de: https://www.ibmbigdatahub.com/blog/why-we-needmethodology- data-science | spa |
dcterms.references | Schmid, H. (1999). Improvements in part-of-speech tagging with an application to german. In Natural language processing using very large corpora, (p.13–p.25). Springer. | spa |
dcterms.references | Superintendencia Financiera de Colombia. (2018). “Informe de Operaciones, Segundo Semestre 2018.” Bogotá, D.C. | spa |
dcterms.references | Takahashi, M., Azuma, H. y Tsuda, K. (2017). A Study on Validity Detection for Shipping Decision in the Mail-order Industry. Procedia Comput. Sci., vol. 112, (pp. 1318–1325). | spa |
dcterms.references | Timarán-Pereira, A. y A., Hernández-Arteaga, S. R., Caicedo-Zambrano, I., Hidalgo-Troya, S. J. y Pérez, J. C. (2016). Proceso de conocimiento en bases de datos The Process of Knowledge Discovery on Databases. (pp. 63–86). | spa |
dcterms.references | Tupov, V. (2020). Using the Data Scientist Experience in Training. National Research University “MPEI”. | spa |
dc.publisher.faculty | Facultad de Ingeniería | spa |
dc.publisher.program | Maestría en gestión de tecnologías de la información | spa |
dc.description.degreelevel | Maestría | spa |
dc.description.degreename | Magister en gestión de tecnologías de la información | spa |
dc.publisher.place | Medellín | spa |
dc.rights.accessrights | info:eu-repo/semantics/openAccess | spa |
dc.rights.creativecommons | Atribución-NoComercial 4.0 Internacional (CC BY-NC 4.0) | spa |
dc.subject.proposal | Aprendizaje de máquina | spa |
dc.subject.proposal | Aprendizaje automático | spa |
dc.subject.proposal | Clasificación de texto | spa |
dc.subject.proposal | Transacciones bancarias | spa |
dc.subject.proposal | Procesamiento de lenguaje natural | spa |
dc.type.coar | http://purl.org/coar/resource_type/c_bdcc | spa |
dc.type.content | Text | spa |
dc.type.driver | info:eu-repo/semantics/masterThesis | spa |
dc.type.redcol | https://purl.org/redcol/resource_type/TM | spa |
dc.type.version | info:eu-repo/semantics/publishedVersion | spa |
oaire.accessrights | http://purl.org/coar/access_right/c_abf2 | spa |
oaire.version | http://purl.org/coar/version/c_ab4af688f83e57aa | spa |