Show simple item record

dc.contributor.advisorSoto Duran, Darío Enrique
dc.contributor.advisorVargas Agudelo, Fabio Alberto
dc.contributor.authorUrrego Álvarez, Mauricio
dc.contributor.authorYepes Sánchez, Edison
dc.date.accessioned2022-05-17T20:55:25Z
dc.date.available2022-05-17T20:55:25Z
dc.date.issued2022-02-10
dc.identifier.urihttps://dspace.tdea.edu.co/handle/tdea/1953
dc.descriptionilustraciones, anexosspa
dc.description.abstractEsta investigación de maestría consiste en el desarrollo de una propuesta de modelo de clasificación usando técnicas de Machine Learning (ML), mediante el aprendizaje supervisado, que permita asignar una categoría a una transacción realizada en la plataforma de pagos seguros PSE, a partir de su descripción en texto libre. Se realizó una detallada búsqueda de proyectos que permitieron identificar los principales retos, técnicas y metodologías usadas para resolver problemas similares, y sirvieron como apoyo al contexto del proyecto. El modelo propuesto para clasificación de transacciones a través de pasarelas de pago, tiene como propósito apoyar en el análisis de las finanzas personales del sector de la banca. Para el desarrollo de la propuesta, se siguieron las fases de la metodología CRISP-DM, obteniendo como resultado un modelo óptimo de ML, que dio solución al problema de clasificación planteado.spa
dc.description.tableofcontentsContenido Pág. 1. Introducción ........................................................................................................... 17 Motivación ......................................................................................................... 17 Planteamiento del Problema ............................................................................. 18 Pregunta de Investigación ................................................................................. 20 Hipótesis ........................................................................................................... 20 Objetivos ........................................................................................................... 21 1.5.1 Objetivo General ............................................................................................ 21 1.5.2 Objetivos Específicos: ................................................................................... 21 Marco Teórico ................................................................................................... 21 1.6.1 Conceptos Generales: ................................................................................... 21 Machine Learning ..................................................................................................... 21 Big Data ................................................................................................................... 23 Lematización ............................................................................................................ 24 Optimización. ........................................................................................................... 25 Evaluación de modelos. ........................................................................................... 27 1.6.2 Metodologías para Proyectos de Machine Learning. ..................................... 29 KDD (Knowledge Discovery in Databases) .............................................................. 30 CATALYST .............................................................................................................. 31 CRISP-DM (Cross Industry Standard Process for Data Mining) ............................... 33 SEMMA (Sample, Explore, Modify, Model, and Assess) .......................................... 34 ASUM-DM (Analytics Solutions Unified Method for Data Mining) ............................. 35 1.6.3 Algoritmos de Clasificación ............................................................................ 36 KNN (K Vecinos más Cercanos) .............................................................................. 36 SVM (Maquinas de Soporte Vectorial) ..................................................................... 38 Regresión Logística ................................................................................................. 39 Arboles de Decisión ................................................................................................. 40 1.6.4 Pasarela de Pagos: ....................................................................................... 41 Metodología ...................................................................................................... 42 1.7.1 Fase de exploración. ..................................................................................... 42 1.7.2 Fase de Integración. ...................................................................................... 44 1.7.3 Fase de validación. ........................................................................................ 45 2. ESTADO DEL ARTE DE LA APLICACIÓN DE MACHINE LEARNING EN EL DOMINIO DE LA BANCA Y OTROS SECTORES, EN PROBLEMAS DE CLASIFICACIÓN. ........................................................................................................... 46 Revisión de Literatura ....................................................................................... 46 2.1.1 Resumen Comparativo .................................................................................. 53 3. COMPARATIVA ENTRE METODOLOGÍAS PARA EL DESARROLLO DE PROYECTOS DE MACHINE LEARNING....................................................................... 57 Comparativa y Resultados. ............................................................................... 58 4. DEFINICIÓN Y VALIDACIÓN DE LA PROPUESTA. .............................................. 62 Adaptación Metodológica. ................................................................................. 62 Definición del Modelo. ...................................................................................... 63 4.2.1 ANALYSIS .................................................................................................... 65 4.2.2 DATA ENGINEERING ................................................................................... 70 4.2.3 MODELING ................................................................................................... 73 5. Impacto Esperado .................................................................................................. 79 6. Conclusiones y Trabajos Futuros ........................................................................ 80 Conclusiones .................................................................................................... 80 Trabajos Futuros............................................................................................... 82 Lista de figuras Figura 1 Diagrama Ishikawa ............................................................................................ 19 Figura 2 Machine Learning .............................................................................................. 22 Figura 3 Fórmula TF-IDF ................................................................................................. 26 Figura 4 Fórmula IDF ...................................................................................................... 27 Figura 5 Proceso de medición ......................................................................................... 28 Figura 6 Etapas en un proyecto de Machine Learning. .................................................... 29 Figura 7 Metodología KDD. ............................................................................................. 31 Figura 8 Metodología CATALYST (MII). .......................................................................... 32 Figura 9 Metodología CATALYST (MIII). ......................................................................... 33 Figura 10 Metodología CRISP-DM. ................................................................................. 34 Figura 11 Metodología SEMMA....................................................................................... 35 Figura 12 Metodología ASUM-DM. .................................................................................. 36 Figura 13 Algoritmo KNN................................................................................................. 37 Figura 14 Diagrama de Voronoi....................................................................................... 38 Figura 15 Algoritmo SVM ................................................................................................ 39 Figura 16 Función Sigmoide ............................................................................................ 39 Figura 17 Algoritmo Árboles de decisión ......................................................................... 40 Figura 18 Proceso de Pasarela de Pagos. ...................................................................... 41 Figura 19 Pagos Seguros en Línea. PSE. ....................................................................... 42 Figura 20 Encuesta realizada por KDnuggets (2014). ..................................................... 58 Figura 21 Adaptación metodológica ................................................................................ 62 Figura 22 Flujo de trabajo del modelo propuesto ............................................................. 64 Figura 23 Relación financiera .......................................................................................... 66 Figura 24 Proceso de transferencia en PSE .................................................................... 67 Figura 25 Resultado de TF-IDF ....................................................................................... 72 Figura 26 Resultado de entrenamiento con KNN ............................................................ 74 Figura 27 Resultado de entrenamiento con Arboles de Decisión..................................... 75 Figura 28 Resultado de entrenamiento con SVM ............................................................ 75 Figura 29 Resultado de entrenamiento con SVM ............................................................ 76 Figura 30 Resultado de entrenamiento con Regresión Logística ..................................... 76 Figura 31 Ejemplo usando set de pruebas ...................................................................... 77 Figura 32 Ejemplo de estimación .................................................................................... 77 Figura 33 Resultado de la evaluación de modelo ............................................................ 78 Lista de tablas Tabla 1 Proceso de lematización .................................................................................... 25 Tabla 2 Ejemplo TF-IDF .................................................................................................. 26 Tabla 3 Ejemplo TF-IDF .................................................................................................. 26 Tabla 4 Ejemplo TF-IDF .................................................................................................. 27 Tabla 5 Resumen comparativo de artículos .................................................................... 51 Tabla 6 Resumen comparativo de artículos .................................................................... 54 Tabla 7 Resumen comparativo de metodologías ............................................................ 59 Tabla 8 Resumen comparativo de metodologías ............................................................ 59 Tabla 9 Actividades, resultado y objetivo. ....................................................................... 65 Tabla 10 Ejemplo de set de datos de transacciones ....................................................... 68 Tabla 11 Ejemplo de set de datos de transacciones transformado ................................. 71 Tabla 12 Ejemplo de set de datos de etiquetas ............................................................... 72 Tabla 13 Estadísticas del set de datos de evaluación ..................................................... 77spa
dc.format.extent89 páginasspa
dc.format.mimetypeapplication/pdfspa
dc.language.isospaspa
dc.publisherTecnológico de Antioquia, Institución Universitariaspa
dc.rightsTecnológico de Antioquia, Institución Universitaria, 2021spa
dc.rights.urihttps://creativecommons.org/licenses/by-nc/4.0/spa
dc.titleTransformación Digital de la Banca: Modelo basado en Machine Learning para la clasificación de transacciones bancarias realizadas a través de PSE
dc.typeTrabajo de grado - Maestríaspa
dcterms.referencesACH Colombia. (2020). Recuperado de: www.pse.com.cospa
dcterms.referencesAgarwal, S., Mukherjee, P., Chakraborty, B. y Nandi, D. (2019). A Novel Automated Financial Transaction System Using Natural Language Processing, vol. 921. Springer International Publishing.spa
dcterms.referencesAlvarez Munarriz, L. (2001). Antropología Social e Inteligencia Artificial. (pp. 95). ISSN 0213-1404.spa
dcterms.referencesAzevedo, A. y Santos, M. F. (2008). KDD, SEMMA AND CRISP-DM: A PARALLEL OVERVIEW,” Proc. Informatics 2008 Data Min., (pp. 182–185).spa
dcterms.referencesBanco de Bogota. (2021). ¿Sabes cómo funciona la economía? Recuperado de https://www.bancodebogota.com/wps/portal/banco-de-bogota/bogota/educacionfinanciera/ articulos-educacion-financiera/que-es-un-banco/sabes-como-funciona-laeconomiaspa
dcterms.referencesCifuentes Ramos, F. (2016). Clasificación automática de Tweets utilizando K-NN y KMeans como algoritmos de clasificación automática, aplicando TF-IDF y TF-RFL para las ponderaciones (Tesis universitaria). Recuperado de http://opac.pucv.cl/pucv_txt/Txt- 8500/UCD8528_01.pdfspa
dcterms.referencesCios, K. J. y Kurgan, L. A. (2007). Trends in Data Mining and Knowledge Discovery,” Adv. Tech. Knowl. Discov. Data Min., (pp. 1–26).spa
dcterms.referencesClaypoole, R. (2016). Why Traditional PFM Is Dead. Recuperado de https://www.mx.com/moneysummit/why-traditional-pfm-is-dead/spa
dcterms.referencesCurso BIG DATA (2018). Análisis y Visualización de datos.spa
dcterms.referencesDUDA, R., Hart, P.E. y Stork, D.G. (2001). Pattern classification Pattern Classification and Scene Analysis: Pattern Classification”. Wiley, New York.spa
dcterms.referencesDataprix. (2017). “La guía de usuario de CRISP DM”. Recuperado de: https://www.dataprix.com/es/metodologia-crisp-dm-mineria-datos/guia-usuario-crisp-dmspa
dcterms.referencesEdition, S. (2005). “Data Mining and Knowledge Discovery Handbook,” Data Min. Knowl. Discov. Handb.spa
dcterms.referencesFayyad, U., Piatetsky-Shapiro, G. y Smyth, P. (1996). Knowledge Discovery and Data Mining: Towards a Unifying Framework. Int Conf Knowl. Discov. Data Min., (pp. 82–88).spa
dcterms.referencesFayyad, U., Piatetsky-Shapiro, G. y Smyth, P. (1996). The KDD process for extracting useful knowledge from volumes of data,” Commun. ACM, vol. 39, (pp. 27–34).spa
dcterms.referencesGiacomo, G. (2020). 24th European Conference on Artificial Intelligence. España: Santiago de Compostela.spa
dcterms.referencesHe, C., Zhu, B., Zhang, M., Zhuang, Y., He, X. y Du, D. (2015). Customers’ risk type prediction based on analogcomplexing,” Procedia Comput. Sci., vol. 55, (pp. 939–943).spa
dcterms.referencesKDnuggets (2014). ¿Qué metodología principal está utilizando para sus proyectos de análisis, minería de datos o ciencia de datos? Recuperado de: https://www.kdnuggets.com/polls/2014/analytics-data-mining-data-sciencemethodology. htmlspa
dcterms.referencesKhandelwal, R. (2018). Support Vector Machines. Recuperado de: https://medium.datadriveninvestor.com/support-vector-machines-ae0ff2375479spa
dcterms.referencesKim, A. y Cho, S. B. (2019). An ensemble semi-supervised learning method for predicting defaults in social lending,” Eng. Appl. Artif. Intell., vol. 81, (pp. 193–199).spa
dcterms.referencesKim, Y. y Enke, D. (2017). Instance Selection Using Genetic Algorithms for an Intelligent Ensemble Trading System. Procedia Comput. Sci., vol. 114. (pp. 465–472).spa
dcterms.referencesMa, F., Shi, Y., Wang, B. y Chen, Z. (2016). Research on the Classification of Commercial Banks’ Fund Clients Based on Learning with Label Proportions,” Procedia Comput. Sci., vol. 91, (pp. 988–994).spa
dcterms.referencesMahalingam, P. R. y Vivek, S. (2016). Predicting Financial Savings Decisions Using Sigmoid Function and Information Gain Ratio. Procedia Comput. Sci., vol. 93, no. September, (pp. 19–25).spa
dcterms.referencesMérida, J. (2017). Adaptación de estándares de dirección de proyectos particularizados para la minería de datos (Tesis de maestría). Recuperado de http://hdl.handle.net/10651/43633spa
dcterms.referencesMi. Moine, J., Haedo, A. y Gordillo, S. (2011). “Estudio comparativo de metodologías para minería de datos,” XIII Work. Investig. en Ciencias la Comput., (pp. 278–281).spa
dcterms.referencesMoine, J. M. (2013). Metodologías para el descubrimiento de conocimiento en bases de datos: un estudio comparativo, (p. 111).spa
dcterms.referencesMRUSSELL, S., P.A., N., y R.B., G. (1996). Inteligencia Artificial: Un Enfoque Moderno Colección de Inteligencia Artificial. Prentice Hall Hispanoamericana, S.A., Ciudad de México.spa
dcterms.referencesMsc., Lcdo. Chaviano Arteaga, H. (2015). Técnicas de Aprendizaje Supervisado y no Supervisado para el Aprendizaje Automatizado de Computadoras. (pp. 549-564). ISBN 978-9942-17-011-8.spa
dcterms.referencesMURPHY, K. (2012). Machine Learning: A Probabilistic Perspective MIT Press, Massachusetts.spa
dcterms.referencesNoya, E. (2016). ¿Es el fintech el mayor desafío que afronta la banca? Harcard Deusto Business Review. (pp. 22-29) Recuperado de: https://www.gref.org/nuevo/docs/economia_digital_280416.pdfspa
dcterms.referencesPotharaju, S. P. y Sreedevi, M. (2018). A Novel Subset Feature Selection Framework for Increasing the Classification Performance of SONAR Targets. Procedia Comput. Sci., vol. 125, (pp. 902–909).spa
dcterms.referencesPyle, D. (2003). Business Modeling and Data Mining, vol. 2003.spa
dcterms.referencesRojas, J. C. (2016). Sistema Financiero un Análisis del mercado desde la perspectiva del derecho económico. Revista del derecho privado, 56, doi: 10.15425/redepriv.56.2016.02spa
dcterms.referencesRollins, J. (2015). Why we need a methodology for data science | IBM Big Data & Analytics Hub. Recuperado de: https://www.ibmbigdatahub.com/blog/why-we-needmethodology- data-sciencespa
dcterms.referencesSchmid, H. (1999). Improvements in part-of-speech tagging with an application to german. In Natural language processing using very large corpora, (p.13–p.25). Springer.spa
dcterms.referencesSuperintendencia Financiera de Colombia. (2018). “Informe de Operaciones, Segundo Semestre 2018.” Bogotá, D.C.spa
dcterms.referencesTakahashi, M., Azuma, H. y Tsuda, K. (2017). A Study on Validity Detection for Shipping Decision in the Mail-order Industry. Procedia Comput. Sci., vol. 112, (pp. 1318–1325).spa
dcterms.referencesTimarán-Pereira, A. y A., Hernández-Arteaga, S. R., Caicedo-Zambrano, I., Hidalgo-Troya, S. J. y Pérez, J. C. (2016). Proceso de conocimiento en bases de datos The Process of Knowledge Discovery on Databases. (pp. 63–86).spa
dcterms.referencesTupov, V. (2020). Using the Data Scientist Experience in Training. National Research University “MPEI”.spa
dc.publisher.facultyFacultad de Ingenieríaspa
dc.publisher.programMaestría en gestión de tecnologías de la informaciónspa
dc.description.degreelevelMaestríaspa
dc.description.degreenameMagister en gestión de tecnologías de la informaciónspa
dc.publisher.placeMedellínspa
dc.rights.accessrightsinfo:eu-repo/semantics/openAccessspa
dc.rights.creativecommonsAtribución-NoComercial 4.0 Internacional (CC BY-NC 4.0)spa
dc.subject.proposalAprendizaje de máquinaspa
dc.subject.proposalAprendizaje automáticospa
dc.subject.proposalClasificación de textospa
dc.subject.proposalTransacciones bancariasspa
dc.subject.proposalProcesamiento de lenguaje naturalspa
dc.type.coarhttp://purl.org/coar/resource_type/c_bdccspa
dc.type.contentTextspa
dc.type.driverinfo:eu-repo/semantics/masterThesisspa
dc.type.redcolhttps://purl.org/redcol/resource_type/TMspa
dc.type.versioninfo:eu-repo/semantics/publishedVersionspa
oaire.accessrightshttp://purl.org/coar/access_right/c_abf2spa
oaire.versionhttp://purl.org/coar/version/c_ab4af688f83e57aaspa


Files in this item

Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record

Tecnológico de Antioquia, Institución Universitaria, 2021
Except where otherwise noted, this item's license is described as Tecnológico de Antioquia, Institución Universitaria, 2021