Bosques aleatorios como extensión de los árboles de clasificación con los programas R y Python
Resumen
El presente artículo presenta la aplicación del método no paramétrico Random Forest mediante el aprendizaje
supervisado, como una extensión de los árboles de clasificación. El algoritmo de Random Forest surge como la agrupación de varios árboles de clasificación; básicamente selecciona de manera aleatoria una cantidad de variables
con las cuales se construye cada uno de los árboles individuales, y se realizan predicciones con estas variables que posteriormente serán ponderadas a través del cálculo de la clase más votada de los árboles que se generaron, para finalmente hacer la predicción por Random Forest. Para la aplicación se trabajó con 3168 registros de voz grabados, para los cuales se presentan los resultados de un análisis acústico, registrándose variables tales como frecuencia, espectro, modulación, entre otras, con lo cual se busca obtener un patrón de identificación y clasificación según género a través de un identificador de voz. El registro de datos utilizado es de acceso libre y puede ser descargado desde la plataforma web de Kaggle a través del enlace <https://www.kaggle.com/primaryobjects/voicegender>. Para el desarrollo del algoritmo del modelo, se recurrió al programa estadístico R. Adicionalmente, se realizaron aplicaciones con Python mediante el desarrollo de algoritmos de clasificación.
Descargas
Citas
Ali, J., Khan, R., Ahmad, N., y Maqsood, I. (2012). Random forests and decision trees. IJCSI International Journal of Computer Science Issues, 9(5), 272-278. Recuperado de http://ijcsi.org/papers/IJCSI9-5-3-272-278.pdf
Alpaydin, E. (2010). Introduction to machine learning (2.a ed.). Massachusetts, Estados Unidos: MIT Press.
Breiman, L., Friedman, J., Stone, C., y Olshen, R. (1984). Classification and regression trees. California, Estados Unidos: Wadsworth, Inc.
Breiman, L. (2001). Random Forests. Machine Learning, 45(1), 5-32. DOI:10.1023/A:1010933404324
Freund, Y., y Schapire, R. (1996). Experiments with a New Boosting Algorithm. En Thirteenth
International Conference on Machine Learning, 148-156. Recuperado de https://webcourse.cs.technion.ac.il/236756/Spring2009/ho/WCFiles/FruendSchapireAdaboostExperiments.pdf
Hastie, T., Friedman, J., y Tibshirani, R. (2001). The Elements of Statistical Learning. Nueva York, Estados Unidos: Springer New York. DOI:10.1007/978-0-387-21606-5
James, G., Witten, D., Hastie, T., y Tibshirani, R. (2013). An Introduction to Statistical Learning: with Applications in R. Nueva York, Estados Unidos: Springer New York / Heidelberg Dordrecht London. DOI:10.1007/978-1-4614-7138-7
Los autores/as que publiquen en esta revista aceptan las siguientes condiciones:
Los autores/as conservan los derechos de autor y ceden a la revista el derecho de la primera publicación, con el trabajo registrado con la licencia de atribución de Creative Commons, que permite a terceros utilizar lo publicado siempre que mencionen la autoría del trabajo y a la primera publicación en esta revista.
Los autores/as pueden realizar otros acuerdos contractuales independientes y adicionales para la distribución no exclusiva de la versión del artículo publicado en esta revista (p. ej., incluirlo en un repositorio institucional o publicarlo en un libro) siempre que indiquen claramente que el trabajo se publicó por primera vez en esta revista.
Se permite y recomienda a los autores/as a publicar su trabajo en Internet (por ejemplo en páginas institucionales o personales) antes y durante el proceso de revisión y publicación, ya que puede conducir a intercambios productivos y a una mayor y más rápida difusión del trabajo publicado (vea The Effect of Open Access).
Última actualización: 03/05/21