Bosques aleatorios como extensión de los árboles de clasificación con los programas R y Python

  • Rosa Fátima Medina-Merino Universidad de Lima (Perú)
  • Carmen Ismelda Ñique-Chacón Instituto Nacional de Estadística e Informática.(Perú)
Palabras clave: Bosques aleatorios, árboles de clasificación, modelos no paramétricos de clasificación, aprendizaje supervisado, lenguaje R, lenguaje Python

Resumen

El presente artículo presenta la aplicación del método no paramétrico Random Forest mediante el aprendizaje
supervisado, como una extensión de los árboles de clasificación. El algoritmo de Random Forest surge como la agrupación de varios árboles de clasificación; básicamente selecciona de manera aleatoria una cantidad de variables
con las cuales se construye cada uno de los árboles individuales, y se realizan predicciones con estas variables que posteriormente serán ponderadas a través del cálculo de la clase más votada de los árboles que se generaron, para finalmente hacer la predicción por Random Forest. Para la aplicación se trabajó con 3168 registros de voz grabados, para los cuales se presentan los resultados de un análisis acústico, registrándose variables tales como frecuencia, espectro, modulación, entre otras, con lo cual se busca obtener un patrón de identificación y clasificación según género a través de un identificador de voz. El registro de datos utilizado es de acceso libre y puede ser descargado desde la plataforma web de Kaggle a través del enlace <https://www.kaggle.com/primaryobjects/voicegender>. Para el desarrollo del algoritmo del modelo, se recurrió al programa estadístico R. Adicionalmente, se realizaron aplicaciones con Python mediante el desarrollo de algoritmos de clasificación.

Descargas

La descarga de datos todavía no está disponible.

Citas

Ali, J., Khan, R., Ahmad, N., y Maqsood, I. (2012). Random forests and decision trees. IJCSI International Journal of Computer Science Issues, 9(5), 272-278. Recuperado de http://ijcsi.org/papers/IJCSI9-5-3-272-278.pdf

Alpaydin, E. (2010). Introduction to machine learning (2.a ed.). Massachusetts, Estados Unidos: MIT Press.

Breiman, L., Friedman, J., Stone, C., y Olshen, R. (1984). Classification and regression trees. California, Estados Unidos: Wadsworth, Inc.

Breiman, L. (2001). Random Forests. Machine Learning, 45(1), 5-32. DOI:10.1023/A:1010933404324

Freund, Y., y Schapire, R. (1996). Experiments with a New Boosting Algorithm. En Thirteenth

International Conference on Machine Learning, 148-156. Recuperado de https://webcourse.cs.technion.ac.il/236756/Spring2009/ho/WCFiles/FruendSchapireAdaboostExperiments.pdf

Hastie, T., Friedman, J., y Tibshirani, R. (2001). The Elements of Statistical Learning. Nueva York, Estados Unidos: Springer New York. DOI:10.1007/978-0-387-21606-5

James, G., Witten, D., Hastie, T., y Tibshirani, R. (2013). An Introduction to Statistical Learning: with Applications in R. Nueva York, Estados Unidos: Springer New York / Heidelberg Dordrecht London. DOI:10.1007/978-1-4614-7138-7

Publicado
2017-12-18
Cómo citar
Medina-Merino, R. F., & Ñique-Chacón, C. I. (2017). Bosques aleatorios como extensión de los árboles de clasificación con los programas R y Python. Interfases, 10(010), 165-189. https://doi.org/10.26439/interfases2017.n10.1775
Sección
Artículos de divulgación