Comparación entre regresión logística y random forest para determinación de factores de violencia de pareja en el Perú
Resumen
La violencia de pareja es una problemática social que ha sido estudiada por diferentes investigadores para los factores que influyen en la ocurrencia de la misma, considerando diferentes entornos, tiempos y locaciones. El 68,2 % de mujeres han sido víctimas de violencia, y el 31,7 % fueron víctimas de agresión física en el Perú. La presente investigación propone nueve modelos basados en logística y random forest con las de chi-square, entropía y Gini, y tres sub escenarios de cinco, diez y veinte variables que utilizaron el dataset de denuncias registradas en el año 2016 del Ministerio de la Mujer. Se obtuvo el mejor resultado de cada subescenario, pero finalmente el mejor modelo fue el de veinte variables utilizando el feature selection random forest (entropy) y el modelo random forest (Gini).