R cuadrado en R: interpretación y cálculo
R cuadrado (R2) es una métrica de error estadístico que se utiliza en particular para medir la calidad de las regresiones lineales. En programación en R, puede calcularse mediante una simple llamada a una función.
¿Para qué es importante R cuadrado en R?
R cuadrado es una medida estadística que mide la calidad de ajuste de un modelo de regresión lineal a los datos. Asume valores entre 0 y 1 y es una medida central de la calidad de los modelos de regresión.
Una interpretación de R cuadrado proporciona información sobre lo cerca que están los datos observados de una línea de regresión calculada. Cuanto mayor sea el valor R cuadrado, mejor explica el modelo los datos. Un valor bajo de R cuadrado indica un mal ajuste del modelo.
Con R puedes programar toda una serie de aplicaciones. Si deseas alojar alguna de ellas, te hará falta tu propio espacio web. En IONOS puedes disponer de hosting con espacio web ilimitado que se ajusta a tus necesidades individuales gracias a diversas tarifas.
R cuadrado en R con regresión lineal
R cuadrado en R se utiliza a menudo en el contexto de regresión lineal. Dado que R es un lenguaje de programación que se utiliza a menudo en estadística, no es de extrañar que existan varias funciones de R que ayudan a realizar el cálculo:
x <- c(1, 2, 3, 4, 5)
y <- c(2, 4, 5, 4, 5)
model <- lm(y ~ x)
REn el ejemplo de código anterior, primero se crearon dos vectores en R denominados x e y, que contienen los conjuntos de datos sobre los que se va a realizar la regresión lineal. En este caso, la variable dependiente es la variable y. A continuación se calcula el modelo de regresión mediante la función de R lm()
y se guarda en la variable model.
Cómo calcular R cuadrado en R
El valor R cuadrado en R puede calcularse utilizando una función. Para ello no es necesario tener conocimientos avanzados de matemáticas, solo utilizar la función correcta. Es muy fácil incluso si estás aún aprendiendo a programar.
La función que puede utilizarse para calcular la medida estadística se denomina summary()
. Como su nombre indica, proporciona un resumen del análisis de regresión, incluido el valor R cuadrado. El siguiente ejemplo de código, que se basa en la regresión lineal ya calculada, muestra la función summary()
en acción:
# Recuperar el valor R cuadrado
summary(model)$r.squared
RPuedes utilizar este código para extraer el valor R cuadrado del modelo de regresión lineal lm_model. El valor de R cuadrado indica qué tan bien el modelo explica la variación en la variable dependiente y, basándose en la variable independiente x.
En el ejemplo de código anterior, la función summary()
se aplica al modelo de regresión ya calculado. Al mismo tiempo, el operador R $
se utiliza para mostrar solo el valor R cuadrado de los valores devueltos por la llamada a la función. En nuestro ejemplo, el valor es 0,6.
¿Te gustaría profundizar en el mundo del desarrollo en R? Nuestros artículos pueden ayudarte:
Interpretación del valor R cuadrado
Una vez determinado el valor R cuadrado, se plantea la cuestión de cómo debe interpretarse el resultado. Tiene sentido fijarnos en ciertos intervalos que puede asumir el valor. Como ya se ha mencionado, el intervalo de valores del valor R cuadrado se sitúa entre 0 y 1.
- 0 (sin ajuste): un valor de R cuadrado de 0 significa que el modelo no se ajusta en absoluto a los datos. En este caso, no existe una relación lineal entre las variables analizadas.
- 1 (ajuste perfecto): un valor R cuadrado de 1 indica que todas las observaciones se sitúan perfectamente en la línea de regresión. Esto es muy inusual y puede indicar un exceso de ajuste.
- Entre 0,7 y 0,9 (buen ajuste): un valor R cuadrado en este intervalo indica que el modelo tiene una alta probabilidad de ser un modelo que describe los datos suficientemente bien.
- Entre 0,5 y 0,7 (ajuste aceptable): un valor de R cuadrado comprendido entre 0,5 y 0,7 es aceptable, pero indica que aún puede mejorarse.
- Por debajo de 0,5 (mal ajuste): un valor de R cuadrado inferior a 0,5 indica que el modelo calculado no describe con suficiente precisión los datos subyacentes. En este caso, el modelo debe ajustarse para obtener resultados significativos.
Un valor elevado de R cuadrado no basta por sí solo para juzgar la calidad del modelo. Por lo tanto, al determinar la calidad de un modelo de regresión también deben tenerse en cuenta otros factores, como la validación del modelo, el análisis de los residuos y el ajuste a los requisitos específicos de los datos. La función summary()
ya mostrada te ofrece otros ratios que puedes utilizar en la evaluación.