Blog
Regressione lineare: il calcolo in Excel
- 06/11/2022
- Scritto da: Grazia Livia Masulli
- Categoria: Excel
Prevedere un risultato basandosi sull’analisi dei dati passati: questo è il concetto alla base della regressione lineare, che consente di effettuare una previsione basandosi sull’analisi della relazione tra variabili dipendenti e indipendenti.
Ad esempio, la regressione lineare può essere usata dagli analisti finanziari per prevedere l’andamento di determinati asset (magari cercare di stimare la relazione tra le vendite di Coca Cola e la temperatura), oppure dalle aziende per fare delle previsioni di evoluzione della domanda in funzione dei prezzi di vendita.
Per fare un altro esempio, la regressione lineare potrebbe essere usata da uno studente che vuole calcolare il proprio rendimento scolastico, in funzione delle ore di studio: almeno inizialmente, più ore di studio dovrebbero portare a voti migliori.
In questo caso si tratta di una relazione lineare positiva tra ore di studio (variabile indipendente) e buoni voti (variabile indipendente).
Studiando Storia 2 ore al mese il mio voto potrebbe essere 4, mentre studiando 20 ore al mese potrebbe essere 8. Con 10 ore di studio sarà un valore intermedio.
In questa breve guida mostreremo come fare una regressione lineare con Excel in modo semplice e intuitivo.
Cos’è la regressione lineare
La regressione lineare è una tecnica statistica, usato per studiare le relazioni tra due o più variabili.
La variabile da trovare è detta “variabile dipendente” ed è indicata usualmente con la lettera Y. Nell’esempio di prima potrebbe essere il mio voto in Storia.
Invece la “variabile indipendente”, indicata normalmente dalla lettera X, è il fattore (o uno dei fattori) che sta influenzando l’andamento della variabile dipendente. Nell’esempio, sarebbe il numero di ore che dedico allo studio della Storia.
Quando stiamo lavorando con una sola variabile indipendente, si parla di regressione lineare semplice. Quando ce n’è più d’una, si parla di regressione lineare multipla.
Quindi, il nostro studente che vuole prevedere il proprio rendimento scolastico potrà scegliere di considerare solo la variabile indipendente del tempo dedicato allo studio, o usare altre variabili indipendenti (ad esempio il numero di ore di sonno o le ore passate in discoteca).
Anche l’azienda che fa previsioni di vendita si servirà di più fattori (più variabili indipendenti), per avere un’analisi più accurata.
Ricordiamo però che se le variabili non hanno tra di loro una relazione che segue una linea retta, allora fare una regressione lineare non è la soluzione corretta.
Questa è una questione teorica, che ci mostra perà quanto sia importante avere una solida base di statistica prima di iniziare una analisi dati complessa con una regressione lineare o non lineare.
Come fare una regressione lineare con Excel
Excel offre la possibilità di fare una regressione lineare con pochissimo sforzo.
Tutto quel che serve è usare gli strumenti aggiuntivi.
Prendiamo ad esempio un’azienda che vende prodotti in un e-commerce online. L’azienda arriva alla fine del secondo trimestre e decide di prevedere le vendite (variabile dipendente) in base al budget investito in advertising pubblicitario (variabile indipendente).
Per poter effettuare questa previsione usando Excel, bisogna creare una tabella così:
Le cifre scritte in rosso sono gli investimenti in marketing messi a budget.
Il nostro compito è capire la relazione che sussiste tra la variabile indipendente, ovvero la spesa in annunci pubblicitari, e quella dipendente, il fatturato.
Ora passiamo al calcolo della regressione lineare tramite Excel, che usa il metodo dei minimi quadrati.
Metodo per operare un’analisi di regressione lineare con Excel
Accedi a File>Opzioni.
Nella finestra di dialogo Opzioni di Excel, seleziona “Componenti aggiuntivi”.
Qui cerca nello Store “Data Analyst Toolpack” e segui la procedura guidata per l‘installazione.
Al termine della procedura, vedrai sulla destra dello schermo una serie di funzioni. Ti basta selezionare “Linear Regression”.
La schermata relativa andrà compilata in questo modo:
Ricordiamo che nell’intervallo di input Y definiremo la variabile dipendente (nel nostro caso, la quantità venduta), mentre nell’intervallo di input X rappresenta la variabile indipendente (la spesa in pubblicità).
Per ora lasciamo l’intervallo di confidenza al 95%, come mostrato dall’immagine sopra. Invece l’output range è la posizione del foglio di lavoro in cui verranno inseriti i risultati finali.
Per comodità in questo esempio è stato selezionato uno spazio poco sotto la tabella presentata prima.
Questo è il risultato dell’analisi di regressione lineare:
Significato del risultato
- R è il coefficiente di Correlazione di Pearson. Misura la forza e la direzione di una relazione lineare tra variabili. -1 significa massima correlazione negativa, 0 nessuna correlazione, 1 massima correlazione positiva. Nel nostro caso quindi si osserva una forte correlazione positiva (le variabili cioè si muovono all’unisono);
- R square (R2, o R al quadrato), è una misura che fornisce informazioni sulla bontà di adattamento di un modello di regressione lineare. Più è vicino a 1, più le variazioni della variabile dipendente sono spiegate dalla variabile indipendente.
Nell’esempio, il valore di R al quadrato è 0,9695, ovvero il 97% – si tratta di un valore molto alto, che segnala che stiamo considerando quasi tutte le variabili indipendenti che hanno effetti sulla variabile dipendente. - Adjusted R square: è un coefficiente simile a R – la differenza è che “penalizza” i modelli con molte variabili indipendenti che non spiegano il fenomeno
- Standard Error (errore standard): di solito si mira ad avere un valore piccolo, che implica una maggiore precisione dell’analisi di regressione. Indica la distanza percentuale media dalla retta di regressione;
- Observations: questo numero rappresenta il numero di osservazioni effettuate. Normalmente più il numero è alto, maggiore precisione avrà il modello;
- ANOVA: questa parte è dedicata all’analisi della varianza;
- Significance F: per chi vuole fare analisi statistiche più complesse, questo valore è importante perché aiuta a capire la significatività statistica dei risultati;
- Coefficienti: puoi usare i coefficienti ottenuti da questa analisi di regressione per impostare le tue previsioni future, secondo l’equazione:
Quantità venduta= intercetta+coefficiente spesa per pubblicità*X.
Vuoi fare pratica con i tuoi dati?
Scarica il file qui sotto contenente il nostro esempio!
Buone analisi!
In un mondo lavorativo sempre più competitivo è fondamentale essere formati
Formazione a distanza specializzata | Garanzia 100% soddisfatti o rimborsati | Oltre 1500 studenti