Data analysis for marketing (language Italian)
por
Marco Riani
Matlab files associated to the course "Data analysis for marketing", University of Parma, Italy (course taught in Italian)
Actualizado
10 jul 2022
Prima settimana (First week)
Ripassare i concetti di scostamenti standardizzati. Confrontare unità statistiche in presenza di fenomeni con diverso ordine di grandezza e diversa scala di misura (zscores)
Calcolare statistiche descrittive e implementare manualmente alcune formule di calcolo in Excele MATLAB. Confrontare la standardizzazione robusta con quella tradizionale (descriptive statistics).
Calcolare statistiche descrittive ponderate e implementare manualmente le formule di calcolo i (descriptive statistics in presence of statistical units with different importance)
Seconda settimana (Second week)
Calcolare statistiche descrittive in presenza di variabili di raggruppamento (statistical indexes in presence of a grouping variable)
Estrarre un campione casuale di unità statistiche da un collettivo (random sampling)
Distribuzioni di frequenze e tabelle a doppia entrata (frequency distribution and contingency tables) Tipologie di rappresentazioni grafiche univariate. Confronto tra l'andamento di due serie storiche. Grafico a cascata (univariate plots)
Terza settimana (Third week) Richiamare i concetti di covarianza e correlazione e implementare manualmente le diverse formule (covariance and correlation) Costruire un diagramma di dispersione dinamico in base alle scelte derivanti da caselle a discesa (dynamic scatter plot with sliders) Costruire la matrice di covarianze e correlazione. Costruire un diagramma di dispersione con etichette personalizzate (covariance and correlation matrix)
Richiamare i concetti di funzione di densità e di funzione di ripartizione. Calcolare in una v.a. normale la funzione di densità e la funzione di ripartizione. Trovare i valori che lasciano alla destra (sinistra) una probabilità prefissata. Calcolare la probabilià di ottenere valori compresi in un determinato intervallo (normal distribution pdf, cdf and quantiles) Calcolare la funzione di densità di una distribuzione normale bivariata e rappresentarla graficamente. (bivariate normal distribution)
Dimostrare empiricamente che il test sull'assenza di relazione lineare tra due variabili, si distribuisce come una v.c. T di Student con n-2 gradi di libertà (test on the correlation coefficient and its empirical distribution).
Dimostrare empiricamente che al crescere della numerosità campionaria diminuisce il valore di rxy ritenuto significativo (test on the correlation coefficient and sample size) Calcolare il coefficiente rho di Spearman per verificare la concordanza di andamento tra due fenomeni misurati almeno su scala ordinale (rank correlation) Calcolare la matrice dei coefficienti rho di Spearman in presenza di gradi ripetuti e valutare la loro significatività (rank correlation with ties).
Quarta settimana (fourth week) Effettuare un'analisi dei dati mancanti e dei valori estremi univariati (ossia esterni all'intervallo [Q1-1.5*IQR Q3+1.5*IQR]) Calcolare medie e deviazioni standard con tutti i dati e solo i dati mancanti (esclusione listwise e pairwise). Analizzare i singoli fenomeni tramite grafici a scatola ed istogrammi (missing data analysis, univariate outliers and boxplots) Analisi preliminari per verificare la presenza di pattern nei dati mancanti e analisi degli outliers. Verifica di ipotesi distributive (discovery patterns in the analysis of missing dat Creare grafici a scatola (boxplot) per sottogruppi di unità. Confronto tramite medie e quantili (boxplots with a grouping variable) Richiamare i concetti di regressione lineare. Comprendere la differenza tra parametri veri e stimati. Verificare empiricamente il teorema di Sastry e Nag (introduction to linear regression)
Quinta settimana (fifth week)
Calcolare i diversi indici di associazione nelle tabelle 2x2 e verificare empiricamente le proprietà dei diversi indici (statistical indexes of association in contingency tables of size 2x2) Densità, ripartizione e quantili in una v.c. Chi quadrato (Chi2 random variable, cdf, pdf and quantiles)
Tabelle di contingenza di dimensione rxc. Analisi della relazione tra appartenenza al partito politico e posizione sulla pena di morte negli USA (statistical indexes of association in contingency tables of size rxc) Calcolare gli indici di eterogeneità assoluti e normalizzati di Gini e di Shannon (entropy indexes)
Calcolare gli indici basati sulla riduzione proporzionale della probabilità di errore e gli indici basati sulla riduzione proporzionale dell'eterogeneità (indexes based on heterogeneity reduction) Introdurre i concetti di coppie concordanti (C) e coppie discordanti (D). Calcolare gli indici gamma, taub e di Somers (indexes of associaton for ordinal variables). Porre in luce la relazione esistente tra un indice di variabilità (d'un certo tipo) riferito all'intero collettivo e gli indici di variabilità (del medesimo tipo) inerenti ai gruppi della partizione. Rappresentare graficamente gli intervalli di confidenza. Test ANOVA di uguaglianza delle medie (ANOVA tests).
Sesta settimana (sixth week) Creare boxplot bivariati. Creare grafici2D con l'aggiunta degli istogrammi (boxplot) sugli asssi cartesiani in presenza di uno o più gruppi (2D plots with histograms and boxplots) Creare diagrammi di dispersione a 3 dimensioni (3D plots)
Scatter plot matrix, rappresentazione iconica, coordinate parallele (advanced plots).
Creare ed interpretare i grafici in coordinate parallele (parallel coordinates plots) Creare ed interpretare i grafici a stella (glyph plots)
Scomposizione spettrale. Scomposizione in valori singolari. Ricostruzione di una matrice di rango p con una matrice di rango ridotto. Valutazione della bontà dell'approssimazione (spectral and svd decomposition). Consolidare le procedure per il calcolo degli autovalori e autovettori (eigenvalues and eigenvectors)
Settima settimana (seventh week) Effettuare la riduzione delle dimensioni tramite la tecnica delle componenti principali. Interpretare le dimensioni latenti. Valutare la bontà dei risultati. (dimension reduction using principal component analysis) Costruzione di un biplot dinamico in cui tramite barre di scorrimento posso visualizzare diverse varianti del biplot (dynamic interactive biplot) Esempi pratici di applicazione della tecnica delle componenti principali (practical application of the theory of dimension reduction)
Ottava settimana (eight week)
Calcolare le distanze di Minkowski e le distanze di Mahalanobis tramite diversi metodi (distances) Esplorare le differenze tra le distanze Euclidee e le distanze di Mahalanobis (euclidean and Mahalanobis distances)
Analisi delle corrispondenze. Relazione tra i profili riga e colonna di una tabella di contingenza. Riduzione delle dimensioni. Scomposizione dell'inerzia (correspondence analysis)
Calcolare diversi indici di similarità. Calcolare la matrice degli indici di similarità di Gower (similarity indexes and Gower index)
Nona settimana (ninth week)
Cluster analysis. Programma di agglomerazione gerarchico. Costruzione del dendrogramma partendo dalla matrice delle distanze oppure dalla matrice dei dati. Esempio pratico di applicazione della tecnica di clustering geerarchico. Costruzione dendrogramma, taglio e allocazione delle unità ai diversi gruppi. Interpretazione dei gruppi che sono stati ottenuti (hierarchical clustering)
Cluster analysis. Metodi non gerarchici. Impostare la funzione obiettivo nel metodo delle k-medie. Iterare per minimizzaze il valore della funzione obiettivo (non hierarchical clustering), k-means) Confrontare diversi metodi di classificazione e diverse metriche. Applicare la cluster analysis a gruppi non sferici. Analizzare l'effetto degli outliers sulla classificazione. Introdurre la classificazione robusta (introduction to robust classification)
Decima settimana (tenth week)
Analisi testuale. Rappresentare graficamente le distribuzione di frequenze delle parole presenti in un testo (cloudplot, nuvola di etichette). Effettuare la "tokenizzazione" (analisi lessicale) del documento, eliminare le "stop words" e creare la distribuzione di frequenze delle parole maggiormente presenti (textual analysis)
Compatibilidad con la versión de MATLAB
Se creó con
R2022a
Compatible con cualquier versión desde R2021b
Compatibilidad con las plataformas
Windows macOS LinuxEtiquetas
Community Treasure Hunt
Find the treasures in MATLAB Central and discover how the community can help you!
Start Hunting!Descubra Live Editor
Cree scripts con código, salida y texto formateado en un documento ejecutable.