Statistics
Tests :
Simple and multiple linear regression in python, with scikit learn and statsmodels api
Normality test in scipy.stats - Tutorial on normality tests in python
Kolmogorov–Smirnov : used to compare a sample with a reference probability distribution (one-sample K–S test).
Test | Parametric | Non parametric |
---|---|---|
Two pop | T test | U test |
One pop with two conditions | Paired T test | Wilcoxon |
RMSE - Root mean square deviation - Ecart Quadratique Moyen Utilise pour quantifier l'erreur d'un modele de prediction ( ou l'erreur d'execution/de mesure entre un capteur et un actuateur, selon celui auquel on se fie)
Standardization :
A more general term than than normalization, that can imply more specific things.
Z score an use case for detecting outliers in time series.
Normalization :
A link where they compute it in python
Correlations :
-
Linear transformation on data do not change Pearson's correlation as it is a linear correlation. However, non linear transformations do. ref
the correlation coefficient is independent of change of origin and scale. As such standardization will not alter the value of correlation. ref
-
Pearson's correlation for so supposedly 2 random variables.
-
Cross correlation : the time cross correlation of time series (Or any indexed signal).
Très proche de la formule pour le produit de convolution
Produit de convolution : fait correspondreà deux fonction f et g une autre fonction « f ∗ g » sur ce domaine, qui en tout point de celui-ci est égale à l'intégrale sur l'entièreté du domaine.
- Autocorrelation is this phenomenon for a time series around itself
-
Coorelation croisée de deux vecteurs != covariance interne d'un vecteur aléatoire unique
La corrélation croisée est parfois utilisée en statistique pour désigner la covariance des vecteurs aléatoires X et Y, afin de distinguer ce concept de la « covariance » d'un vecteur aléatoire, laquelle est comprise comme étant la matrice de covariance des coordonnées du vecteur.
En traitement du signal, la corrélation croisée (aussi appelée covariance croisée) est la mesure de la similitude entre deux signaux.
Agregators :
Moyenne et médiane jouent un rôle similaire dans la compréhension de la tendance centrale d'une série de chiffres. La moyenne a traditionnellement été une mesure populaire d'un point central dans un ensemble, mais elle a l'inconvénient d'être influencée par des valeurs qui sont très inférieures ou supérieures au reste des valeurs. C'est pourquoi la médiane (second quartile) est une meilleure mesure centrale pour les cas où un petit nombre de valeurs aberrantes peut considérablement fausser la moyenne.
Statistical dispersion indicators
Boxplots :
Quartiles :
Un quartile est chacune des trois valeurs qui divisent les données triées en quatre parts égales, de sorte que chaque partie représente 1/4 de l'échantillon de population
- le 1er quartile est la donnée de la série qui sépare les 25 % inférieurs des données (notation Q1) ;
- le 2e quartile est la donnée de la série qui sépare les 50 % inférieurs des données (notation Q2) ; il est également appelé médiane ;
- le 3e quartile est la donnée de la série qui sépare les 75 % inférieurs des données (notation Q3) ;
- Par extension : le 0e quartile est la donnée de la série qui sépare les 0 % inférieurs des données (notation Q0, c'est le minimum) et le 4e quartile est la donnée de la série qui sépare les 0 % supérieurs des inférieurs des données (notation Q4, c'est le maximum)
IQR :
In descriptive statistics, the interquartile range (IQR), also called the midspread, middle 50%, or H‑spread, is a measure of statistical dispersion, being equal to the difference between 75th and 25th percentiles, or between upper and lower quartiles,[1][2] IQR = Q3 − Q1. In other words, the IQR is the third quartile subtracted from the first quartile; these quartiles can be clearly seen on a box plot on the data. It is a trimmed estimator, defined as the 25% trimmed range, and is a commonly used robust measure of scale. ref
Voc :
- Stochastique : produit de l'effet du hazard
- Heteroscedasticity : inverse of the homogeneity of variance
Tools :
Fuzzy logic as a computer science tool not exactly similar to probability logic, both yielding values between 0 and 1.
Logique modale : 4 possibilités pour une proposition :
- nécessaire (ce qui ne peut pas ne pas être vrai), noté ◻
- contingent (ce qui peut être faux), noté ¬◻
- possible (ce qui peut être vrai), noté ◊
- impossible (ce qui ne peut pas ne pas être faux), noté ¬◊
Bayesian inference probabilité des causes à partir des evenements observés.