Une série d'étapes répétables pour exécuter un certain type de tâche avec des données. Comme pour les structures de données, les personnes qui étudient l'informatique apprennent à connaître différents algorithmes et leur aptitude à effectuer diverses tâches. Les structures de données spécifiques jouent souvent un rôle dans la mise en œuvre de certains algorithmes. Voir aussi la structure de données Une bibliothèque JavaScript open-source gérée par Google et la communauté AngularJS qui permet aux développeurs de créer ce que l'on appelle les applications de page Web unique. AngularJS est populaire auprès des scientifiques des données comme une façon de montrer les résultats de leur analyse. Voir aussi JavaScript. D3 Aussi, AI. La capacité d'avoir des machines agissent avec l'intelligence apparente, bien que différentes définitions de l'intelligence conduisent à une gamme de significations pour la variété artificielle. Dans les premiers jours des années 1960, les chercheurs ont cherché des principes généraux de l'intelligence à mettre en œuvre, en utilisant souvent la logique symbolique pour automatiser le raisonnement. Au fur et à mesure que le coût des ressources informatiques diminue, l'accent est mis davantage sur l'analyse statistique de grandes quantités de données pour stimuler la prise de décision qui donne l'apparence de l'intelligence. Voir aussi apprentissage machine. Data mining En outre, backprop. Un algorithme pour ajuster itérativement les poids utilisés dans un système de réseau neuronal. La rétropropagation est souvent utilisée pour mettre en œuvre la descente en gradient. Voir aussi réseau neuronal. Gradient descent Egalement, Bayes Rule. Une équation pour calculer la probabilité que quelque chose est vrai si quelque chose potentiellement lié à celle-ci est vrai. Si P (A) signifie la probabilité que A soit vrai et P (AB) signifie la probabilité que A soit vraie si B est vraie, alors le Théorème de Bayes nous dit que P (AB) (P (BA) P (A)) P (B). Cela est utile pour travailler avec de faux positifs, par exemple, si x de personnes ont une maladie, le test est correct y du temps, et vous testez positif, Bayes Theorem aide à calculer les chances que vous avez réellement la maladie. Le théorème facilite également la mise à jour d'une probabilité basée sur de nouvelles données, ce qui le rend précieux dans les nombreuses applications où les données continuent à s'accumuler. Nommé pour le statisticien anglais du XVIIIe siècle et le ministre presbytérien Thomas Bayes. Voir aussi le réseau bayésien. Distribution prioritaire Aussi, Bayes net. Les réseaux bayésiens sont des graphes qui représentent de manière compacte la relation entre des variables aléatoires pour un problème donné. Ces graphiques aident à réaliser le raisonnement ou la prise de décision face à l'incertitude. Ce raisonnement repose largement sur la règle de Bayes. Bourg Ces réseaux sont généralement représentés sous la forme de graphiques dans lesquels le lien entre deux nœuds quelconques reçoit une valeur représentant la relation probabiliste entre ces noeuds. Voir aussi Théorème de Bayes. Chaîne de Markov Dans l'apprentissage machine, le biais est une tendance des apprenants à apprendre régulièrement la même chose fausse. La variance est la tendance à apprendre des choses aléatoires indépendamment du signal réel. Il est facile d'éviter la surfaçon (variance) en tombant dans l'erreur opposée de l'underfitting (biais). Simultanément éviter les deux nécessite l'apprentissage d'un classificateur parfait, et à court de le savoir à l'avance il n'ya pas de technique unique qui fera toujours mieux (pas de déjeuner gratuit). Domingos Voir aussi variance. Surfaçage. Classement Comme cela est devenu une expression populaire buzz marketing, les définitions ont proliféré, mais en général, il se réfère à la capacité de travailler avec des collections de données qui avaient été impraticables avant en raison de leur volume, la vitesse et la variété (les trois Vs). Un des principaux moteurs de cette nouvelle capacité a été la distribution plus facile de stockage et de traitement à travers des réseaux de matériel de base peu coûteux utilisant une technologie telle que Hadoop au lieu d'exiger des ordinateurs individuels plus grands et plus puissants. Le travail effectué avec ces grandes quantités de données s'appuie souvent sur les compétences en sciences de données. Une distribution des résultats d'événements indépendants avec deux résultats mutuellement exclusifs possibles, un nombre fixe d'essais et une probabilité constante de succès. Il s'agit d'une distribution de probabilité discrète, par opposition à continue par exemple, au lieu de la représenter graphiquement avec une ligne, vous utiliserez un histogramme, car les résultats potentiels sont un ensemble discret de valeurs. Comme le nombre d'essais représentés par une distribution binomiale augmente, si la probabilité de succès reste constante, les barres d'histogramme deviennent plus minces, et il ressemblera de plus en plus à un graphique de distribution normale. Voir aussi distribution de probabilité. Variable discrète. Histogramme. La distribution normale Chi (prononcée comme la tarte mais commençant par a k) est une lettre grecque, et le chi-carré est une méthode statistique utilisée pour vérifier si la classification des données peut être attribuée au hasard ou à une loi sous-jacente. Websters Le test du chi-carré est une technique d'analyse utilisée pour estimer si deux variables dans un tableau croisé sont corrélées. Shin Une distribution de chi-carré varie de la distribution normale basée sur les degrés de liberté utilisés pour le calculer. Voir aussi distribution normale et Wikipedia sur le test chi-carré et sur la distribution chi-carré. L'identification de laquelle de deux catégories ou plus d'un élément relève d'une tâche classique d'apprentissage automatique. Décider si un message électronique est un spam ou ne le classe pas parmi deux catégories, et l'analyse des données sur les films pourrait conduire à leur classification parmi plusieurs genres. Voir aussi apprentissage supervisé. Clustering Algorithme non supervisé pour diviser les instances de données en groupes, pas un ensemble prédéterminé de groupes, ce qui rendrait cette classification, mais des groupes identifiés par l'exécution de l'algorithme en raison des similitudes qu'il a trouvé parmi les instances. Le centre de chaque groupe est connu sous le nom de centre de gravité. Voir aussi classification. Apprentissage supervisé. Apprentissage non supervisé. K-means grouping Un nombre ou un symbole algébrique préfixé comme multiplicateur à une variable ou inconnue (ex. X dans x (yz). 6 dans 6ab websters Lors de la représentation graphique d'une équation telle que y 3x 4, le coefficient de x détermine les lignes La discussion sur les statistiques mentionne souvent des coefficients spécifiques pour des tâches spécifiques telles que le coefficient de corrélation, le coefficient de Cramers et le coefficient de Gini. Les premiers efforts ont porté sur la traduction d'une langue à l'autre ou l'acceptation de phrases complètes comme des requêtes aux bases de données efforts modernes analysent souvent des documents et d'autres données (par exemple, UIMA Une plage spécifiée autour d'une estimation pour indiquer une marge d'erreur, combinée à une probabilité qu'une valeur tombe dans cette plage. Le champ de statistiques offre des formules mathématiques spécifiques pour calculer les intervalles de confiance. Une variable dont la valeur peut être n'importe laquelle d'un nombre infini de valeurs, typiquement dans une plage particulière. Par exemple, si vous pouvez exprimer l'âge ou la taille avec un nombre décimal, ce sont des variables continues. Dans un graphique, la valeur d'une variable continue est généralement exprimée sous la forme d'une ligne tracée par une fonction. Comparer la variable discrète Le degré de correspondance relative entre deux ensembles de données. Websters Si les ventes augmentent lorsque le budget publicitaire augmente, ils sont en corrélation. Le coefficient de corrélation est une mesure de la corrélation entre les deux ensembles de données. Un coefficient de corrélation de 1 est une corrélation parfaite. 9 est une corrélation forte, et .2 est une corrélation faible. Cette valeur peut également être négative, comme lorsque l'incidence d'une maladie diminue lorsque les vaccins augmentent. Un coefficient de corrélation de -1 est une corrélation négative parfaite. Rappelez-vous toutefois que la corrélation n'implique pas la causalité. Voir aussi coefficient A mesure de la relation entre deux variables dont les valeurs sont observées en même temps spécifiquement, la valeur moyenne des deux variables diminuée par le produit de leurs valeurs moyennes. Alors que la variance mesure comment une seule variable s'écarte de sa moyenne, la covariance mesure comment deux variables varient en tandem de leurs moyens. Grus Voir aussi la variance. Moyen Lors de l'utilisation de données avec un algorithme, le nom donné à un ensemble de techniques qui divisent les données en ensembles d'entraînement et ensembles de tests. L'ensemble d'apprentissage est donné à l'algorithme, avec les réponses correctes. Et devient l'ensemble utilisé pour faire des prédictions. On demande ensuite à l'algorithme de faire des prédictions pour chaque élément de l'ensemble de test. Les réponses qu'il donne sont comparées aux bonnes réponses, et un score global pour la façon dont l'algorithme a fait est calculé. Segaran Voir aussi l'apprentissage de la machine Data-Driven Documents. Une bibliothèque JavaScript qui facilite la création de visualisations interactives intégrées dans les pages Web. D3 est populaire auprès des scientifiques des données comme un moyen de présenter les résultats de leur analyse. Voir aussi AngularJS. JavaScript Un spécialiste des disputes de données. Les ingénieurs de données sont ceux qui prennent les données désordonnées. Et construire l'infrastructure pour une analyse réelle et tangible. Ils exécutent le logiciel ETL, épousent des ensembles de données, enrichissent et nettoient toutes les données que les entreprises ont stockées depuis des années. Biewald Voir aussi les données wrangling. (Une recherche Wikipedia pour l'ingénierie des données redirige vers l'ingénierie de l'information, un terme plus ancien qui décrit un travail plus axée sur l'entreprise avec une plus grande responsabilité de l'architecture système et moins de travail pratique avec les données.) Généralement, De chercher des modèles qui permettent aux gens de prendre des décisions d'affaires. Bien que cela ressemble à beaucoup de ce que la science des données est au sujet, l'utilisation populaire du terme est beaucoup plus ancienne, remontant au moins aux années 1990. Voir aussi science des données Capacité d'extraire des connaissances et des idées à partir de grands ensembles de données complexes. Patil Le travail en science des données requiert souvent une connaissance à la fois des statistiques et du génie logiciel. Voir aussi ingénieur de données. Machine learning Une disposition particulière des unités de données telles qu'un tableau ou un arbre. Les personnes qui étudient l'informatique apprennent à connaître les différentes structures de données et leur aptitude à effectuer diverses tâches. Voir aussi algorithme Aussi, data munging. La conversion de données, souvent par l'utilisation de langages de script, pour faciliter le travail. Si vous avez 900 000 valeurs birthYear du format aaaa-mm-dd et 100 000 du format mmddyyyy et que vous écrivez un script Perl pour convertir ce dernier en ressemblant à l'ancien de sorte que vous puissiez les utiliser tous ensemble, vous faites des querelles de données. Les discussions sur la science des données déplorent souvent le pourcentage élevé de temps que les praticiens doivent consacrer à la recherche de données pour discuter des discussions, puis recommander l'embauche d'ingénieurs de données pour y remédier. Voir aussi Perl. Python. coquille. Ingénieur de données Un arbre de décision utilise une arborescence pour représenter un nombre de chemins de décision possibles et un résultat pour chaque chemin. Si vous avez déjà joué le jeu Twenty Questions, il s'avère que vous êtes familier avec les arbres de décision. Grus Voir aussi forêt aléatoire Généralement, un algorithme multi-niveaux qui identifie graduellement les choses à des niveaux plus élevés d'abstraction. Par exemple, le premier niveau peut identifier certaines lignes, puis le niveau suivant identifie des combinaisons de lignes comme des formes, puis le niveau suivant identifie des combinaisons de formes en tant qu'objets spécifiques. Comme vous pouvez le deviner à partir de cet exemple, l'apprentissage en profondeur est populaire pour la classification des images. Voir aussi réseau neuronal La valeur d'une valeur dépendante dépend de la valeur de la variable indépendante. Si vous mesurez l'effet des différentes tailles d'un budget publicitaire sur les ventes totales, alors le chiffre du budget publicitaire est la variable indépendante et le chiffre d'affaires total est la variable dépendante. En outre, réduction de la dimensionnalité. Nous pouvons utiliser une technique appelée analyse de composant principal pour extraire une ou plusieurs dimensions qui capturent autant de variation dans les données que possible. La réduction de la dimensionnalité est surtout utile lorsque votre jeu de données a un grand nombre de dimensions et que vous souhaitez trouver un petit sous-ensemble qui capture la majeure partie de la variation. Grus L'algèbre linéaire peut être impliquée de façon générale, l'algèbre linéaire consiste à traduire quelque chose résidant dans un espace m-dimensionnel en une forme correspondante dans un espace n-dimensionnel. Shin Voir aussi algèbre linéaire Variable dont les valeurs potentielles doivent être d'un nombre spécifique de valeurs. Si quelqu'un calcule un film avec entre une et cinq étoiles, sans étoiles partielles autorisées, la note est une variable discrète. Dans un graphique, la distribution des valeurs d'une variable discrète est habituellement exprimée sous la forme d'un histogramme. Voir aussi variable continue. Histogramme L'utilisation de méthodes mathématiques et statistiques dans le domaine de l'économie pour vérifier et développer des théories économiques websters L'expression machine d'apprentissage pour une information mesurable sur quelque chose. Si vous stockez l'âge, le revenu annuel et le poids d'un ensemble de personnes, vous stockez trois caractéristiques à leur sujet. Dans d'autres domaines du monde de l'informatique, les gens peuvent utiliser les termes propriété, attribut ou champ au lieu de fonctionnalité. Voir aussi l'ingénierie des fonctions Pour obtenir un bon modèle, il faut souvent plus d'effort et d'itération et un processus appelé ingénierie des fonctions. Les caractéristiques sont les entrées des modèles. Ils peuvent impliquer des données brutes de base que vous avez collectées, telles que le montant de la commande, des variables dérivées simples, telles que la date de la commande est sur un week-end OuiNon, ainsi que des fonctionnalités abstraites plus complexes, comme le score de similarité entre deux films. Penser vers le haut des dispositifs est autant un art comme une science et peut compter sur la connaissance de domaine. Anderson Voir aussi la rubrique Architecture générale pour Text Engineering, un framework open source basé sur Java pour les tâches de traitement du langage naturel. Le cadre vous permet de pipeline d'autres outils conçus pour être branché en elle. Le projet est basé à l'université britannique de Sheffield. Voir aussi linguistique computationnelle. UIMA Gradient boosting est une technique d'apprentissage automatique pour les problèmes de régression et de classification, qui produit un modèle de prédiction sous la forme d'un ensemble de modèles de prédiction faibles, typiquement des arbres de décision. Il construit le modèle d'une manière scénique comme les autres méthodes de stimulation, et il les généralise en permettant l'optimisation d'une fonction de perte différentiable arbitraire. Wikipediagb Algorithme d'optimisation pour trouver l'entrée d'une fonction qui produit la plus grande (ou la plus petite) valeur possible. Une approche pour maximiser une fonction est de choisir un point de départ aléatoire, de calculer le gradient, de prendre une petite étape dans la direction du gradient (c'est-à-dire la direction qui fait augmenter la fonction la plus) et de répéter avec le nouveau point de départ. De même, vous pouvez essayer de minimiser une fonction en prenant de petites étapes dans la direction opposée. Grus Voir aussi backpropagation Un langage de script (sans rapport avec Java) initialement conçu au milieu des années 1990 pour intégrer la logique dans les pages Web, mais qui a ensuite évolué vers un langage de développement plus général. JavaScript continue d'être très populaire pour intégrer la logique dans les pages Web, avec de nombreuses bibliothèques disponibles pour améliorer le fonctionnement et la présentation visuelle de ces pages. Voir aussi AngularJS. D3 Algorithme de data mining pour regrouper, classifier ou regrouper vos N objets en fonction de leurs attributs ou fonctions en K nombre de groupes (dits clusters). Parsian Voir aussi clustering Aussi, kNN. Un algorithme d'apprentissage automatique qui classe les choses en fonction de leur similitude avec les voisins voisins. Vous ajustez l'exécution des algorithmes en choisissant combien de voisins à examiner (k) ainsi que quelques notion de distance pour indiquer à quel point les voisins sont proches. Par exemple, dans un réseau social, un ami de votre ami pourrait être considéré comme le double de la distance loin de vous en tant que votre ami. La similarité serait la comparaison des valeurs des caractéristiques dans les voisins comparés. Voir aussi classification. Dans les statistiques, les variables latentes (du latin: participe présent de lateo (mensonge caché) par opposition aux variables observables) sont des variables qui ne sont pas directement observées mais qui sont plutôt inférées (à l'aide d'un modèle mathématique) d'autres variables observées Directement mesuré). Les modèles mathématiques qui visent à expliquer les variables observées en termes de variables latentes sont appelés modèles de variables latentes. Wikipedialv Lift compare la fréquence d'un modèle observé avec la fréquence à laquelle vous prévoyez voir ce pattern par hasard. Si l'ascenseur est près de 1, il ya une bonne chance que le modèle que vous avez observé se produit par hasard. Plus l'ascenseur est grand, plus le motif est réel. Zumel Une branche des mathématiques traitant des espaces vectoriels et des opérations sur eux tels que l'addition et la multiplication. L'algèbre linéaire est conçue pour représenter des systèmes d'équations linéaires. Les équations linéaires sont conçues pour représenter des relations linéaires, où une entité est écrite pour être une somme de multiples d'autres entités. Dans le raccourci de l'algèbre linéaire, une relation linéaire est représentée comme une matrice operatora linéaire. Zheng Voir aussi le vecteur. Espace vectoriel. matrice. Coefficient Une technique pour rechercher une relation linéaire (c'est-à-dire où la relation entre deux quantités variables, comme le prix et les ventes, peut être exprimée avec une équation que vous pouvez représenter en ligne droite sur un graphe) en commençant par un Ensemble de points de données qui ne s'alignent pas nécessairement bien. Cela se fait en calculant la ligne des moindres carrés: celle qui a, sur un graphique x-y, la plus petite somme possible de distances carrées au point de données réel y. Les logiciels statistiques offrent des moyens automatisés pour le calculer. Voir aussi régression. Régression logistique Si y 10 x. Puis log (y) x. Travailler avec le journal d'une ou plusieurs variables de modèles, au lieu de leurs valeurs d'origine, peut faciliter la modélisation des relations avec des fonctions linéaires au lieu de celles non linéaires. Les fonctions linéaires sont généralement plus faciles à utiliser dans l'analyse des données. (L'exemple log (y) x est celui de la base log 10. Les logarithmes naturels, ou log base e où e est un nombre irrationnel spécifique un peu plus élevé que 2.7 sont un peu plus compliqués mais aussi très utiles pour les tâches connexes. variable. Régression linéaire Un modèle similaire à la régression linéaire, mais où les résultats potentiels sont un ensemble spécifique de catégories au lieu d'être continu. Voir variable continue. régression. Régression linéaire L'utilisation d'algorithmes basés sur des données qui fonctionnent mieux car ils ont plus de données à travailler avec, l'apprentissage (c'est-à-raffiner leurs modèles) à partir de ces données supplémentaires. Cela implique souvent la validation croisée avec des ensembles de données de formation et de test. L'objectif fondamental de l'apprentissage machine est de généraliser au-delà des exemples dans l'ensemble de formation. Domingos L'étude de l'application pratique de l'apprentissage automatique signifie généralement rechercher quels algorithmes d'apprentissage sont les meilleurs pour quelles situations. Voir aussi algorithme. validation croisée. Intelligence artificielle Un algorithme pour travailler avec une série d'événements (par exemple, un système étant en particulier des états) pour prédire la possibilité d'un certain événement basé sur ce qui d'autres événements se sont produits. L'identification des relations probabilistes entre les différents événements signifie que les chaînes de Markov et les réseaux bayésiens se retrouvent souvent dans les mêmes discussions. Voir aussi le réseau bayésien. Méthode Monte Carlo Un langage informatique commercial et un environnement populaire pour la visualisation et le développement d'algorithmes. Un ancien dictionnaire Websters avec un accent plus marqué sur la représentation typographique donne la définition mathématique comme un ensemble de nombres ou de termes disposés en lignes et colonnes entre parenthèses ou lignes doubles websters. Pour manipuler une matrice avec un logiciel, pensez-y comme un tableau bidimensionnel. Comme avec son équivalent unidimensionnel, un vecteur, cette représentation mathématique du tableau bidimensionnel permet de tirer plus facilement profit des bibliothèques de logiciels qui appliquent des opérations mathématiques avancées aux bibliothèques contenant des données qui peuvent distribuer le traitement à travers plusieurs processeurs pour l'évolutivité. Voir aussi le vecteur. Algèbre linéaire La valeur moyenne, bien que techniquement ce qui est connu comme la moyenne arithmétique. (D'autres moyens incluent les moyens géométriques et harmoniques.) Voir aussi la médiane. Mode Moyenne d'erreur absolue Moyenne d'erreur au carré Aussi, MSE. La moyenne des carrés de toutes les erreurs trouvées lors de la comparaison des valeurs prédites avec les valeurs observées. En les quadrature, les erreurs plus importantes comptent pour plus, ce qui rend l'erreur moyenne carrée plus populaire que l'erreur moyenne absolue lors de la quantification du succès d'un ensemble de prédictions. Voir aussi Erreur absolue moyenne. Root Mean Squared Error Lorsque les valeurs sont triées, la valeur au milieu, ou la moyenne des deux au milieu si il ya un nombre pair de valeurs. Voir aussi moyen. Mode La valeur qui se produit le plus souvent dans un échantillon de données. Comme la médiane, le mode ne peut pas être directement calculé stanton bien qu'il soit assez facile à trouver avec un peu de script. Pour les personnes qui travaillent avec des statistiques, mode peut également signifier type de données par exemple, si une valeur est un entier, un nombre réel ou une date. Voir aussi moyen. médian. Scripting Spécification d'une relation mathématique (ou probabiliste) qui existe entre différentes variables. Grus Parce que la modélisation peut signifier tant de choses, le terme de modélisation statistique est souvent utilisé pour décrire plus précisément le type de modélisation que font les chercheurs de données. Méthode de Monte Carlo En général, l'utilisation de nombres générés au hasard dans le cadre d'un algorithme. Son utilisation avec les chaînes de Markov est si populaire que les gens se réfèrent généralement à la combinaison avec l'acronyme MCMC. Voir aussi Chaîne de Markov La moyenne (ou la moyenne) des séries chronologiques (observations également espacées dans le temps, par heure ou par jour) de plusieurs périodes consécutives est appelée la moyenne mobile. Il est appelé déplacement parce que la moyenne est recalculée continuellement au fur et à mesure que de nouvelles données de séries chronologiques sont disponibles, et elle progresse en abandonnant la première valeur et en ajoutant la plus récente. Parsian Voir aussi mean. Données de séries chronologiques L'analyse de séquences de n éléments (typiquement, des mots en langage naturel) pour rechercher des modèles. Par exemple, l'analyse des trigrammes examine les expressions de trois mots dans l'entrée pour rechercher des motifs tels que les paires de mots apparaissent le plus souvent dans les groupes de trois. La valeur de n peut être autre chose que trois, selon vos besoins. Cela permet de construire des modèles statistiques de documents (par exemple, en les classant automatiquement) et de trouver des termes positifs ou négatifs associés à un nom de produit. Voir aussi linguistique computationnelle. Classement naïf Bayes classificateur Une collection d'algorithmes de classification basés sur le théorème de Bayes. Ce n'est pas un seul algorithme, mais une famille d'algorithmes qui partagent tous un principe commun, que chaque caractéristique étant classée est indépendante de la valeur de toute autre caractéristique. Par exemple, un fruit peut être considéré comme une pomme si elle est rouge, ronde et d'environ 3 de diamètre. Un classificateur Naive Bayes considère chacune de ces caractéristiques (rouge, rond, 3 de diamètre) pour contribuer indépendamment à la probabilité que le fruit est une pomme, indépendamment de toute corrélation entre les caractéristiques. Caractéristiques, cependant, arent toujours indépendant qui est souvent considéré comme un défaut de l'algorithme Naïf Bayes et c'est pourquoi son étiquette naïve. Aylien Ce naivet rend beaucoup plus facile de développer des implémentations de ces algorithmes qui s'échelonnent vers le haut. Voir aussi Théorème de Bayes. Classification Aussi, réseau neuronal ou réseau neuronal artificiel pour le distinguer du cerveau, sur lequel cet algorithme est modélisé. Une fonction robuste qui prend un ensemble arbitraire d'entrées et l'ajuste à un ensemble arbitraire de sorties qui sont binaires. Dans la pratique, les réseaux neuronaux sont utilisés dans la recherche d'apprentissage en profondeur pour faire correspondre les images aux caractéristiques et bien plus encore. Ce qui rend les réseaux neuronaux spécial est leur utilisation d'une couche cachée de fonctions pondérées appelées neurones, avec lequel vous pouvez effectivement construire un réseau qui mappe beaucoup d'autres fonctions. Sans une couche cachée de fonctions, Neural Networks serait juste un ensemble de fonctions pondérées simples. Kirk Voir aussi deep learning. Rétropropagation. Perceptron Aussi, distribution gaussienne. (Carl Friedrich Gauss était un mathématicien allemand du début du XIXe siècle.) Une distribution de probabilités qui, lorsqu'elle est représentée graphiquement, est une courbe symétrique en forme de cloche dont la valeur moyenne est au centre. La valeur de l'écart-type affecte la hauteur et la largeur du graphique. Voir aussi moyen. distribution de probabilité. Écart-type. Distribution binomiale. Standard normal distribution Système de gestion de base de données qui utilise une ou plusieurs alternatives au modèle relationnel orienté table utilisé par les bases de données SQL. Bien que ce terme signifie à l'origine non SQL, il est venu à signifier quelque chose de plus proche non seulement SQL parce que la nature spécialisée des systèmes de gestion de base de données NoSQL ont souvent eux jouer des rôles spécifiques dans un système plus grand qui peut également inclure SQL et NoSQL. Voir aussi SQL Si votre modèle proposé pour un ensemble de données indique que la valeur de x affecte la valeur de y. Alors l'hypothèse nulle, le modèle que vous comparez votre modèle proposé avec pour vérifier si x affecte vraiment y indique que les observations sont toutes basées sur le hasard et qu'il n'y a aucun effet. Plus la valeur P calculée à partir des données de l'échantillon est faible, plus la preuve est forte par rapport à l'hypothèse nulle. Shin Voir aussi la valeur P Lorsque vous voulez obtenir autant (ou peu) de quelque chose comme possible, et la façon dont vous obtenez est en changeant les valeurs des autres quantités, vous avez un problème d'optimisation. Pour résoudre un problème d'optimisation, vous devez combiner vos variables de décision, les contraintes et la chose que vous voulez maximiser ensemble dans une fonction objective. L'objectif est la chose que vous voulez maximiser ou minimiser, et vous utilisez la fonction objectif pour trouver le résultat optimal. Milton Voir aussi descente en gradient Valeurs extrêmes qui pourraient être des erreurs dans la mesure et l'enregistrement, ou pourraient être des rapports précis d'événements rares. Downey Un modèle de données d'entraînement qui, en prenant trop en compte les particularités des données et les valeurs aberrantes, est trop compliqué et ne sera pas aussi utile qu'il pourrait être de trouver des modèles dans les données d'essai. Voir aussi outlier. Cross-validation Également, p-value. La probabilité, sous l'hypothèse d'aucun effet ou de différence (l'hypothèse nulle), d'obtenir un résultat égal ou plus extrême que ce qui a été réellement observé. Goodman C'est une mesure de la façon dont vous devriez être surpris si il n'ya pas de différence réelle entre les groupes, mais vous avez des données suggérant qu'il ya. Une plus grande différence, ou une sauvegardée par plus de données, suggère plus de surprise et une plus petite valeur p. La valeur p est une mesure de la surprise, pas une mesure de la taille de l'effet. Reinhart Une valeur de p inférieure signifie que vos résultats sont plus significatifs sur le plan statistique. Voir aussi l'hypothèse nulle Un algorithme qui détermine l'importance de quelque chose, généralement pour le classer dans une liste de résultats de recherche. PageRank fonctionne en comptant le nombre et la qualité des liens vers une page pour déterminer une estimation approximative de l'importance du site Web. L'hypothèse sous-jacente est que les sites Web plus importants sont susceptibles de recevoir plus de liens à partir d'autres sites Web. Googlearchive PageRank n'est pas nommé pour les pages qu'il classe, mais pour son inventeur, Google co-fondateur et PDG Larry Page. Une bibliothèque Python pour la manipulation de données populaire auprès des scientifiques des données. Voir aussi Python Pratiquement le réseau neuronal le plus simple est le perceptron, qui se rapproche d'un seul neurone avec n entrées binaires. Il calcule une somme pondérée de ses entrées et de ses feux si cette somme pondérée est égale ou supérieure à zéro. Grus Voir aussi réseau de neurones Un langage de script plus ancien avec racines dans les systèmes UNIX pré-Linux. Perl a toujours été populaire pour le traitement de texte, en particulier les tâches de nettoyage et d'amélioration des données. Voir aussi scripts. Wrangling des données Les tableaux croisés dynamiques résument rapidement de longues listes de données, sans vous obliger à écrire une seule formule ou à copier une seule cellule. Mais la caractéristique la plus notable des tables pivots est que vous pouvez les organiser dynamiquement. Supposons que vous créez un sommaire de tableau croisé dynamique en utilisant des données de recensement brutes. Avec la traînée d'une souris, vous pouvez facilement réorganiser le tableau croisé dynamique afin qu'il résume les données basées sur le sexe ou le groupe d'âge ou l'emplacement géographique. Le processus de réorganisation de votre table est connu comme pivoter vos données: youre tournant la même information autour de l'examiner sous différents angles. Macdonald Une distribution d'événements indépendants, habituellement sur une période de temps ou d'espace, utilisée pour aider à prédire la probabilité d'un événement. Comme la distribution binomiale, il s'agit d'une distribution discrète. Nommé pour le mathématicien français du début du XIXe siècle, Simon Denis Poisson. Voir aussi données spatiotemporelles. Variable discrète. Distribution binomiale Analyse des données pour prédire les événements futurs, généralement pour faciliter la planification des activités. Cela comprend la modélisation prédictive et d'autres techniques. L'apprentissage machine peut être considéré comme un ensemble d'algorithmes pour aider à mettre en œuvre l'analyse prédictive. Le spin plus axé sur les affaires de l'analyse prédictive en fait une expression buzz populaire dans la littérature de marketing. Voir aussi la modélisation prédictive. Apprentissage automatique. Analyse des composants principaux de SPSS Cet algorithme examine simplement la direction avec la plus grande variance et détermine ensuite que c'est la première composante principale. Ceci est très similaire à la façon dont fonctionne la régression en ce qu'elle détermine la meilleure direction pour cartographier les données. Kirk Voir aussi régression Dans l'inférence bayésienne, nous supposons que la quantité inconnue à estimer a de nombreuses valeurs plausibles modélisées par ce qu'on appelle une distribution antérieure. L'inférence bayésienne utilise alors des données (qui sont considérées comme invariantes) pour construire une distribution postérieure plus serrée pour la quantité inconnue. Zumel Voir aussi Théorème de Bayes Une distribution de probabilité pour une variable aléatoire discrète est une liste de tous les résultats possibles possibles et de leur probabilité de se produire. Parce que tous les résultats possibles sont énumérés, la somme des probabilités doit ajouter à 1,0. Levine Voir aussi variable discrète Un langage de programmation disponible depuis 1994 qui est populaire auprès des personnes faisant de la science des données. Python est connu pour sa facilité d'utilisation chez les débutants et une grande puissance quand il est utilisé par des utilisateurs avancés, en particulier lorsque l'on utilise des bibliothèques spécialisées telles que celles conçues pour l'apprentissage automatique et la génération de graphes. Voir aussi scripts. Pandas Lorsque vous divisez un ensemble de valeurs triées en groupes ayant chacune le même nombre de valeurs (par exemple, si vous divisez les valeurs en deux groupes à la médiane), chaque groupe est connu sous le nom de quantile. S'il y a quatre groupes, nous les appelons quartiles, ce qui est un moyen courant de diviser les valeurs à des fins de discussion et d'analyse s'il y en a cinq, nous les appelons quintiles, etc. Voir aussi médiane Langage et environnement de programmation open-source pour l'informatique statistique et la génération de graphes disponibles pour Linux, Windows et Mac. Un algorithme utilisé pour la régression ou la classification qui utilise une collection de structures de données arborescentes. Pour classer un nouvel objet à partir d'un vecteur d'entrée, placez le vecteur d'entrée en bas de chacun des arbres de la forêt. Each tree gives a classification, and we say the tree votes for that class. The forest chooses the classification having the most votes (over all the trees in the forest). breiman The term random forest is actually trademarked by its authors. See also classification. vector. decision trees . the more general problem of fitting any kind of model to any kind of data. This use of the term regression is a historical accident it is only indirectly related to the original meaning of the word. downey See also linear regression. logistic regression. principal component analysis A class of machine learning algorithms in which the process is not given specific goals to meet but, as it makes decisions, is instead given indications of whether its doing well or not. For example, an algorithm for learning to play a video game knows that if its score just went up, it must have done something right. See also supervised learning. unsupervised learning Root Mean Squared Error Also, RMSE . The square root of the Mean Squared Error. This is more popular than Mean Squared Error because taking the square root of a figure built from the squares of the observation value errors gives a number thats easier to understand in the units used to measure the original observations. See also Mean Absolute Error. Mean Squared Error. A scripting language that first appeared in 1996. Ruby is popular in the data science community, but not as popular as Python, which has more specialized libraries available for data science tasks. See also scripting. Python Imagine a graph showing, for each month since smartphones originally became available, how many people in the US bought their first one. The line would rise slowly at first, when only the early adopters got them, then quickly as these phones became more popular, and then level off again once nearly everyone had one. This graphs line would form a stretched-out S shape. The S curve applies to many other phenomena and is often mentioned when someone predicts that a rising value will eventually level off. A commercial statistical software suite that includes a programming language also known as SAS. Designating or of a quantity that has magnitude but no direction in space, as volume or temperature n. a scalar quantity: distinguished from vector websters See also vector Generally, the use of a computer language where your program, or script, can be run directly with no need to first compile it to binary code as with with languages such as Java and C. Scripting languages often have simpler syntax than compiled languages, so the process of writing, running, and tweaking scripts can go faster. See also Python. Perl. Ruby. shell As prices vary from day to day, you might expect to see patterns. If the price is high on Monday, you might expect it to be high for a few more days and if its low, you might expect it to stay low. A pattern like this is called serial correlation, because each value is correlated with the next one in the series. To compute serial correlation, we can shift the time series by an interval called a lag, and then compute the correlation of the shifted series with the original. Autocorrelation is another name for serial correlation, used more often when the lag is not 1. downey See also correlation When you use a computers operating system from the command line, youre using its shell. Along with scripting languages such as Perl and Python, Linux-based shell tools (which are either included with or easily available for Mac and Windows machines) such as grep, diff, split, comm, head, and tail are popular for data wrangling. A series of shell commands stored in a file that lets you execute the series by entering the files name is known as a shell script. See also data wrangling. scripting. Perl. Python Time series data that also includes geographic identifiers such as latitude-longitude pairs. See also time series data A commercial statistical software package, or according to the product home page, predictive analytics software. spss The product has always been popular in the social sciences. The company, founded in 1968, was acquired by IBM in 2009. See also predictive analytics The ISO standard query language for relational databases. Variations of this extremely popular language are often available for data storage systems that arent strictly relational watch for the phrase SQL-like. The square root of the variance, and a common way to indicate just how different a particular measurement is from the mean. An observation more than three standard deviations away from the mean can be considered quite rare, in most applications. zumel Statistical software packages offer automated ways to calculate the standard deviation. See also variance standard normal distribution A normal distribution with a mean of 0 and a standard deviation of 1. When graphed, its a bell-shaped curve centered around the y axis, where x 0. See also normal distribution. mean. standard deviation Also, standard score . normal score . z-score . Transforms a raw score into units of standard deviation above or below the mean. This translates the scores so they can be evaluated in reference to the standard normal distribution. boslaugh Translating two different test sets to use standardized scores makes them easier to compare. See also standard deviation. mean. standard normal distribution A commercial statistical software package, not to be confused with strata. See also strata, stratified sampling strata, stratified sampling Divide the population units into homogeneous groups (strata) and draw a simple random sample from each group. gonick Strata also refers to an OReilly conference on big data, data science, and related technologies. See also Stata A type of machine learning algorithm in which a system is taught to classify input into specific, known classes. The classic example is sorting email into spam versus ham. See also unsupervised learning. reinforcement learning. machine learning support vector machine Also, SVM . Imagine that you want to write a function that draws a line on a two-dimensional x - y graph that separates two different kinds of pointsthat is, it classifies them into two categoriesbut you cant, because on that graph theyre too mixed together. Now imagine that the points are in three dimensions, and you can classify them by writing a function that describes a plane that can be positioned at any angle and position in those three dimensions, giving you more opportunities to find a working mathematical classifier. This plane that is one dimension less than the space around it, such as a two-dimensional plane in a three-dimensional space or a one-dimensional line on a two-dimensional space, is known as a hyperplane. A support vector machine is a supervised learning classification tool that seeks a dividing hyperplane for any number of dimensions. (Keep in mind that dimensions dont have to be x . y . and z position coordinates, but any features you choose to drive the categorization.) SVMs have also been used for regression tasks as well as categorization tasks. See also supervised learning. feature Also, students t distribution . A variation on normal distribution that accounts for the fact that youre only using a sampling of all the possible values instead of all of them. Invented by Guiness Brewery statistician William Gossett (publishing under the pseudonym student) in the early 20th century for his quality assurance work there. See also normal distribution A commercial data visualization package often used in data science projects. time series data Strictly speaking, a time series is a sequence of measurements of some quantity taken at different times, often but not necessarily at equally spaced intervals. boslaugh So, time series data will have measurements of observations (for example, air pressure or stock prices) accompanied by date-time stamps. See also spatiotemporal data. moving average The Unstructured Information Management Architecture was developed at IBM as a framework to analyze unstructured information, especially natural language. OASIS UIMA is a specification that standardizes this framework and Apache UIMA is an open-source implementation of it. The framework lets you pipeline other tools designed to be plugged into it. See also computational linguistics. GATE A class of machine learning algorithms designed to identify groupings of data without knowing in advance what the groups will be. See also supervised learning. reinforcement learning. clustering . How much a list of numbers varies from the mean (average) value. It is frequently used in statistics to measure how large the differences are in a set of numbers. It is calculated by averaging the squared difference of every number from the mean. segaran Any statistical package will offer an automated way to calculate this. See also mean. bias. standard deviation Websters first mathematical definition is a mathematical expression denoting a combination of magnitude and direction, which you may remember from geometry class, but their third definition is closer to how data scientists use the term: an ordered set of real numbers, each denoting a distance on a coordinate axis websters. These numbers may represent a series of details about a single person, movie, product, or whatever entity is being modeled. This mathematical representation of the set of values makes it easier to take advantage of software libraries that apply advanced mathematical operations to the data. See also matrix. linear algebra An open source set of command line and graphical user interface data analysis tools developed at the University of Waikato in New Zealand. References Sarah Boslaugh, Statistics in a Nutshell . 2nd Edition (Sebastopol: OReilly Media, 2012). David M. Bourg and Glenn Seeman AI for Game Developers (Sebastopol: OReilly Media, 2004). Leo Breiman and Adele Cutler, Random Forests. accessed 2015-08-22. Allen B. Downey Think Stats . 2nd Edition (Sebastopol: OReilly Media, 2014). Larry Gonick and Woolcott Smith, The Cartoon Guide to Statistics (New York: HarperCollins, 1993) S. N. Goodman, Toward evidence-based medical statistics. 1: The P value fallacy . Annals of Internal Medicine, 130:9951004, 1999. (quoted in Reinhart ) Mahmoud Parsian, Data Algorithms . (Sebastopol: OReilly Media, 2015). 82. Stanton, J. M. (2012). Introduction to Data Science . Third Edition. iTunes Open Source eBook. Available: itunes. appleusbookintroduction-to-data-scienceid529088127mt11 Victoria Neufeldt, Editor in Chief, Websters New World College Dictionary . Third Edition (New York: Macmillan, 1997). Nina Zumel and John Mount, Practical Data Science with R (Shelter Island: Manning Publications, 2014).Slideshare uses cookies to improve functionality and performance, and to provide you with relevant advertising. Si vous continuez à naviguer sur le site, vous acceptez l'utilisation de cookies sur ce site. Consultez notre Accord utilisateur et notre Politique de confidentialité. Slideshare utilise des cookies pour améliorer la fonctionnalité et les performances, et pour vous fournir de la publicité pertinente. Si vous continuez à naviguer sur le site, vous acceptez l'utilisation de cookies sur ce site. Consultez notre politique de confidentialité et notre contrat d'utilisation pour plus de détails. Explore all your favorite topics in the SlideShare app Get the SlideShare app to Save for Later even offline Continue to the mobile site Upload Login Signup Double tap to zoom out Chapter 16 Share this SlideShare LinkedIn Corporation copy 2017
No comments:
Post a Comment