PYTHON CON CIENCIA DE DATOS Por M. Meenachi Sundaram

PYTHON CON CIENCIA DE DATOS Por M. Meenachi Sundaram

Author: MEENACHISUNDARAM.M

Publisher: MEENACHI SUNDARAM

Published: 2024-09-05

Total Pages: 277

ISBN-13:

DOWNLOAD EBOOK

PYTHON CON CIENCIA DE DATOS Por M. Meenachi Sundaram TABLA DE CONTENIDO PYTHON CON CIENCIA DE DATOS.. 13 CAPÍTULO 1: CONCEPTOS ESTADÍSTICOS.. 13 1. Población y muestra. 13 2. Distribución normal 14 3. Medidas de tendencia central 16 4. Varianza y desviación estándar 16 5. Covarianza y correlación. 17 6. Teorema del límite central 19 7. Valor p. 20 8. Valor esperado de variables aleatorias. 22 9. Probabilidad condicional 24 10. Teorema de Bayes. 25 5 CONCEPTOS ESTADÍSTICOS IMPORTANTES PARA CADA CIENTÍFICO DE DATOS 26 1. Estadísticas descriptivas. 26 2. Distribuciones de probabilidad. 28 3. Reducción de la dimensionalidad. 30 4. Submuestreo y sobremuestreo. 32 5. Estadísticas bayesianas. 34 MÓDULO DE ESTADÍSTICAS DE PYTHON.. 35 Métodos estadísticos. 35 CAPÍTULO 2: PROBABILIDAD.. 36 Python, números aleatorios y probabilidad. 36 Números aleatorios con Python. 37 Números aleatorios que satisfacen la condición de suma a uno. 41 Generación de cadenas o contraseñas aleatorias con Python. 42 Números enteros aleatorios. 43 Elecciones aleatorias con Python. 47 Muestras aleatorias con Python. 50 Números verdaderamente aleatorios. 52 Opciones aleatorias ponderadas. 55 CAPÍTULO 3: DESVIACIÓN ESTÁNDAR.. 62 Método statistical.stdev() de Python. 62 Definición y uso. 62 Sintaxis. 62 Valores de los parámetros. 63 Parámetro. 63 Descripción. 63 Datos. 63 Obligatorio. Los valores de datos que se utilizarán (pueden ser cualquier secuencia, lista o iterador) 63 Barra X.. 63 Opcional. La media de los datos proporcionados. Si se omite (o se establece en Ninguno), la media se calcula automáticamente. 63 Detalles técnicos. 63 Valor de retorno: 63 CAPÍTULO 4: SESGO Y VARIANZA.. 64 ¿Qué son el sesgo y la varianza?. 64 Sesgo y varianza usando Python. 64 CAPÍTULO 5: MÉTRICAS DE DISTANCIA.. 68 Comprensión de las métricas de distancia utilizadas en el aprendizaje automático. 68 Estudiaremos: 68 ¿Qué son las métricas de distancia?. 68 Tipos de métricas de distancia en el aprendizaje automático. 69 Distancia euclidiana. 71 Fórmula para la distancia euclidiana. 72 Distancia de Manhattan. 74 Fórmula para la distancia de Manhattan. 74 Distancia de Minkowski 76 Fórmula para la distancia de Minkowski 76 Distancia de Hamming. 78 Conclusión. 80 Agujas. 80 CAPÍTULO 6: ANÁLISIS DE VALORES ATRÍPICOS.. 82 La detección de valores atípicos es el proceso de identificar puntos de datos que tienen valores extremos en comparación con el resto de la distribución. Conozca tres métodos de detección de valores atípicos en Python. 82 ¿Qué es la detección de valores atípicos?. 82 Beneficios de la detección de valores atípicos. 82 Métodos para la detección de valores atípicos en Python. 83 Prerrequisito para la detección de valores atípicos: lectura de datos. 84 Uso de diagramas de caja para la detección de valores atípicos. 84 Uso de bosques de aislamiento para la detección de valores atípicos. 88 Uso de OneClassSVM para la detección de valores atípicos. 90 Dominando la detección de valores atípicos. 90 Parte aislada. 91 ¿Qué son los valores atípicos?. 92 ¿Cuándo son peligrosos los valores atípicos?. 93 ¿Qué estadísticas se ven afectadas por los valores atípicos?. 97 ¿Cuándo eliminar o mantener los valores atípicos?. 98 Tabla de contenido. 100 ¿Cómo tratar los valores atípicos?. 100 Guarnición. 100 Tapado. 100 Discretización. 102 Para distribuciones normales. 102 Para distribuciones sesgadas. 102 Para otras distribuciones. 102 Cómo detectar y eliminar esquemas en Python. 103 Tratamiento de la puntuación Z.. 103 Filtrado basado en IQR.. 106 Método de percentiles. 109 Conclusión. 113 Preguntas frecuentes. 114 CAPÍTULO 7: TRATAMIENTOS DE VALORES FALTANTES.. 116 Cómo manejar los datos faltantes. 116 ¿Por qué completar los datos faltantes?. 116 ¿Cómo saber si los datos tienen valores faltantes?. 118 Diferentes métodos para tratar los datos faltantes. 120 1. Eliminar la columna con datos faltantes. 121 2. Eliminar la fila con datos faltantes. 123 3. Completar los valores faltantes – Imputación. 125 4. Otros métodos de imputación. 128 5. Imputación con una columna adicional 129 6. Relleno con un modelo de regresión. 131 Conclusión. 135 Preguntas frecuentes. 135 Pandas: Reemplazar valores NaN por cero en una columna. 136 1. Ejemplo de sustitución de NaN por cero. 136 2. Reemplace los valores NaN por cero en el DataFrame de pandas. 138 3. Reemplace los valores NaN por cero en una o varias columnas. 138 4. Reemplace los valores NaN por ceros usando replace() 139 5. Uso de DataFrame.replace() en todas las columnas. 140 6. Ejemplo completo para reemplazar valores NaN por ceros en una columna. 141 CAPÍTULO 8: CORRELACIÓN.. 143 NumPy, SciPy y pandas: correlación con Python. 143 Correlación. 143 Ejemplo: Cálculo de correlación de NumPy. 147 Ejemplo: Cálculo de correlación de SciPy. 149 Ejemplo: Cálculo de correlación de pandas. 151 Esta página y la siguiente son sólo de referencia. 153 Correlación lineal 153 Coeficiente de correlación de Pearson. 153 Regresión lineal: implementación de SciPy. 155 Correlación de Pearson: implementación de NumPy y SciPy. 159 Correlación de Pearson: implementación de pandas. 162 Correlación de rangos. 167 Rango: Implementación de SciPy. 169 Correlación de rangos: implementación de NumPy y SciPy. 170 Correlación de rangos: implementación de pandas. 173 Visualización de la correlación. 175 Gráficos XY con una línea de regresión. 176 Mapas de calor de matrices de correlación. 178 Conclusión. 180 CAPÍTULO 9: MÉTRICAS DE ERROR (MEDIDAS DE ERROR) 181 Error cuadrático medio. 181 Error absoluto medio. 181 Error porcentual absoluto medio. 181 Medición de errores de regresión con Python. 182 Medición de errores de regresión. 182 Seis métricas de error para medir errores de regresión. 184 Error absoluto medio (EMA) 184 Error porcentual absoluto medio (MAPE) 185 Error cuadrático medio (MSE) 186 Error absoluto medio (MedAE) 186 Error cuadrático medio (RMSE) 187 Error porcentual absoluto medio (MdAPE) 187 Implementación de métricas de error de regresión en Python: predicción de series temporales 188 Paso n.° 1: Generar datos de series temporales sintéticas. 189 CAPÍTULO 10: REGRESIÓN.. 196 Regresión lineal 197 Regresión logística. 197 Regresión polinómica. 198 Regresión de cresta. 198 Regresión de lazo. 200 Aplicaciones de regresión. 200 Diferencia entre regresión y clasificación en minería de datos. 200 Regresión. 202 CAPÍTULO 11: APRENDIZAJE AUTOMÁTICO.. 203 Aprendizaje automático, aprendizaje profundo y redes neuronales. 203 Métodos de aprendizaje automático. 205 Aprendizaje automático supervisado. 206 Aprendizaje automático no supervisado. 206 Aprendizaje semisupervisado. 208 Algoritmos comunes de aprendizaje automático. 208 Casos de uso de aprendizaje automático en el mundo real 209 Estructura de datos para el aprendizaje automático. 210 ¿Qué es la estructura de datos?. 211 Tipos de estructura de datos. 211 1. Estructura de datos lineal: 212 2. Estructuras de datos no lineales. 215 Estructura de datos de matriz dinámica: 218 ¿Cómo se utiliza la estructura de datos en el aprendizaje automático?. 218 Conclusión. 219 APRENDIZAJE SUPERVISADO.. 220 Aprendizaje automático supervisado. 220 ¿Cómo funciona el aprendizaje supervisado?. 220 Pasos involucrados en el aprendizaje supervisado: 222 Tipos de algoritmos de aprendizaje automático supervisados: 222 1. Regresión. 223 2. Clasificación. 223 Ventajas del aprendizaje supervisado: 225 Desventajas del aprendizaje supervisado: 225 Regresión lineal 225 ¿Cómo funciona?. 226 R de Relación. 235 Predecir valores futuros. 236 ¿Mal ajuste?. 237 Regresión logística. 241 ¿Cómo funciona?. 242 Probabilidad. 244 Función explicada. 244 Resultados explicados. 247 Cómo guardar un modelo de aprendizaje automático. 247 Dos formas de guardar un modelo desde scikit-learn: 248 APRENDIZAJE NO SUPERVISADO.. 255 Aprendizaje automático no supervisado. 255 ¿Por qué utilizar el aprendizaje no supervisado?. 256 Funcionamiento del aprendizaje no supervisado. 256 Tipos de algoritmos de aprendizaje no supervisado: 257 Algoritmos de aprendizaje no supervisado: 258 Ventajas del aprendizaje no supervisado. 259 Desventajas del aprendizaje no supervisado. 259 Aprendizaje supervisado vs. no supervisado. 260 Preparación de datos para el aprendizaje no supervisado. 261 Agrupamiento. 263 Agrupamiento jerárquico. 266 Diferencia entre K-Means y agrupamiento jerárquico. 270 Agrupamiento de t-SNE.. 270 Agrupamiento DBSCAN.. 272 OTROS ALGORITMOS DE APRENDIZAJE AUTOMÁTICO (ML) 275 ACERCA DEL AUTOR.. 276


Practical Statistics for Data Scientists

Practical Statistics for Data Scientists

Author: Peter Bruce

Publisher: "O'Reilly Media, Inc."

Published: 2017-05-10

Total Pages: 322

ISBN-13: 1491952911

DOWNLOAD EBOOK

Statistical methods are a key part of of data science, yet very few data scientists have any formal statistics training. Courses and books on basic statistics rarely cover the topic from a data science perspective. This practical guide explains how to apply various statistical methods to data science, tells you how to avoid their misuse, and gives you advice on what's important and what's not. Many data science resources incorporate statistical methods but lack a deeper statistical perspective. If you’re familiar with the R programming language, and have some exposure to statistics, this quick reference bridges the gap in an accessible, readable format. With this book, you’ll learn: Why exploratory data analysis is a key preliminary step in data science How random sampling can reduce bias and yield a higher quality dataset, even with big data How the principles of experimental design yield definitive answers to questions How to use regression to estimate outcomes and detect anomalies Key classification techniques for predicting which categories a record belongs to Statistical machine learning methods that “learn” from data Unsupervised learning methods for extracting meaning from unlabeled data


Nature and History in Modern Italy

Nature and History in Modern Italy

Author: Marco Armiero

Publisher: Ohio University Press

Published: 2010-08-31

Total Pages: 315

ISBN-13: 0821419161

DOWNLOAD EBOOK

Marco Armiero is Senior Researcher at the Italian National Research Council and Marie Curie Fellow at the Institute of Environmental Sciences and Technologies, Universitat Aut(noma de Barcelona. He has published extensively on-Italian environmental history and edited Views from the South: Environmental Stories from the Mediterranean World. --


Python 101

Python 101

Author: Michael Driscoll

Publisher: Lulu.com

Published: 2014-06-03

Total Pages: 296

ISBN-13: 0996062815

DOWNLOAD EBOOK

Learn how to program with Python from beginning to end. This book is for beginners who want to get up to speed quickly and become intermediate programmers fast!


Foundations of Data Science

Foundations of Data Science

Author: Avrim Blum

Publisher: Cambridge University Press

Published: 2020-01-23

Total Pages: 433

ISBN-13: 1108617360

DOWNLOAD EBOOK

This book provides an introduction to the mathematical and algorithmic foundations of data science, including machine learning, high-dimensional geometry, and analysis of large networks. Topics include the counterintuitive nature of data in high dimensions, important linear algebraic techniques such as singular value decomposition, the theory of random walks and Markov chains, the fundamentals of and important algorithms for machine learning, algorithms and analysis for clustering, probabilistic models for large networks, representation learning including topic modelling and non-negative matrix factorization, wavelets and compressed sensing. Important probabilistic techniques are developed including the law of large numbers, tail inequalities, analysis of random projections, generalization guarantees in machine learning, and moment methods for analysis of phase transitions in large random graphs. Additionally, important structural and complexity measures are discussed such as matrix norms and VC-dimension. This book is suitable for both undergraduate and graduate courses in the design and analysis of algorithms for data.


Modern Data Science with R

Modern Data Science with R

Author: Benjamin S. Baumer

Publisher: CRC Press

Published: 2021-03-31

Total Pages: 830

ISBN-13: 0429575394

DOWNLOAD EBOOK

From a review of the first edition: "Modern Data Science with R... is rich with examples and is guided by a strong narrative voice. What’s more, it presents an organizing framework that makes a convincing argument that data science is a course distinct from applied statistics" (The American Statistician). Modern Data Science with R is a comprehensive data science textbook for undergraduates that incorporates statistical and computational thinking to solve real-world data problems. Rather than focus exclusively on case studies or programming syntax, this book illustrates how statistical programming in the state-of-the-art R/RStudio computing environment can be leveraged to extract meaningful information from a variety of data in the service of addressing compelling questions. The second edition is updated to reflect the growing influence of the tidyverse set of packages. All code in the book has been revised and styled to be more readable and easier to understand. New functionality from packages like sf, purrr, tidymodels, and tidytext is now integrated into the text. All chapters have been revised, and several have been split, re-organized, or re-imagined to meet the shifting landscape of best practice.