• Duración:
    4 semanas
  • Dedicación:
    5–10 horas por semana
  • Precio:

    GRATIS
    Agregar un Certificado Verificado por $99 USD

  • Institución
  • Tema:
  • Nivel:
    Intermediate
  • Idioma:
    English
  • Transcripción de video:
    English
  • Tipo de curso:
    Al ritmo del instructor

Programas asociados:

Prerrequisitos

  • Python programming background
  • experience with PySpark equivalent to CS105x: Introduction to Spark
  • comfort with mathematical and algorithmic reasoning
  • familiarity with basic machine learning concepts
  • exposure to algorithms, probability, linear algebra and calculus

Sobre este curso

Omitir Sobre este curso

Machine learning aims to extract knowledge from data, relying on fundamental concepts in computer science, statistics, probability and optimization. Learning algorithms enable a wide range of applications, from everyday tasks such as product recommendations and spam filtering to bleeding edge applications like self-driving cars and personalized medicine. In the age of ‘big data’, with datasets rapidly growing in size and complexity and cloud computing becoming more pervasive, machine learning techniques are fast becoming a core component of large-scale data processing pipelines.

This statistics and data analysis course introduces the underlying statistical and algorithmic principles required to develop scalable real-world machine learning pipelines. We present an integrated view of data processing by highlighting the various components of these pipelines, including exploratory data analysis, feature extraction, supervised learning, and model evaluation. You will gain hands-on experience applying these principles using Spark, a cluster computing system well-suited for large-scale machine learning tasks, and its packages spark.ml and spark.mllib. You will implement distributed algorithms for fundamental statistical models (linear regression, logistic regression, principal component analysis) while tackling key problems from domains such as online advertising and cognitive neuroscience.

Lo que aprenderás

Omitir Lo que aprenderás
  • The underlying statistical and algorithmic principles required to develop scalable real-world machine learning pipelines
  • Exploratory data analysis, feature extraction, supervised learning, and model evaluation
  • Application of these principles using Spark
  • How to implement distributed algorithms for fundamental statistical models

Conoce a tus instructores

Ameet Talwalkar
Assistant Professor of Computer Science
University of California, Los Angeles
Jon Bates
Spark Instructor
University of California, Berkeley

Obtén un Certificado Verificado para destacar los conocimientos y las habilidades que adquieras
$99 USD

Ver un modelo de certificado de edX en PDF
  • Oficial y verificado

    Obtén un certificado con la firma del instructor y el logotipo de la institución para demostrar tus logros y aumentar las posibilidades de conseguir trabajo

  • Fácil de compartir

    Agrega el certificado a tu currículum o publícalo directamente en LinkedIn

  • Incentivo comprobado

    El certificado te da un motivo más para completar el curso

  • Apoya nuestra labor

    edX, una organización sin fines de lucro, se sustenta con los certificados verificados para financiar la educación gratuita para todo el mundo

¿Quién puede hacer este curso?

Lamentablemente, las personas de uno o más de los siguientes países o regiones no podrán registrarse para este curso: Irán, Cuba y la región de Crimea en Ucrania. Si bien edX consiguió licencias de la Oficina de Control de Activos Extranjeros de los EE. UU. (U.S. Office of Foreign Assets Control, OFAC) para ofrecer nuestros cursos a personas en estos países y regiones, las licencias que hemos recibido no son lo suficientemente amplias como para permitirnos dictar este curso en todas las ubicaciones. edX lamenta profundamente que las sanciones estadounidenses impidan que ofrezcamos todos nuestros cursos a cualquier persona, sin importar dónde viva.