Introduction to Data Science.
What is Data Science? • We have a lot of data. • Math + Programming + Heuristics • No strict mathematical models work well • Extracting knowledge and conclusions straight from data no matter what.
By the way, You already did it. Labs are the most common case of the simplest Data Science.
Web search • Whole universe of barely structured data • Ranking pages for a given query, collecting statistics, structuring data-all pure data Science/Engineering tasks. • Average Internet user Googles ~3 -4 times per day. (There are ~two billions of us)
Recommendations • All kinds of context advertising • Recommended channels (You. Tube) • Recommended playlists (VK, Yandex, Spotify) • Basket recommendations (Avito, Amazon)
Want to be a true scientist? Then be it! • EEG, MRI(МРТ) decoding, Neuro. Interfaces. • Telescope, Microscope, Satellite images analysis. • CERN/LHC computations.
Or looking for corporative career?
Data Driven Art • Style transfer (Prisma, Artisto) • Images/Music synthesis
And Visualization. Space-time visualization of mobile phone data in Dubai
Polite locals
Data Scientist: The Sexiest Job of the 21 st Century
Как сделать лучше? Внимательно посмотреть на данные Расстояние:
Нормализация признаков
Нормализация признаков
Почему равномерно взвешенный 2 NN всегда не лучше чем 1 NN?
Почему равномерно взвешенный 2 NN всегда не лучше чем 1 NN? - если класс второго ближайшего соседа совпадает с классом первого, ответ алгоритма не меняется - если класс второго ближайшего соседа не совпадает с классом первого, возникает неопределенность и алгоритм не дает никакого ответа.
KNN summary Для классификации каждого из объектов тестовой выборки необходимо последовательно выполнить следующие операции: ● Вычислить расстояние до каждого из объектов обучающей выборки ● Отобрать k объектов обучающей выборки, расстояние до которых минимально ● Класс классифицируемого объекта — это класс, наиболее часто встречающийся среди k ближайших соседей
Как сделать лучше? Внимательно посмотреть на данные Ошибки предсказаний смещены относительно нуля
Поправленные оценки
Data Science Entry-Level skillset English language - must have Google-fu - advanced Linear algebra & Calculus - basics Statistics - common sense is almost enough Programming - comfortable with Python or R