Зачем еще нужен Data Science
Feb. 3rd, 2018 02:15 pmData Science (наука о данных, анализ данных) - крутая вещь. Не зря это популярнейшая профессия в США третий год подряд по версии крупнейшего сайта вакансий glassdoor. Многие неочевидные вещи можно попытаться объяснить с помощью него.
Взять суеверия и приметы. Например, предсказание конца зимы по поведению сурка. Кажется странным, почему многие из них работают, но штука в том, что часто берутся коррелирующие величины, и одна из них неверно принимается за причину, а другая - за следствие. Пример: корреляция словарного запаса и роста. Как объяснить? Пока дети растут, они усваивают больше слов. Т.е. обе эти величины зависят не друг от друга, а от возраста человека. Другой хороший пример описан в статье Data Science: Про любовь, имена и не только, где автор исследовал зависимость имени пользователя вконтакте и одноклассников от его статуса и пришел к выводу, что девушки с именами Кира, Лейла и Алина чаще одиноки.
Еще можно исследовать разные стереотипы, например, что все люди делятся на два ярковыраженных типа: тех, кто любит кошек и собак. Если проанализировать все возможные предпочтения людей, то вполне окажется, что по этому предпочтению идет наиболее выраженное разделение (по-научному - делается понижение размерностей предпочтений до одной наиболее значимой). Некоторые сайты поисков по интересам и знакомств уже взяли на вооружение опросники, чтобы алгоритмы помогали искать близких по духу людей (надеюсь, что Тиндер, наконец, допрет до этого или благополучно загнется).
А еще с помощью анализа данных можно получать ответы там, где по-другому не получается.Следакам полезно. Например, чтобы узнать, была ли девушка замужем, можно спросить, водит ли она машину. Если водит, значит, скорее всего, парень научил и доверил тачку :) Хотя, конечно, она и сама могла научиться - тут надо анализировать.
Взять суеверия и приметы. Например, предсказание конца зимы по поведению сурка. Кажется странным, почему многие из них работают, но штука в том, что часто берутся коррелирующие величины, и одна из них неверно принимается за причину, а другая - за следствие. Пример: корреляция словарного запаса и роста. Как объяснить? Пока дети растут, они усваивают больше слов. Т.е. обе эти величины зависят не друг от друга, а от возраста человека. Другой хороший пример описан в статье Data Science: Про любовь, имена и не только, где автор исследовал зависимость имени пользователя вконтакте и одноклассников от его статуса и пришел к выводу, что девушки с именами Кира, Лейла и Алина чаще одиноки.
Еще можно исследовать разные стереотипы, например, что все люди делятся на два ярковыраженных типа: тех, кто любит кошек и собак. Если проанализировать все возможные предпочтения людей, то вполне окажется, что по этому предпочтению идет наиболее выраженное разделение (по-научному - делается понижение размерностей предпочтений до одной наиболее значимой). Некоторые сайты поисков по интересам и знакомств уже взяли на вооружение опросники, чтобы алгоритмы помогали искать близких по духу людей (надеюсь, что Тиндер, наконец, допрет до этого или благополучно загнется).
А еще с помощью анализа данных можно получать ответы там, где по-другому не получается.