lankastersky | Entries tagged with data science

Человеческая предвзятость (bias) проникает и влияет на все виды социального взаимодействия: стереотипы, предубеждения, шаблоны мышления и т.п.

Иногда общество замечает негативное влияние байеса и пытается его исправить, часто с перекосом то в одну, то в другую сторону (как колебания с затухающей амплитудой). Например, сейчас на пике общественного внимания гендерные и расовые стереотипы.

Иногда влияние байеса малозаметно и мы пока не обращаем на это большого внимания. Например, в спорте есть статистика, что родные стены помогают (матчи дома). Статистики выявили, что виной предвзятость судей, которые подчинаются воле болельщиков и часто судят в пользу "домашних" спортсменов. (Некоторые спортсмены тоже могут подчинятся воле толпы, если не могут контролировать эмоции.) Для борьбы с нечестным судейством придумывают видеоповторы, вводят дополнительных судей и т.п.

Иногда байес тяжело измерить статистически (мало данных, они плохо формализованы и тп), но помогают психологи, социологи, исследующие стимулы, управляющие личностью и социумом.

Хорошая новость состоит в том, что по мере набора данных модели машинного обучения помогают выявлять скрытые шаблоны в поведении людей и показывать нам места перегибов. "Бездушные машины" изначально лишены эмоций и предвзятостей, и если им скормить "чистые" данные, то на выходе нас ждут интересные откровения, недоступные простому взору. Процесс этот довольно сложный, наука Data Science, в которую входит machine learning (построение моделей машинного обучения), сравнительно молодая. Требуется соблюдать ряд правил, чтобы все получилось: уметь строить гипотезы (творческий подход), не путать причину со следствием (логическое мышление), кропотливо собирать и очищать данные (см. правило "г-но на входе - г-но на выходе") и тп. Одна из интереснейших книг, раскрывающих механизмы построения и интерпретации таких моделей - the signal and the noise (книга популярная, требуются элементарные знания статистики). Другая интересная серия книг, демонстрирующих, как отлавливать байесы с помощью анализа и наблюдений (без data science) - "Фрикономика", "Суперфрикономика" и "Когда грабить банк" тех же авторов (известных экономистов).

Когда вырабатываешь в себе навык построения таких моделей, начинаешь на многие вещи смотреть по-другому: видеть, как байесы управляют нашим сознанием, приходит понимание, как их избежать. И тут начинается самое интересное.

Я не могу рисовать лица, но хорошо их запоминаю. Могу узнать в толпе человека, с которым ненадолго пересекся много лет назад. Но с рисованием вообще беда: тупо не помню черты лица вообще. Почему?

Мой мозг сильно сжимает информацию, кодирует в пространство меньшей размерности. Когда надо восстановить картинку, получается лишь сумбурное поверхностное описание. Но когда надо сравнить картинку с другой, сразу находит отличительные черты.

Примерно так работают и искусственные нейросети. Они переводят (в том числе) объекты реального мира в многовекторные пространства. Например, каждое слово переводится в вектор длиной 300 элементов так, что близкие по смыслу слова оказываются в этом пространстве близко расположены. Становятся возможными такие магические операции над векторами как king - man + woman = queen

Подбным образом переводятся в векторы позы, черты лица, гены и т.п., постепенно превращая человека в цифру и приближая Матрицу. Стоит загрузить в машину такие базы векторов, состоящие из гигабайтов данных, и она сможет с заданной точностью построить вашу копию. Многие из таких баз, правда, анонимизированных, уже активно используются и есть в открытом доступе.

За последние несколько месяцев я помимо своей основной работы поучаствовал в нескольких внутренних и независимых проектах, понемногу набираясь опыта. И сейчас нахожусь в моменте, когда хочется остановиться и подумать, что делать дальше, чтобы уже наработанные знания превратить во что-нибудь полезное. Здесь краткий отчет за последнее время.
( Read more... )
Идей, как обычно, много, но хочется сделать что-нибудь действительно нужное и полезное, а не просто "в стол". В идеале хотелось бы, чтобы постепенно труды превращались в пассивный доход. Глядя на то, с какой скоростью вокруг лепятся стартапы, хочется думать, что это вполне реально.

Самое сильное ощущение при беседе или знакомстве возникает в самом начале. Как-будто ты начинаешь смотреть фильм и совершенно не знаешь, о чем он будет. Но по мере "просмотра" неопределенность обычно снижается и сходится к какой-то сюжетной линии, которая может сильно отличаться от той идеализированной картины, которую ты себе рисовал. Мне представляется это затухающей синусоидой, как на картинке ниже. Картинка, правда, из другой оперы, но график примерно тот же.

sin

По мере опыта общения ты учишься предсказывать расхождение от ожиданий, иногда уже на первых минутах "просмотра", а иногда и по нескольким кадрам-фотографиям.

( Read more... )

Картинка из описания сервиса Microsoft Face API

Возьмем каталог картинок, можно с подписями, можно без (instagram, tinder, craigslist, avito etc.).

В процессе поиска пользователь обращает внимание на определенные паттерны в картинках (например, велосипед - спортивный, девушка - блондинка и т.п.). Хорошо, если при публикации картинки было дано ее словесное описание (пример: хеш-теги в инстаграме). Если нет, можно использовать библиотеки Machine Learning, умеющие размечать семантические атрибуты изображений - image recognition, реализованная в TensorFlow и др. библиотеках). По сути, это будет набор нейросеток, каждая из которых распознает какой-то свой паттерн для картинки. Некоторые сетки еще не дают заданной точности, но это дело ближайшего времени. Силовые ведомства уже давно трудятся над чем-то подобным для опознавания лиц подозреваемых.

Есть несколько возможных способов поиска (от простого к сложному).

( Read more... )

Попалась статья на хабре про интересный проект хакатона Image Cup - ребята пилят проект, который составляет психологический портрет пользователя по его информации в паблике.

Они опираются на уже известную модель нейросети, которая позволяет узнать психологическую информацию о человеке, проанализировав данные его “цифровых следов” в социальных сетях – постов, репостов, лайков, комментариев. Например, благодаря примерно 68 лайкам в соцсети система могла с 95% точностью утверждать о цвете кожи пользователя, с 88% о сексуальной ориентации, а с 85% — о поддержке конкретной политической партии (США).

Фишка в том, что они хотят прикрутить распознавалку изображений пользователей в реале и автоматически находить их акаунты в соц. сетях (типа как FindFace). И использовать это совместно с такой очками дополненной реальности типа Hololens.

Одна из основных проблем - где взять много данных для обучения.
Например, надо сделать распознавание силуэта человека.
Нанимается миллион индийцев или китайцев (эти нации обладают наилучшей масштабируемостью).
Они много месяцев подряд делают селфи и потом вручную обводят свои силуэты.
Потом эти селфи скармливаются нейросети, и она не только учится распознавать силуэты людей при любом освещении, с любого угла и т.п., но и отличать китайцев друг от друга!

Data Science (наука о данных, анализ данных) - крутая вещь. Не зря это популярнейшая профессия в США третий год подряд по версии крупнейшего сайта вакансий glassdoor. Многие неочевидные вещи можно попытаться объяснить с помощью него.

Взять суеверия и приметы. Например, предсказание конца зимы по поведению сурка. Кажется странным, почему многие из них работают, но штука в том, что часто берутся коррелирующие величины, и одна из них неверно принимается за причину, а другая - за следствие. Пример: корреляция словарного запаса и роста. Как объяснить? Пока дети растут, они усваивают больше слов. Т.е. обе эти величины зависят не друг от друга, а от возраста человека. Другой хороший пример описан в статье Data Science: Про любовь, имена и не только, где автор исследовал зависимость имени пользователя вконтакте и одноклассников от его статуса и пришел к выводу, что девушки с именами Кира, Лейла и Алина чаще одиноки.

( Read more... )

Profile

lankastersky

January 2021

S	M	T	W	T	F	S
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Syndicate

Page Summary

Как увидеть человеческую предвзятость
Перевод человека в матричную форму
Моя разработческая активность
Тестирование на психологическую совместимость
Улучшение поиска по каталогу картинок с помощью Machine Learning
Детектировать людей как терминатор
Как корпорации обучают нейросети
Зачем еще нужен Data Science

Style Credit

Style: Neutral Good for Practicality by timeasmymeasure

Expand Cut Tags

No cut tags

Page generated Feb. 26th, 2026 03:20 am

Вдыхая идеи

Entries tagged with data science

Как увидеть человеческую предвзятость

Перевод человека в матричную форму

Моя разработческая активность

Тестирование на психологическую совместимость

Улучшение поиска по каталогу картинок с помощью Machine Learning

Детектировать людей как терминатор

Как корпорации обучают нейросети

Зачем еще нужен Data Science