Смекни!
smekni.com

Верю не верю (стр. 3 из 3)

Случай с антипропагандой праворульных автомобилей - чистейшей воды подмена понятий, когда под видом ответа на один вопрос собеседнику дается ответ на вопрос, который мало того что не задавался, так еще никому особенно и не интересен. При этом совершенно неважно, насколько объективна приведенная в ответе статистика.

Проблема среднего

Ремарка

Просто, чтобы расставить точки над i. Мы исходим из того, что если ФЦП повышения безопасности движения поможет спасти жизнь хотя бы одному человеку, то она уже хороша. Но сам механизм социальной деформации вполне адекватных статистических данных любопытен. Тем более, что встречается довольно часто. Так, несколько лет назад в США договорились до того, что ожирение ежегодно уносит больше жизней, чем курение (что, вообще говоря, не совсем так).

Термин "среднестатистический" уже давно используется так широко, что и термином быть перестал. Впрочем, широкое использование не делает это слово яснее. В первую очередь потому, что непонятно, что именно понимать под средним вообще.

Классический пример (который приводит Хафф и почти все его последователи; правда, по-моему, нечто подобное я слышал еще в школе, хотя мои учителя Хаффа, конечно, не читали) звучит примерно так: в некой организации работают 100 человек, из них 95 получают, скажем, 40 тысяч рублей в месяц, четыре менеджера получают 100 тысяч рублей в месяц, а владелец бизнеса, он же генеральный директор, получает пять миллионов, потому что у него большая семья. Вопрос: какова средняя зарплата в этой организации?

Попытка рассчитать среднее арифметическое приводит нас к бессмысленной, в общем-то, зарплате в 92 тысячи рублей. Этот показатель, конечно, близок к зарплате менеджера, но вряд ли 95 рабочих сочтут такой подсчет справедливым. И понятно, что погоду портит директор, который со своей семьей выбивается из распределения. Поэтому для таких случаев обычно используется медиана - выбирается срединное значение (то есть, в нашем случае, сорок тысяч рублей). Разумеется, это тоже неидеальное решение, поскольку ни зарплаты менеджеров, ни зарплата директора в нем не учтены, однако оно куда ближе к реальному положению дел, чем предыдущий вариант.

Это совсем не высшая математика, в этом способен разобраться даже не самый способный третьеклассник. Однако когда мы сталкиваемся не с реальной статистикой, а скорее с ее пересказами, то очень часто понимаем, что у нас нет вообще никакой информации о том, как считались средние показатели (и почему).

Художник

И вот эти неполные, а зачастую дополненные предрассудками статистиков и многочисленных пересказчиков информации (каждый из которых на своем этапе может внести в данные ошибки), попадают наконец к художнику. У художника задача простая. Он должен взять табличку в Excel и сделать из нее хорошую картинку.

Для простоты давайте пока считать, что художник честный и действительно хочет сделать хорошую иллюстрацию, руководствуясь при этом своими представлениями о хорошем. И данные у него неплохие, бывают и хуже.

Гипотетический пример:

Журнал "Компьютерра" в городе N покупает сто человек. Тридцать пять студентов, тридцать руководителей, пятнадцать сотрудников компьютерных компаний, десять домохозяек, три биолога, четыре врача, два олигарха и кондуктор трамвая.

Логика диктует художнику, что мелкими показателями можно пренебречь. На диаграмме они будут выглядеть некрасиво. Поэтому художник, нисколько не сомневаясь в правильности выбранного решения, меняет статистику так, чтобы она укладывалась в картинку. И теперь "Компьютерру" в городе N покупают студенты, руководители, сотрудники и таинственное Другое, в которое художник запихнул и олигархов, и биологов, и врачей, и даже кондуктора.

Теперь предположим, что у нашего художника гибкая мораль, и главный редактор "Компьютерры" поставил перед ним сложную задачу: нарисовать такую иллюстрацию, из которой бы следовало, что за последние девять месяцев тираж журнала вырос в двадцать раз (на самом деле он вырос чуть меньше, чем в полтора раза, поэтому задача на первый взгляд кажется нетривиальной).

Это делается очень просто. Во-первых, нужно выбрать правильную точку отсчета. Если взять за основу диаграмму, отражающую реальное положение вещей, то по ней, конечно, никакого двадцатикратного увеличения не получишь. Но стоит поднять ось абсцисс до уровня 63 тысяч и обрезать ушедшие в минус элементы, как положение моментально меняется. Визуально мы воспринимаем эту картинку как рост с 1 тысячи до 27 тысяч - налицо увеличение в 27 раз. Теперь, чтобы ось ординат с неудобными для нас показателями (ну в самом деле, 63 тысячи на нуле - кому это может быть интересно, это же так, детали?) меньше бросалась в глаза, мы можем сделать еще две подтяжечки (тут все зависит от наглости художника и отчаянности поставленной задачи). Во-первых, мы можем просто убрать все смущающие надписи - но это грубо. Более распространенный метод заключается в развороте графика: столбики с показателями переводятся в 3D, причем ближний к нам становится еще больше за счет перспективы, а мешающие восприятию подписи хоть и не убираются совсем, но в глаза бросаются куда меньше.

Чтобы посмотреть, как это применяется в реальной жизни, достаточно взглянуть на диаграмму 4. Это строгая деловая графика, здесь нет как такового разворота к зрителю, да и подписи все на месте, но сдвиг оси и 3D присутствуют.

В защиту сотрудников ГИБДД можно сказать, что, скорее всего, трехмерность графика не намеренная - парадокс в том, что несмотря на дружный хор специалистов по дизайну, которые предлагают не увлекаться 3D-графиками, наиболее популярные средства построения графиков фактически провоцируют пользователей на использование 3D. Делать 3D-графики несложно, воздействуют они эффективно, а то, что реальность отображают "творчески" - так это проблемы реальности.

С художником связана и проблема площадей. Очень часто для визуализации статистики удобнее применять не диаграмму, а специально созданную иллюстрацию, на которой увеличение какого-либо показателя демонстрируется увеличением площади. Но рисует художник на глазок, и, как правило, соотношение выдерживается нечетко (если нужно показать рост показателя, художник ошибается в большую сторону, если падение - в меньшую; другими словами, художник почти всегда рисует большую площадь, чем нужно).

В заключение скажем, что все перечисленные художественные приемы не порочны сами по себе. Смещение оси, например, нередко используется для того, чтобы показать изменение показателя (если использовать реальные масштабы, читатель просто ничего не заметит). Для демонстрации изменения ежедневных биржевых индексов смещение оси обычное дело. Но именно эти приемы чаще всего используются для искажения информации, которая уже могла пройти через несколько раундов искажения на этапах сбора и интерпретации.

Вместо резюме

Картина получается безрадостная. У читателя, разглядывающего трехмерный график в газете, есть куча шансов нарваться на фальшивку, даже если участники цепочки - кристальной чистоты люди. Начинается все с неполной статистики, которая во многих случаях и не может быть полной. Неполные сырые данные дополняются предубеждениями интерпретатора и анализируются в удобном для него ключе. Затем этот блок данных попадает к художнику, который проводит еще пару хирургических операций, а затем - рисует приблизительный образ в очередной раз измененной информации так, как он его понял.

И это при том, что мы рассказали только о верхушке айсберга - из-за недостатка места в статью не вошли такие замечательные приемы, как искусственная корреляция, когда два схожих внешне, но не связанных между собой тренда объединяются, ошибки программного обеспечения (один из самых эффектных графиков, доказывающих глобальное потепление, на самом деле является результатом грубейшей компьютерной ошибки, исправление которой приводит к графику совершенно другой формы) и многое-многое другое.

Адекватная статистика существует, но, как любой качественный товар, стоит дорого. И как любой, даже самый дорогой товар, поставляется as is - ни стоимость отчетов, ни имя поставщика информации гарантией качества не являются, пресловутый человеческий фактор и сложность сбора статистических данных все портят. Но у покупателей есть хоть какой-то шанс.

Что же касается тех, кто ратует за свободу информации… Нам приходится есть, что дают. И платить за якобы бесплатную информацию либо собственным временем, оценивая, как ее могли исказить в процессе подгонки в удобоваримую форму, либо собственными решениями, которые будут приняты на ее основе.