чтоб в комментах не пропало
May. 11th, 2014 07:26 pm![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Есть прекрасная байка про статистику: на экзамене студентам дают таблицу с двумя столбиками данных: поголовье аистов в деревне Гадюкино и рождаемость в ней же. Взаимосвязь по формулам просчитывается как сильная. Тем, кто напишут, что есть корреляция между этими двумя показателями - ставят двойку.
Потому что корреляция - это когда, изменение одного фактора ведет за собой изменение другого. При явно совпадающих показателях, корреляция между которыми противоречит здравому смыслу, стоит посмотреть не зависят ли они от какого-то общего фактора. В приведенном примере таблица была корректной: аисты гнездятся на крышах. Появлялась в деревне новая изба - появлялось на ней гнездо, увеличивалось поголовье аистов, а вскоре и дети начинали рождаться, ведь. чем больше семей - тем выше рождаемость.
Потому что корреляция - это когда, изменение одного фактора ведет за собой изменение другого. При явно совпадающих показателях, корреляция между которыми противоречит здравому смыслу, стоит посмотреть не зависят ли они от какого-то общего фактора. В приведенном примере таблица была корректной: аисты гнездятся на крышах. Появлялась в деревне новая изба - появлялось на ней гнездо, увеличивалось поголовье аистов, а вскоре и дети начинали рождаться, ведь. чем больше семей - тем выше рождаемость.
no subject
Date: 2014-05-11 09:21 am (UTC)no subject
Date: 2014-05-11 12:27 pm (UTC)no subject
Date: 2014-05-11 10:19 am (UTC)Опять же, нельзя сказать "есть корреляция" или "нет корреляции". Корреляция всегда есть.
Только корреляция - это, как я уже сказал, математическая абстракция. Если коэффициент корреляции близок (по модулю) к 1, то между двумя колонками есть зависимость. Если близок к 0, то зависимости нет. Все просто.
PS. Пример с аистами - очень хороший, эталонный, я бы сказал.
no subject
Date: 2014-05-11 12:26 pm (UTC)no subject
Date: 2014-05-12 12:24 am (UTC)Мудры были те люди, Биб, которые тебе диплом о высшем образовании не дали ))))
no subject
Date: 2014-05-11 11:10 am (UTC)неа, корелляция - это корелляция. а то, что ты сказала - каузация.
no subject
Date: 2014-05-11 12:26 pm (UTC)Я вот это имела в виду, мне кажется, что я просто другими словами написала?
no subject
Date: 2014-05-11 12:59 pm (UTC)Если А и Б (аисты и рождаемость) изменяются вместе, то налицо корелляция, независимо от причинно-следственных связей между ними.
Прич-след связи между величинами определяются спец. стат. методами, ни в коем случае корелляцией, а напр. Причинность_по_Грэнджеру
no subject
Date: 2014-05-11 01:31 pm (UTC)Корреляция - это зависимость между двумя случайными событиями, которая проявляется в том, что условная вероятность одного из них при наступлении другого отличается от безусловной вероятности.
Я попыталась изложить такое своими словами - получилось плохо. Корреляция - это в первую очередь взаимосвязь именно между двумя событиями, когда изменение одной величины закономерно приводит и к изменению другой. Закономерно.
no subject
Date: 2014-05-11 01:37 pm (UTC)Значительная корреляция между двумя случайными величинами всегда является свидетельством существования некоторой статистической связи в данной выборке, но эта связь не обязательно должна наблюдаться для другой выборки и иметь причинно-следственный характер. Часто заманчивая простота корреляционного исследования подталкивает исследователя делать ложные интуитивные выводы о наличии причинно-следственной связи между парами признаков, в то время как коэффициенты корреляции устанавливают лишь статистические взаимосвязи.
no subject
Date: 2014-05-11 01:45 pm (UTC)Опять таки про аистов: что, изменение поголовья аистов закономерно приведет к изменению рождаемости в конкретной деревне Гадюкино, по которой мы статистику рассматриваем?
no subject
Date: 2014-05-11 02:01 pm (UTC)Математических оснований для такого вывода нет. Основанием для него было бы доказательство наличия причинно-следственной связи. Но корелляция в описанном случае тем не менее самая настоящая, а приведенная в посте байка правдоподобна лишь для гуманитариев.
no subject
Date: 2014-05-11 02:41 pm (UTC)Так если ты не видел математического определения этого понятия, чего ж ты мне ссылку на вики даешь, ге оно упоминается?
А что, математики имеют дело с голыми рядами цифр? У нас все задачи на статистику были с описанием. И такие штучки вроде тех аистов тоже были, вроде трех-четырех рядов вроде: доходы населения по региону, количество населения, рост цен, объем товарооборота по разным группам товаров. Нужно было смотреть, что с чем коррелирует, именно проверяя ряды здравым смыслом, конечная цель этого вроде как была такая, что если корреляции между покупкой соли и ростом доходов не было, то при росте доходов в регион больше соли завозить не надо, а нужно при росте населения, с которым коррелирует, а вот золото и ковры нужно завозить пропорционально и росту доходов, и росту населения. В-общем, просто посчитать по формуле ряды цифр было точно недостаточно для решения задачи.
no subject
Date: 2014-05-11 02:53 pm (UTC)Да, имеют. Потому что здравый смысл субъективен, а цифры - объективны.
Не воспринимай сказанное мной как личную нападку, но в описанном в посте примере налицо именно корелляция, независимо от какие задачи про соли ты решала ранее. Дискуссию на этом прекращаю за бесперспективностью, если не убедил - спрашивай у математиков.
no subject
Date: 2014-05-11 03:05 pm (UTC)В мире ж нынче столько всего происходит, что получить похоже изменяющиеся ряды данных достаточно просто, что-нибудь с чем-нибудь уж точно будет коррелировать по твоему определению, нельзя же говорить, что это взаимосвязанные величины? Или можно?
Вот здесь http://mi3ch.livejournal.com/2559227.html как правильно говорить: корреляция есть?
Я не буду спорить,я уточнить хочу!
no subject
Date: 2014-05-11 03:38 pm (UTC)> В мире ж нынче столько всего происходит, что получить похоже изменяющиеся ряды данных достаточно просто, что-нибудь с чем-нибудь уж точно будет коррелировать по твоему определению, нельзя же говорить, что это взаимосвязанные величины? Или можно?
Твое заблуждение, как я подозреваю, состоит в том, что ты придаешь неоправданно сакральное значение словам "стат. взаимосвязь". На самом деле в устах математика оно не означает взаимосвязи в мирском/бытовом смысле слова. Так, напр. кривые среднегодовых температур планеты и атак пиратов действительно демонстрируют более-менее сопадающий тренд верх. Соотв. налицо весьма высокая корелляция этих величин и стат. взаимосвязь их же. Только, говоря это, математик имеет в виду лишь что кривые вместе растут/падают или наоборот в той или иной степени. Ничего более. Никаких далеко идущих выводов о реально существующей технической взаимосвязи глоб. потепления и пиратства из этого не следует.
> Вот здесь http://mi3ch.livejournal.com/2559227.html как правильно говорить: корреляция есть?
Коэффициент корелляции - это число от -1 до 1. Точно так же, как коэфф. IQ - число от 0 до 100. Ложные или истинные могут быть воображаемые причинности между величинами. Поэтому говорить есть/нет вообще некорректно, ведь он же сука всегда есть! Правильно говорить так: коэфф. корелляции между А и Б составляет 0.76 или хотя бы "коэф. корр. существенно выше/ниже нуля".
Митрич - гуманитарий и поэтому название его поста математически бессмысленно. Правильно было бы назвать его "ложные причинности".
no subject
Date: 2014-05-11 03:43 pm (UTC)Наверное, я просто запомнила, что мы писали "коэфф корреляции такой-то, взаимосвязи нет"... боюсь, преподавателя уже не спросить.
Спасибо, в-общем.
no subject
Date: 2014-05-11 03:54 pm (UTC)no subject
Date: 2014-05-11 02:51 pm (UTC)http://en.wikipedia.org/wiki/Spurious_relationship
Там как раз в качестве spurious correlation приводится соотношение между аистами и рождаемостью. Важный пункт -- это именно таки корреляция.
no subject
Date: 2014-05-11 03:10 pm (UTC)no subject
Date: 2014-05-11 03:23 pm (UTC)http://pignottia.faculty.mjc.edu/math134/classnotes/storks.pdf
Там подчеркивается наличие сильной положительной корреляции между аистами и младенцами
Spurious или нет -- это другое дело. Но корреляция.
Что по-русски другая терминология -- может быть, хотя такая большая разнмца все же удивительна.
no subject
Date: 2014-05-11 03:27 pm (UTC)no subject
Date: 2014-05-11 03:17 pm (UTC)no subject
Date: 2014-05-12 12:19 am (UTC)"количество людей, утонувших в бассейне
и количество фильмов, в которых снимался Николас Кейдж"
и т.д.
upd а, вижу, что видела ))
no subject
Date: 2014-05-12 01:23 am (UTC)Из учебника по статистике.
Date: 2014-05-12 12:39 am (UTC)Лучше всего понять ложные корреляции на простом примере. Известно, что существует корреляция между ущербом, причиненным пожаром, и числом пожарных, тушивших пожар. Однако эта корреляция ничего не говорит о том, насколько уменьшатся потери, если будет вызвано меньше число пожарных. Причина в том, что имеется третья переменная (начальный размер пожара), которая влияет как на причиненный ущерб, так и на число вызванных пожарных. Если вы будете "контролировать" эту переменную (например, рассматривать только пожары определенной величины), то исходная корреляция (между ущербом и числом пожарных) либо исчезнет, либо, возможно, даже изменит свой знак.
Основная проблема ложной корреляции состоит в том, что вы не знаете, кто является ее агентом. Тем не менее, если вы знаете, где искать, то можно воспользоваться частные корреляции, чтобы контролировать (частично исключенное) влияние определенных переменных".
"Вообще говоря, конечная цель всякого исследования или научного анализа состоит в нахождение связей (зависимостей) между переменными. Философия науки учит, что не существует иного способа представления знания, кроме как в терминах зависимостей между количествами или качествами, выраженными какими-либо переменными.
Таким образом, развитие науки всегда заключается в нахождении новых связей между переменными. Исследование корреляций по существу состоит в измерении таких зависимостей непосредственным образом."
no subject
Date: 2014-05-12 01:27 am (UTC)