Задание 6 (корреляция) - методическое пособие по расчетам

advertisement
Задание 6.
Определение формы и тесноты связей между явлениями на карте (корреляционный анализ).
Исходные данные:
Два растровых изображения с картами.
Номер варианта
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Карты
Море Лаптевых: солёность и температура (50м зима)
Море Лаптевых: солёность и температура (10м зима)
Море Лаптевых: солёность и температура (5м зима)
Море Лаптевых: солёность и температура (400м зима)
Море Лаптевых: солёность и температура (0м лето)
Мир: солёность поверхностных вод океанов (зима) – плотность поверхностных вод
океанов (зима)
Мир: солёность поверхностных вод океанов (лето) – плотность поверхностных вод
океанов (лето)
Мир: температура воздуха (январь) и давление воздуха (январь)
Мир: температура воздуха (июль) и давление воздуха (июль)
Мир: испаряемость (год) и затрата тепла на испарение (год)
Мир: суммарная солнечная радиация (год) и испаряемость (год)
Мир: суммарная солнечая радиация (год) и затрата тепла на испарение (год)
Море Лаптевых: солёность и температура (400м зима)
Мир: суммарная солнечная радиация (год) и испаряемость (год)
Море Лаптевых: солёность и температура (10м зима)
Мир: суммарная солнечая радиация (год) и затрата тепла на испарение (год)
Море Лаптевых: солёность и температура (50м зима)
Мир: испаряемость (год) и затрата тепла на испарение (год)
Море Лаптевых: солёность и температура (0м лето)
Мир: солёность поверхностных вод океанов (зима) – плотность поверхностных вод
океанов (зима)
Шаги:
1. Определиться с областью интереса (некоторый фрагмент карты)
2. Построить в QGIS поля явлений и извлечь два массива точек для явлений A и B (см. методическое
3.
4.
5.
6.
пособие «Построение поверхностей и извлечение их них массива значений в QuantumGIS»).
Построить график поля корреляции, визуально оценить форму и тесноту взаимосвязей между
явлениями.
Вычислить параметры: средние значения A и B, их средние квадратические отклонения, и собственно
коэффициент корреляции.
Вычислить среднюю квадратическую ошибку. Оценитьб корреляцию.
Вычислить и построить линию регрессии.
Теоретическая часть.
Поскольку карта создается по законам математики (т.е. карта – это модель), то данные, извлеченные с
карты, могут быть обработаны с помощью математических законов и формул с целью получения новой
(производной) информации. Вообще многие явления на картах можно рассматривать как функции
пространства и времени.
Известные приёмы математики:






Математический анализ
Математическая статистика
Теория информации
Теория графов
Теория игр
И др.
Для решения наших задач прекрасно подходят методы математической статистики. Они предназначены для
изучения по картам пространственных и временных статистических совокупностей и образованных ими
статистических поверхностей.
Статистической совокупностью называют массовые, качественно однородные множества случайных явлений
или величин. В мат. статистике термином «случайные» обозначают такие явления или величины, которые
сложным образом зависят от множества факторов так, что суммарный результат их взаимодействий нельзя
предсказать с полной уверенностью, а можно прогнозировать с некоторой вероятностью.
Три основные цели мат. статистики применительно к картам:
1. Изучение характеристик и функций распределения явления на карте.
2. Изучение формы и тесноты связей между явлениями.
3. Оценка степени влияния отдельных факторов на изучаемое явление и выделение ведущего из них.
Мы будем определять форму и тесноту связей между различными явлениями по картем.
Для этого нам необходимо:
1. Наличие статистической выборки (некоторого множества случайных величин).
2. Карты, выполненной способом изолиний (псевдоизолиний), иногда картограммы (но с меньшим
успехом).
Выборка может осуществляться 4 способами:
1.
2.
3.
4.
Систематическим (с использованием регулярной сетки).
Случайным (по сетке случайной структуры).
Ключевым (по ключевым, репрезентативным участкам).
Способом районирования (значения отбираются по районам).
Чтобы определить форму и тесноту связи между явлениями по карте необходимо вычислить r – коэффициент
парной корреляции (величина безразмерная), показывающая, насколько явление A зависит от явления B.
Вычисляется, если связь между явлениями A и B близка к прямолинейной.
Свойства коэффициента корреляции:





Числовые значения коэффициента корреляции изменяются в пределах −1 ≤ 𝑟 ≤ 1.
Если r = 1, то между явлениями прямая функциональная связь (т.е. при увеличении A
пропорционально возрастет и B).
Если r = -1, то между явлениями обратная функциональная связь (т.е. при увеличении A
пропорционально уменьшится B).
Если r = 0, то какая-либо связь между явлениями отсутствует.
Если 𝑟 ≥ |0,7|, то связь между явлениями существенна и близка к функциональной.
Как уже было сказано, расчет коэффициента корреляции оправдан в тех случаях, когда связь между
явлениями близка к прямолинейной. Чтобы убедиться в этом, строят график поля корреляции:
Строится он очень просто. У нас есть статистическая выборка по двум явлениям, причем и с одной, и с другой
карты значения в эту выборку попадали из одних и тех же точек. Например:
Температура Солёность
4
2
7
1
11
5
У нас два ряда значений: солёность и температура. Данные, записанные в одну строчку, измерены в одном и
том же месте. Наносим на график точки с координатами, равными значениям этих измеренных параметров. В
данном случае будет три точки с координатами (4;2), (7;1), (11;5). Когда точек много, они образуют график,
похожий на один из приведенных выше.
На рисунке A коэффициент r близок к 1.
На рисунке B коэффициент r близок к -1
На рисунке С коэффициент r ближе к 0
На рисунке В коэффициент r равен 0 или почти 0
Теперь перейдем к вычислению самого коэффициента корреляции. Вот его формула:
∑(𝐴𝑛 ∙ 𝐵𝑛 )
− 𝐴ср ∙ 𝐵ср
𝑛
𝑟=
𝛿𝐴 ∙ 𝛿𝐵
Где:
n – количество пар точек, в которых мы зарегистрировали значения явлений (т.е. просто количество чисел в
ряде). Для обоснованной оценки требуется от 30 до 50 точек, хотя можно и больше.
An – отдельное значение ряда A; Bn – отдельное значение ряда B. При такой записи обычно подразумевается
перебор всех значений ряда от первого и до последнего.
𝐴ср – среднее значение в ряде A.
𝐴ср =
∑ 𝐴𝑛
𝑛
𝐵ср =
∑ 𝐵𝑛
𝑛
𝐵ср – среднее значение в ряде B.
𝛿𝐴 , 𝛿𝐵 - средние квадратические отклонения в рядах A и B соответственно. Рассчитываются по формулам:
∑ 𝐴2𝑛
𝛿𝐴 = √
𝑛
2
− 𝐴ср
∑ 𝐵𝑛2
2
√
𝛿𝐵 =
− 𝐵ср
𝑛
После вычисления r считаем среднеквадратическую ошибку, которая характеризует надежность наших
измерений и вычислений:
𝑚𝑟 = ±
1 − 𝑟2
√𝑛
Если |𝑟| ≥ 3𝑚𝑟 , то связь существует (т.н. гипотеза корреляции) в пределах погрешности вычислений.
Регрессионный анализ позволяет установить, как изучаемое явление изменяется под воздействием одного
или нескольких влияющих на него факторов. По уравнению регрессии можно построить регрессионную
поверхность, аналогичную, по сути, фоновой (исходной) поверхности. Она показывает, как меняется в
пространстве явление в зависимости от факторов, учтенных в уравнении.
Если между явлениями A и B существует линейная связь, то представляется возможным построить так
называемую линию регрессии, уравнение которой имеет вид:
𝐵 =𝑘∙𝐴+𝑐
𝛿
где 𝑘 = 𝑟 ∙ 𝛿𝐵 ,
𝐴
𝑐 = 𝐵ср − 𝑘 ∙ 𝐴ср
Уравнение прямой имеет вид y = kx + b, что мы и имеем в данном случае. Строим линию регрессии по
формуле 𝐵 = 𝑘 ∙ 𝐴 + 𝑐 , накладываем эту линию на график поля корреляции. Задача решена.
Download