Текст занятия - Школа открытых данных

advertisement
ШОД
ГИС
00:10:13
- Ну что, начинаем? Кто работал с ГИС до этого? Никто не работал. Хорошо. Разработчик,
или там программист. Двое, окей, троей. Окей. Кто знает, что такое (нрзб) map?
Разработчики. Хорошо. Что и требовалось доказать. У меня, я не знаю про предыдушие
как бы вот ваши в рамках школы занятия, у меня довольно такая технологическая тема. Я
сам занимаюсь тем, что называется геоинформационные системы, или геоинформатика,
или там геоданными, очень давно. Порядка 15 лет. И у меня есть пара таких штук,
которые мы делаем довольно давно, одна из них называется гис-лаборатория, гислаб, это
такое место, где люди могут зайти и задать вопрос о том, что им надо делать, не что им
надо делать, а что им хочется сделать ,когда им хочется что-то делать с геоданными, что
именно нужно им сделать, чтобы достичь какого-то результата. Вторая штука, которую
тоже мы делаем, называется nextgis, это компания коммерческая. Поэтому я не скрываю
того, что у нас есть коммерческий интерес в том, что мы делаем.
00:11:44
И, так как я занимаюсь этим очень давно, у меня есть две такие профессиональные..
деформации, одна из них – это то, что я реально не знаю, насколько просто то ,что я
говорю, поэтому, если вам непонятно то, что я говорю, пожалуйста, как-то индицируйте
это, и я постараюсь может быть другими словами объяснить. В связи с этим я также не
знаю, у нас принято в рамках презентации задавать вопросы или нет. Мне будет проще,
если.. то есть я не против, если вы будете прерывать и задавать какие-то вопросы более
конкретные, что называется, feel free.
- Можно первый? Повторите, как Вас зовут?
-Максим. Да, и вторая штука тоже довольно важная – а , вопрос как меня зовут, в
микрофон, да. Тоже довольно важная- это то, что мне довольно сложно рассказывать про
то, что вам может дать ГИС. Это довольно странно звучит, но это факт. Поэтому я всегда
жду от вас вопросов. Что вы хотите решить с помощью геоинформационных систем,
почему вам понадобились карты, что именно вы хотите с этим делать. Мне будет проще
ответить на вопрос, как вам это сделать, раскрывать все возможности ГИСа – это
довольно такая большая задача, которой я сегодня не планирую заниматься.
00:13:15
Ну вкратце у нас план такой. Я расскажу некоторые основные моменты технологии с
таким как бы небольшим отступлением в область открытости, открытых данных и так
далее. Потом у нас перерыв и потом практика и мастер-класс. У меня есть конкретный
пример, который я вам хочу показать, как это работает. Как это работает. Надеюсь, это
вам будет полезно и интересно. Общее вступление таково.
00:13:48
Наш мозг ориентирован на то, чтобы в хаосе находить порядок, искать паттерны. Поэтому
на самом деле карты мы строим постоянно, мы постоянно увязываем одни вещи с другими
в некоем пространстве, мы существуем с вами в трехмерном мире, и поэтому у нас
постоянно есть некая система координат, в которой мы сушествуем. Есть пара таких
забавных направлений в картографии, одно из них называется motional cartography, другое
как бы нейрокартография, которая связана с тем, как мы воспринимаем мир и какие карты
мы строим. Это показывает то, что карты нам не чужды, и мы постоянно с ними, они как
бы аппелируют к нашим чувствам, мы их так любим рассматривать, что-то на них
наносить, мы организовываем информацию. В какой-то мере мы их понимаем именно
потому, что мы все время ищем порядок в хаосе.
00:14:50
Географическая информационная система – это такое направление технологии, которое
состоит, как и любая другая технология, информационная технология, из данных,
геоданных и программного обеспечения, специфического, для того, чтобы эти карты
делать, для того чтобы помочь нам более эффективно, более качественно заниматься тем,
чем мы занимаемся у себя в голове. 80% данных так или иначе связаны с географией..
попробуйте придумать что-нибудь, что не связано с географией. На самом деле цифра
80%, она немножко взята с потолка, хотя это цитата. Никто не может объяснить, почему
80, почему не 85. но она показывает, что таких данных действительно очень много, так
или иначе связанных с географией.
00:15:32
Вот давайте вот пример чего-нибудь не связанного с географией. Можете придумать?
- Конкретно человек.
-Ну мы лично все географичны. Мы находимся в пространстве. Кстати самый первый
пример ГИС, такой любимый и классический – это то, как выявили возбудителя холеры в
Англии в 18 веке. Человек собрал все инцинденты возникновения болезни, нанес их на
какой-то кусок карты и выяснил ,что все они концентрируются вокруг колодцев. Таким
образом поняли ,что холера распространяется там..
- (нрзб).
- Ну типа того, да.. так что плохой пример. Давайте лучше.
- (нрзб) Использование слов в библии или коране.
- Окей. Good enough. Нет ,я не говорю , что их нет, таких данных. Их много. Реально
нужно задуматься для того, чтобы придумать, какие же это данные. Все же я попытаюсь
очень кратко представить, что же можно сделать с геоданными. На мой взгляд это три
вещи: визуализация, информационные системы и аналитика.
00:16:38
Визуализация – это то, что оторвано от практического смысла, это то, чем занимаются
художники и артисты, это красивые картинки на базе карт. Это Москва, это все
генерируется автоматически, имейте в виду. Это город Портленд, да, тоже очень красивый
и красивая визуализация. Люди делают карты для того даже, чтобы продавать их потом на
каких-то аукционах. Это все является такой визуализацией без некоего практического
смысла. Дальше мы делаем шаг вперед и начинаем карту использовать для того, чтобы
вокруг нее или на основе нее делать какую-то информационную систему. Вот
информационная система по полиции, которую мы делали ,позволяет на карте получить
привязанного к каждому дому, ну или почти к каждому дому, того участкового, в сферу
ответственности которого входит этот дом.
00:17:29
То есть такой пример визуализации с тем, что вам дает информацию. То есть вы щелкаете,
и получаете информацию. Она может быть мобильного базировании, может быть веб,
любое. Или информационная система, которая позволяет вам собирать информацию или
создавать информацию. Геоданные. Геоинформаци. Другой проект, который мы тоже
делали- проект по участковым избирательным комиссиям,. Там, где много людей
собиралось, устраивали такой небольшой краудсорсинг и двигали точки в нужные адреса
и таким образом создавали эту информацию. Сейчас я использую эту информацию для
того, чтобы делать уже следующие шаги, следующую визуализацию этой
информационной системы и так далее.
00:18:07
Ну и аналитика. Аналитика- это когда вы не просто берете данные и их визуализируете, а
вы каким-то образом их обсчитываете, превращаете их в новый продукт. Вот сейчас
популярна серия сервисов – такая нарождающаяся, которая берет кучу данных по
расположению объектов в Москве или в любом другом городе, и неким образом по
хитрой формуле их обсчитывает, показывает, насколько этот кусок местности – квадрат
или район Москвы- пригоден или, там, хорош. Понятно, что там очень много аналитики
разной может быть за этим всем, то есть по каким формулам это считается и так далее. Но
это некие уже такой продукт аналитический на базе картографической информации. На
базе геоинформации мы не можем такой продукт сделать в принципе без геоданных.
Просто имея список театров, мы не можем, потому что там нужно посмотреть их
отношение друг к другу в пространстве.
00:19:04
ГИС имеет дело.. ГИС вообще произошел от такого синтеза баз данных и САПР. Вы
знаете, что такое САПР? Системы автоматизированного проектирования. Чертили
чертижи? Это САПР. Обратите внимание, что с чертежами тоже происходит в некоем
пространстве, да? Но на чертеже вы делали потом так. Вы писали, то есть на чертеже
сама деталь несет как бы в себе информацию о том, что это за деталь. Или вы делаете
сноску и пишете там «Редуктор». ГИС объединяет эти два понятия, САПР и баз данных, и
каждый объект, которым оперирует ГИС, у него есть эти два понятия. То есть у него
обязательно должны быть координаты, у этого объекта, в той или иной форме, об этом мы
сейчас еще немножечко поговорим, какой. И у него должны быть атрибуты. Понятно, что
вот эта вот связь между базами данных и САПР, которая была некоторым образом
уникальна 20 лет назад, сейчас она довольно сильно размылась, и САПР и базы данных
сейчас очень тесно проникли в область ГИС, у нас есть и пространственные всякие
расширения для баз данных, которые позволяют работать с пространственной
информацией.
00:20:19
С геоданными. У нас есть САПР, которые делают вид, что они ГИС, вот, и в общем все
это настолько сейчас перепутано, что это не существенно. Важно то, что геоданные, как
мы их все понимаем, это обязательно совокупность координат и некоего объекта. И
некоторого набора параметров про эту точку в пространстве. Плюс атрибутика. Помимо
собственно геоданных, это довольно важно, есть такая штука, которая называется
метаданные. Метаданные – это данные о данных. Или информация о данных.
Недостаточно просто взять вот этот вот набор объектов, россыпь, да, и передать ее
человеку и сказать «Работай!» это довольно жестокий поступок, потому что человек не
будет знать априори, ни в какой системе координат и где он находится, ни какова
точность, как они были созданы, кто автор, какова лицензия и так далее. Это все довольно
важно описывать. Поэтому такой Take Home Message, один из, пытаться все-таки ,если вы
создаете какие-то данные- ну на самом деле касается не только геоданных, как вы
понимаете, а любых других данных тоже – попытайтесь все-таки создавать эти
метаданные, и вам самим и людям после вас, которые будут этим всем пользоваться,
будет проще жить.
00:21:51
Вторая особенность ГИС, которая тоже довольно такая была необычная – это послойная
организация информации. То есть ГИС, картография, она всегда мыслила – кстати до
недавних какихъ-то пор – она мыслила такими категориями объектов и всегда
раскладывала информацию по слоям. ГИС-слоям. То есть у нас есть некий набор
объектов, мы его раскладываем для того, чтобы было легче этими данными управлять, для
того, чтобы легче было указывать взаимодействия между слоями. Мы их раскладываем на
уличную сеть и так далее. У нас есть карта-основа какая-то, картографическая основа.
Гидросеть отдельно, дорожная сеть отдельно. Это очень удобно.
00:22:39
Но это удобство, оно на самом деле нужно понимать, что это не эксклюзивная такая
штука ГИС, потому что есть ГИС, которые плевать хотели на слои. И это моя любимая
ГИС - Open Street Map. Она как бы игнорирует слои ,у нее все объекты находятся в
некоей единой базе данных, вы можете их разбить на слои. И классические картографы
типа меня, которые первый раз видят такую структуру, они сходят с ума. Потому что
непонятно, как вообще можно существовать с такой базой данных. Но люди, которые
работают в Open Street Map, они в общем довольны. И для целого ряда задач это вполне
адекватная форма представления данных. Она не является чем-то проблемным в том
плане, что если вы так организовываете данные.. не организовываете данных по слоям, то
вам закрыты какие-то.. Нет. Просто в рамках некоторых задач может это стать резко
неудобным.
00:23:48
Тем не менее, ГИС принято разбивать данные по слоям и как-то их семантически
организовывать послойно. Так, у меня нет времени, вот обнаружил, что..
- 19:19.
-Спасибо. Значит, форма представления геоданных. Геоданные, как и любые другие
данные, можно очень по-разному представить. Вот у нас на картинке сейчас есть одна и та
же местность, представлена двумя способами. Один из них растровый, то есть, у нас есть
некая картинка, объектов как таковых на этой картинке нет, мы их видим и можем
распознать глазом, но по сути как объекты они не выражены. И у нас есть второй тип
информации – там, где что-то нарисовано разными цветами и мы можем сказать что – да,
вот этот объект –это река, не подписано, но тем не менее. Какая-то дорожка, какие-то
отдельные деревья и какие-то отдельные знаки.
00:24:54
И то, и другое может быть геоданными. Нужно знать, какие формы представления
геоданных существуют. Такие формы, про которых я сегодня хотел сказать, их две.
Растровая и векторная. Растровая форма представления данных – это регулярная сетка, на
которой элементарной единицей сетки является ячейка. К этой ячейке привязано какое-то
значение. Как правило, это один атрибут. Растры – это такая послойная штука, которая..
ну которая всегда послойна. К ней привязан какой-то атрибут. Это может быть очень
разная вещь, высота над уровнем моря, плотность населения – все что угодно. Привязано
к этой ячейке. Это растровая модель. Примеры таких растров, то, что распространяется в
растре, геоданные, которые распространяются в растре – это конечно космическая съемка,
это всегда растр. Если вы увеличите, вы увидите, что начнет проглядывать то, что
называется «пикселизация», да, то есть некие квадраты с уникальными значениями, они
неделимы. Дальше их делить бесполезно. Растр характеризуется таким параметром, как
разрешение, да, то есть размер пикселя на местности.
00:26:12
И дальше его делить бесполезно. И то ,с чем тоже очень часто приходится сталкиваться –
это всякие отсканированные материалы. Отсканированные карты, отсканированные
схемы, планы и так далее. Тоже – если вы только что отсканировали, у вас получился
растр. Он еще не является геоданным, потому что вы его еще не привязали, то есть у вас
атрибутика уже появилась в виде некой таблицы, матрицы, в данном случае. Но
координат еще нет. Поэтому мы его геоданными еще не называем. Геоданными мы его
начинаем называть, когда мы провели некую процедуру, я на практической части покажу,
если время останется. Провели некую процедуру и получили из этого растра уже георастр.
Как бы геоданные.
00:27:01
И вторая модель – векторная. С вектором наверное тоже все знакомы. У векторной модели
представление, элементарной единицей, является узел, все узлы связаны ребрами, или,
если не связаны, то это просто точки. Объектом же является некоторая сущность
следующего уровня, это либо точка, либо линия, либо полигон. Понятно – что такое
точка, это просто один узел, линия – это узлы, соединенные ребрами, и полигон-это
замкнутая фактически линия. На самом деле по большому счету отличить полигон от
замкнутой линии в принципе невозможно, если ваша модель данных.. точнее, не ваша
модель данных, а ваш формат не позволяет это делать. И потом опять же есть форматы,
которые не отделяют линии от полигона. И разделение происходит.. успешно с этим? Ага.
Есть форматы, которые игнорируют это разделение, и разделение происходит только по
атрибутивной информации. То есть, если про полигон написано, что это полигон, то по
замкнутой линии мы знаем, что это полигон. А если про эту линию ничего такого не
написано, или написано совсем что-то другое, то это линия. Пока все понятно? Вы
спршивайте, не стесняйтесь.
00:28:21
Векторную форму представления используют для карты-основы. Потому что понятно, что
для картографической основы мы все время имеем дело с какими-то дискретными
объектами. Типа дома, дороги.. и так далее. Но когда мы смотрим на какую-нибудь карту
глазами в интернете, мы как правило уже имеем дело с ее растровой, растровым
представлением. То есть база данных, сама картографическая база данных, которая вам
показывается, она нативно векторная, потом некоторое программное обеспечение делает
то, что называется «рендеринг». Отрисовывает вектор в виде растра, эти растры подает
вам как клиенту, сервер подает эти растры, и вы уже их исследуете. Это довольно важный
такой еще один момент, который тоже нужно иметь в виду, что, когда кто-то передает вам
какие-то данные, вы должны попытаться понять, что как бы первоисточник этих данных.
Он какой. Потому что вам может быть это важно для ваших задач.
00:29:33
Есть одной формы представление может не решить ваших задач, а другое можно решить.
Самая такая сакральная, запутанная и сложная часть ГИС, которую нужно попытаться
постичь – это системы координат. Как я уже сказал, мы все находимся в некоей системе
координат и все время ею оперируем. Просто потому, что мы пространственные создания.
У нас есть право-лево, у нас есть далеко-близко и так далее. Так и в геоданных есть
системы координат, в которой вот те самые циферки в скобках выражаются. Понятно, что
у нас все всегда непросто, поэтому систем координат много разных. На самом деле их
многие тысячи. И это делает жизнь картографа довольно сложной. Но я попытаюсь вам
показать, что в принципе вам нужно знать только несколько таких базовых вещей. Первая
из них – это то, что системы координат делятся на три типа.
00:30:40
Географические, проецированные и локальные. Немножко про каждую. Значит, с
географическими координатами все понятно. Когда вы включаете свой GPS, та точка,
которая к вам приходит – это точка в одной из географических систем координат.
Географических систем координат, точно так же, как и других, много разных. Потому что
одни рассчитывают эту точку для одного эллипсоида, одной модели эллипсоида, другие
для другого, третьи дл третьего. Но вы наверняка слышали такую штуку, не знаю, если
вы вообще интересуетесь ,как wgs-84, это такая общемировая система координат, в
которой все работают. Это нормально.
00:31:26
Важно ,с координатами важно вот что. Если вы много с этими данными работаете, вам
нужно попытаться понять по цифрам, прикидывать как бы, в какой же системе координат
находятся ваши данные. Потому что постоянно будут приходить какие-то данные, и вы
постоянно будете спрашивать – а в какой они системе координат? А те люди, которые их
создали, они обычно будут забыать делать метаданные к этим данным и поэтому у вас
перед глазами будет карта Москвы, и много цифр. Ну вы будете там курсором по ней
перемещаться, и вы будете все время думать ,в какой же это системе координат. И
поэтому мне кажется, попытаться запомнить тот диапазон значений, которые
соответствуют той или иной группе координат, может облегчить жизнь. Так вот –
диапазон координат понятно. От -180 градусов до 180 и от -90 до 90. долгота-широта,
соответственно. В чем проблема? Почему мы все не работаем в географической системе
координат и как бы не радуемся этому и зачем нам так усложнять жизнь другими
системами?
00:32:32
Сложность в том, что.. Все знают, что такое Гугл Эрф. ГугльЭрф – это такой шарик, он
находится нативно в системе координат, и с ним очень удобно работать, до тех пор, пока
вы не захотите посмотреть на землю целиком. Да? Вот у вас уже появляется некая
сложность визуализации, потому что эта система динамическая. То есть в динамике все
прекрасно, можно прокрутить, посмотреть, что там на другой стороне Земли, антиподов.
А если вы хотите всю картину целиком обозреть, то у вас некая возникает проблема. Это
первая проблема. Вторая проблема –в расчетах. Измерения на сфере значительно
сложнее, чем измерения на плоскости. Для того, чтобы расстояние от одной точки до
другой посчитать на сфере, формула будет выглядеть значительно сложнее. Понятно, что
вам не надо ее запоминать. В смысле знать саму формулу. Но тем не менее. На сфере две
точки могут быть соединены как кратчайшим расстоянием, так и расстоянием
постоянного угла. Может быть локсодромия и (?). на сфере все усложняется. На сфере
сумма углов треугольника может быть больше 180 градусов.
00:33:34
Представляете? Это потрясающе. (смеются). Короче, сфера, сфероид ,эллипсоид нам не
всегда подходит. В географической системе координат не всегда нам подходит. И люди
занимаются тем, чем они еще любят заниматься, а именно проецируют сферу на
плоскость. Когда мы смотрим, открываем яндекс-карты или гугл-мэпс, мы видим,
естественно, плоскость, в которой у нас Гренландия такого же размера, как Африка. Что
,естественно, не так. Поэтому сразу к проблемам проекционных систем координат – в том,
что там есть такая штука, как искажения. Невозможно перейти от географической
системы координат, да, от сферы к плоскости без потери одного из параметров. Либо угла,
либо длин, любо.. чего там третье.. надо ж было забыть. Площади! Один из этих
параметров серьезно пострадает. Здесь у меня картинки нет, но просто вспомните карту,
вот всю карту мира, когда вы открываете какой-нибудь гугльмэпс, и Гренландия, которая
размером с Африку – понятно ,что эта система координат, которая используется, а это
Меркатор, эта система координат, она очень сильно искажает площадь.
00:34:56
Зато она очень точно передает углы. Поэтому систему Меркатора использовали
мореплаватели для того ,чтобы .. ну собственно она и названа по имени Меркатора
,который был мореплавателем. Для того , чтобы держать точный курс. Все прямые линии
в Меркаторе являются локсодромиями. То есть линиями постоянного угла. Но не
кратчайшего расстояния.
00:35:20
И поэтому с проекционными системами координат вот так сложно. Диапазон координат
от – до +бесконечности меняется, потому что это, как правило, метрические измерения.
На них очень просто измерения производить. Понятно, что это плоскость, вы просто
измеряете гипотенузу треугольника и получаете ваше расстояние. Третий тип системы
координат – это так называемые локальные системы координат. Локальные системы
координат, на самом деле ,по большому счету строго не отличаются от проекционных.
Это тоже прямоугольная сетка, это тоже начало некой системы координат, это тоже
измерение по простым формулам. Но локальные системы координат являются системы,
про которые вы не знаете, в какой она системе координат находится. Какая именно
проекция была использована для того, чтобы получить этот прямоугольный кусок чегонибудь.
00:36:22
Если вам, опять же, если вам передали некий набор данных, вы на него смотрите, никаких
данных для него не передали о проекции и так далее. У вас есть некие цифры, вы не
знаете, в какой они системе координат. Вы не можете.. ну вы можете это сделать после
некоторых мучений,
но априори вы не можете вернуться к той системе координат..
в географическую систему координат. В общую систему координат. Не знаю, возможно,
запутал в конце. Но тем не менее. Только что отсканированный растр находится в
локальной системе координат. Потому что это просто пиксельная сетка, у которой каждый
пиксель имеет координату – колонку или ряд, да? Все данные, которые находятся во
всяких секретных системах координат для вас тоже являются локальными, потому что вы
не знаете, как из этой секретной системы координат перейти в общую. Поэтому тут тоже
масса проблем этим порождается. Если знаете вот эту бучу с.. некую критику портала
открытых данных Москвы, она была связана именно с этим.
00:37:28
Что очень много данных на портале распространялись в такой системе координат, которая
называется «прямоугольная московская система координат». Это система координат
является секретной. Точнее сама система координат описана и не секретна, но ее
параметры перехода к географической системе координат являлись закрытым
приложением. Поэтому вы их в принципе использовать не могли. Могли их только
использовать как есть. Но совместить с другими данными было бы сложно. Это понятно?
- (нрзб) на основе данных?
-Ну конечно, способы-то есть. Способы всегда есть. Можно вообще забыть про
проекционное преобразование, забыть о том, какая это проекция, и пользоваться какиминибудь полиномами для того, чтобы.. там одна матрица, есть другая матрица значений.
Система уравнений – и пожалуйста, получили коэффициенты и перешли от одной
системы координат к другой.
00:38:30
Но это не совсем то, потому что проекционное преобразование гораздо более точное. Вы
не теряете в точности. А моделирование типа вот такого статистического, когда полиномы
или аффинные преобразования, они гораздо менее точны. Как правило. Какие-то еще
вопросы есть? Задавайте, не стесняйтесь. Хорошо. Форматы. Опять же- с чем вам,
возможно, придется столкнуться. ГИС- это зоопарк форматов. Геоданные там во всем в
чем угодно распространяются, там сотни штук. Но чаще всего вам придется столкнуться
со следующими. Векторные и растровые. С растровыми очень хорошо на самом деле,
потому что там есть некий консенсус, что GeoTIFF – это самый правильный формат. Он
без потерь, у него есть такая штука, как теги, в эти теги можно записать все ваши
метаданные, поэтому в принципе очень удобно. Вы распространяете данные , у вас уже
внедрено в эти данные то, в какой системе координат это все находится, кто там автор, ну
в общем все это можно прописывать в геотеге. Разрешение на местности и так далее.
Поэтом с геотифами все просто. Если вам дают данные –просите геотиф. Все
программное обеспечение его понимает, с геотифами будет легко.
00:39:58
С векторными данными сложнее. Векторными данными .один из таких законодателей мод
– это ESRI Shape так называемый. Эсри – это такая уникальная корпорация, частная до
сих пор компания, которая доминирует на рынке ГИС коммерческом. И в какой-то
момент, это были, по-моему, 90-е годы что ли. Они сделали такой смелый шаг и открыли
формат данных, с которыми они тогда работали. С которыми работала их ГИС. Их
программа картографическая ESRI Shape. Это привело к тому, что очень многие другие
продукты стали его ,естественно, поддерживать, и таким образом они привлекли себе, ну
не только из-за этого, конечно.. привлекли больше, скажем так, людей к себе, чем другие
компании, которые очень тщательно скрывали свои форматы и попытались всех затащить
в свою экосистему.
00:41:01
Проблема Эсришейп в том, что он бинарный. Это первая проблема. Вы не можете взять и
посмотреть внутрь этого формата просто. Естественно, те программы, которые его
читают, этот формат открыт, вы можете его распаковать, и так далее. Посмотреть все что
угодно. Но он бинарный. Вторая проблема – то, что он устарел. Это понятно, что 90-е
годы. Шейпы- это формат, который тоже из двух частей состоит, это геометрия и
атрибутика, и вся атрибутика хранится в простой базе данных в формате dbf. Он очень
хороший формат, его легко читать, его легко редактировать и так далее. Но у него есть
одна немаловажная проблема. Две проблемы. Первая- что там есть ограничение на длину
строки. Максимальная длина строки – 256 символов. То есть вы не можете в него засунуть
страницу текста. Вот. А вторая проблема- то, что он создавался во времена, когда
кодировками никто не заморачивался.
00:42:00
И поэтому там есть масса проблем с кодировками. Тем не менее в этом формате все
современные ГИС работают, практически все. Можете создавать и редактировать, и если
вам нужно что-то делать, вы наверняка будете все делать в Esri Shape. Это правильно.
Потому что эти проблемы, вы не обязательно с ними.. как бы они не обязательно будут
представлять для вас проблему. Сразу. Вот. Как-нибудь потом. И второй формат довольно
странный, но это такое мое личное мнение, что это csv. Сейчас очень много данных стало
распространяться в csv. CSV- понятно чего хорошего. Его все читают. Вы можете
смотреть геоданные глазами в любом табличном редакторе. Просто открыть и посмотреть.
У вас будет одна или несколько колонок, в которых будет определенным образом
прописана геометрия объекта. Очень просто. Очень классно. В принципе. Если у вас 5
точек.
00:42:58
Если у вас там миллион – это может быть несколько проблематично, потому что текстовая
форма, она очень не оптимальна с точки зрения хранения данных на диске, да? Почему
бинарная лучше – потому что она все сжимает. И кодирует по-другому. Текстовая форма
неоптимальна с точки зрения хранения на диске. И вторая проблема – что гео всякие, ну
представьте себе границу города Москвы, это довольно сложная форма. Это миллионы
узлов. Ну или там тысячи, десятки тысяч, сотни тысяч.
00:43:30
И засунуть вот массив как бы цифр в ячейку таблицы – это ненормально. Так не делают.
Тем не менее опять же на портале открытых данных, и когда мы распространяем какие-то
свои данные, результаты и так далее, мы стараемся обязательно кроме бинарников
прикладывать еще и csv. Там есть специальные файлы- компаньоны, которые позволяют
все эти метаданные прописать правильно. Прикладывают к нему все эти штуки. CSVочень полезен для быстрого обмена такого. OSM XML – вот это вот новое движение,
новая тенденция. Это очень особенный формат, он разрабатывался не картографами, а
такими it-специалистами, у них совершенно свое представление, получилось что-то
уникальное. Нам приходится с ним иметь дело, хотя картографы, конечно ,его не очень
любят, потому что все больше и больше народу участвует в опен стрит мэп, все больше и
больше данных производится в Open Street Map, наш основной источник данных по картоснове, по объеткам, по адресной базе – все это опен стрит мэп, потому что это открытый
формат данных, потому что там много данных.
00:44:49
И все это распространяется в OSM XML. Это XML- подобный формат, он там
компрессируется по-разному. У него такой плюс-минус: у него нет жесткой табличной
структуры. В отличие от шейпа и цсв вы представляете себе таблицу. В таблице есть
колонки и ряды. В OSM XML нет жесткой табличной структуры. Там может один объект
иметь 5 атрибутов, а другой объект 35. Пар ключ-значение. Я просто смотрю –
разработчики, они «угу, угу, давай!». А народ (нрзб) притих. Ну я надеюсь, что вы если не
запоминаете, то хотя бы как-то для вас это хотя бы интересно.
- А можно вопрос? Какое место здесь занимает Геоджейсон?
- Он довольно новый, он довольно хороший, в принципе csv и геоджейсон – они похожи.
Проблема с геоджейсоном – ну, я имею в виду на уровне вот того, что они текстовый, что
он достаточно простой – у него те же проблемы. Во-первых, потому, что он текстовый,
много данных не передашь.
00:46:05
Нет, можешь передать, просто неэффективно. Его надо компрессировать и так далее. А
вторая проблема – он все равно сложнее читабелен, чем тот же самый CSV, где все равно
нужно структуру парсить – визуально или используя какой-нибудь (нрзб). Который тебе
разложит это все. Но он..
- Уровень общепринятости ,скажем так.
- Очень- очень сейчас набирает темпы. Набирает темпы. Сейчас Гитхаб перешел на
прямое редактирование геоджейсона. На самом гитхабе. Это очень круто. То есть это
очень такой буст..
- Гугл отдает его в качестве распознавания адресов.то есть Гугл API, в котором можно
повстречаться с адресом, и в ответ получишь координаты .как раз дает Геоджейсон. Также
как например Эппл принимает его в геолокации.
00:46:54
-Да, да. Безусловно. Наверное, я тут должен был сказать ,что это такие форматы, которые
не совсем для разработчиков, скорее, для пользователей этого всего. Ну, хотя.. да.
Геоджейсон тоже имеет смысл знать, вспоминать. Переходим к некоей второй части. Есть
время еще. В чем проблема с геоданными. Главная проблема – в том, что геоданные- это
такой массивный всегда набор данных, то есть их всегда очень много. Но в то же время их
всегда очень не хватает почему-то. Почему их не хватает? Потому что вот этого большого
количества все равно оказывается недостаточно. Потому что их довольно тяжело
собирать. Геоданные тяжело собирать, это государственная задача, как правило. И этим
занимаются всякие картографические агентства и так далее. На первых порах, ну,
исторически, да, поэтому важны очень действия государства для того ,чтобы это
раскрывать.
00:47:53
Потому что для людей, которые хотели бы создавать какие-то картографические вещи,
какой-то картографический анализ производить, им нужны данные. Любые барьеры, они
как бы снижают массовость использования этих данных. Не то чтобы я часто читаю такие
лекции, но всегда, когда я спрашиваю, сколько людей , которые занимаются ГИС, всегда
очень мало рук. Отчасти это наверное связано с тем, что данных мало, они не.. как бы..
породили того количества проектов и людей, которые ими интересуются, для того чтобы.
Естественно резонный вопрос- где эти данные брать. Открытые геоданные и что это
вообще за данные. Первый источник, как я уже говорил, это Open Street Map, это база
данных и сообщество, это люди, которые сами создают свои карты. Опен стрит мэп по
сравнению с коммерческими поставщиками дает доступ к исходным данным, что очень
важно. И лицензия опен стрит мэп гораздо более либеральна, чем лицензия опять же
коммерческих поставшиков.
00:49:12
Очень многие вещи, которые вы можете делать с опен стрит мэп, вы ни в коем случае не
можете делать с коммерческими поставщиками. Вот например упоминавшийся геокодинг,
геокодирование, то есть получение адресов.. получение координат по адресам – это
геокодирование называется – во второй части там у нас будет примерчик с этим.
Коммерческие сервисы, они запрещают вам это делать в больших количествах и
запрещают потом результаты этого геокодирования использовать вне своей экосистемы.
Это проблема. Потому что мы часто хотим не просто извлечь адреса, а потом делать с
ними все что угодно. Создавать свои картографические продукты и так далее, уже забыв
про то, откуда мы их взяли. Таким образом Open Street Map позволяет это делать, ну
естественно там есть некие условия, вы должны его цитировать, вы должны цитировать
его лицензию и так далее. Но другие поставщики этого делать не позволяют.
00:50:12
Open Street Map – еще раз, это база пользователей, да, вот у нас сейчас в России порядка
18 тыс редакторов, то есть людей, которые на территории России хотя бы одну правку
сделали. Правда, это у меня подсчет за апрель. Понятно, что их стало еще больше. Ну и
просто по количеству объектов, да, это к тому, что геоданных много всегда. Это
миллионы. Одних объектов типа «дом» у нас 40 млн в стране. Еще раз плюсы и минусы
Опен стрит мэп. Он реально везде, у него очень много данных, много разных
инструментов, но он сделан гиками для гиков, у него нет жесткой структуры данных, там
есть некоторые проблемы с тем, как перевести в более привычную форму, в более легкую
для использования форму. И еще большая проблема- опен стрит мэп это карта ну вот как
из назвния следует, это некая карта города. То есть там многие типы данных, которые
могли бы понадобиться, они просто не представлены. Геоданных, имеется в виду.
00:51:19
И поэтому второй источник открытых данных – это портал открытых данных города
Москвы, ну понятно , что сейчас там 200 с чем-то источников данных, многие из которых
геоданные, по крайней мере много декларируется, что они геоданные. Сейчас ситуация
немножко непонятная, для меня лично, потому что вот буквально несколько дней назад
там вот была полная перетряска всего, и сколько уцелело геоданных – непонятно, никто
не посчитал на самом деле. Потому что у них может быть написано, что такой-то набор
данных является гео, и он даже может показываться на некоей внутренней карте, но
скачать этот набор данных себе с координатами может оказаться невозможно.
00:52:10
До того, как там была произведена вот эта перетряска, порядка половины данных
находились вот в этой странной системе координат. И есть подозрение, что в новой
версии все эти данные были просто убраны, и данные стали из геоданных просто набором
атрибутивных таблиц. Ну это нужно проверить. Но тем не менее портал открытых данных
- очень хорошее, очень такое системное подход к решению проблемы отсутствия данных.
У него тоже есть некоторые проблемы. Первый –понятно, много данных разных,
действительно обновляется, вот особенно бывают периоды .видимо .когда активная
работа начинается, и вот последние несколько дней это такой период. То есть там реально
идут десятки обновлений всех наборов данных. А если взять месяц назад, то там было
пару наборов в неделю обновилось и так далее. Тем не менее он обновляется. Со связью у
них все не очень. А главная проблема портала – то, что там реально нет тех наборов
данных, которые являются системно необходимыми для любой картографической работы.
00:53:21
Ну что нам нужно для картографических всяких приложений? Всегда нужны – адресный
реестр. Нам нужен адресный реестр города Москвы для того, чтобы привязывать к нему
какие-то свои объекты. Адресного реестра там нет. Сама картографическая основа,
которая нам тоже может понадобиться, потому что мы не хотим, не любим, не доверяем
гуглу, опенстритмэп, чему угодно еще, мы доверяем профессионалам из мосгортреста,
попробуйте попросить на портале, чтобы они выкладывали не просто реестры там точек,
больниц и так далее, а и саму картографическую основу. Это важно. Их до сих пор нет.
Хотя многие страны в мире всем этим делятся, потому что понятно, что, еще раз – данные
очень сложно собрать, это безумная работа, у нас в России 18 тысяч людей, Москва самый
крупный мегаполис с огромным количеством народа. Я сейчас просто прошел здесь, когда
шел сюда, посмотрел – там неимоверное количество вещей, которые надо бы поправить. В
опенстритмепе, я имею в виду.
00:54:28
Это к тому, что это годы, процесс проходит годы, это тысячи, сотни людей, но все равно
этого недостаточно. Все равно это очень большие вложения. И эти вложения реально
отпугивают людей. Для того, чтобы делать какие-то свои проекты. И третий источник –
это наш же Гислаб, у него другой принцип. Мы не занимаемся системным решением
проблем, не занимаемся накоплением данных, не занимаемся как бы.. системным
упорядочиванием данных. Мы этим всем не занимаемся. Чем мы занимаемся – это когда у
кого-то возникает сумасшедший проект, или какая-то необходимость по работе, или
просто там не с той ноги он встал, он берет какой-то набор данных, с ним разбирается,
полностью его описывает, полностью преобразовывает в нужный формат. Поэтому это не
очень системная как бы вещь.
00:55:23
И тут можно найти все, начиная от каких-то карт пожаров, электоральных данных,
растительность, почвы, и заканчивая цифровыми моделями рельефа. Но это не системный
источник. То есть, вы можете найти вдруг что-то вам полезное, а можете ничего не найти.
И это так оно и будет всегда, наверное. Три слайдика мне осталось. Очень кратко –
джентльменский набор, чем обрабатывать геоданные, мне кажется. Вот у меня
спрашивали с самого начала - а как насчет простых инструментов. Мне кажется. Что с
геоданными простые инструменты – они такие ну обманчивые, то есть вы легко можете
решить какую-то одну небольшую задачу, но потом ,как только возникнет, как появится
необходимость или во вкус войдете, то у вас сразу начнут всплывать всякие проблемы.
Легко визуализировать данные по субъектам федерации, а у нормального человека
возникает желание визуализировать то же самое по районам. По муниципальным
районам. И что? Где брать данные?
00:56:29
Поэтому мне кажется, что тут все-таки какие-то более качественные нужно инструменты
использовать, которые позволяют, в которые заложена некая перспектива роста тебя как
специалиста и так далее. Это все- свободные инструменты, они все с открытым исходным
кодом, они все общедоступны. В них море ошибок, не нужно этого бояться. Вам
понадобится полноценный ГИС, пользовательская, я покажу, как она работает. Вам
обязательно нужно подучить Python, это такой язык программирования очень простой.
Тоже покажу чего-то на нем. И, если вы считаете что-то, то, конечно, (нрзб)- это язык и
среда расчетов статистических, но в ней очень-очень много всего, в том числе всяких
разных модулей для работы с геоданными. То есть можно напрямую взять таблицу из
вашего shape-файла, сделать статобработку, сделать гистограммы, посмотреть на них,
вернуться, чего-нибудь отрезать-перерезать, и так далее. Ну и тем, кому разработка
интересна – там всякие базы данных и фронтенды, ну это понятно.
00:57:49
Такой слайд.. немного повисает в воздухе. Что, мне кажется, нужно делать. Нужно
понимать, что работа с геоданными – это не только использование, но и их создание. Вы
просто неизбежно придете к тому, что вам будет недоставать данных. Это закон. Вы
начинаете использовать что-нибудь, и сиюминутно влезаете в проблему, что данных нет.
Поэтому нужно быть готовым не только использовать, но и создавать эти самые
геоданные. Создание геоданных-это очень такая длинная тема, зависит от того, чего
именно вам нужно от задачи и так далее. Если вы делаете карты – то вы рисуете карты,
если вы делаете какие-то вещи, связанные с адресами, то вы проверяете этот адресный
реестр, куда-то это все вносите, куда-то это все создаете.
00:58:46
Если вы создаете данные, используйте открытые лицензии и делитесь. Делитесь, это
очень хорошо, и это помогает ,как сейчас, вся технология-она такая
высокосоциализированная. Вот у меня человек спросил про геоджейсон, я сказал про
гитхаб, сейчас все разработчики, они социализируются на гитхабе. Они все делятся там
своим кодом, своими данными, и это реально работает. То есть вы пишете какой-нибудь
скрипт, самый-самый простой, потом кто-нибудь приходит, начинает с вами общаться.
Или берете свой набор данных, если это не бинарник- тоже выкладываете на гитхаб, и это
как бы само себя поддерживает, и вам помогает как бы чувствовать плечо соседа.
Который вам тоже будет помогать. Просто сделайте это. Это презентация, и сейчас у нас
будет типа мастер-класс, после перерыва, на котором я покажу, как это все работает. И это
все выложено вот здесь, по этой ссылке. Ну презентацию вам кто-нибудь потом отдаст,
наверное. Поэтому необязательно запоминать. И на этом моя презентация закончена.
01:00:08
Вопросы? Микрофон!
- Ваше место во всем этом.
-Мое личное?
-Да, личное.
-Я везде!
-Ну вот чем вы сейчас занимаетесь, как пришли, и куда идете.
- Тогда уточнение - в чем «во всем»? Что вас интересует больше- с точки зрения
открытости, с точки зрения самих данных, с точки зрения технологии, там не знаю..
создания ПО?
-С точки зрения проектов.
-Я делаю проекты.
-Какие?
-очень много, очень разных. Ну я не знаю, о чем вам бы такого сказать. Назовите тему.
-Ну например?
-Тему. Какая вас тема интересует? Щас будет «лингвистика», я скажу- о, пас!
- допустим, мы сейчас слушали о геоданных, и наверное будет интересно, в каких
проектах это уже применялось.
-Ну хорошо. Мы делали проект по полиции – я могу открыть и показать. Мы делали
проект по избирательным участкам, мы делали проект по метро.
01:01:11
Не слышали- такой проект, наш самый любимый, называется «метро для всех».
- А в чем заключается?
- мы обошли все станции метро Москвы и Питера, собрали всю информацию по всем
препятствиям в метро, это турникеты и так далее. Вы знаете, что у нас минимальный
размер коляски инвалидной – 70 см? а у нас есть куча станций, где размер турникета – 50.
стандартный турникет – 50. Сразу же человек там не может проехать. Физически.
Соответственно, нам было интересно, как это будет выглядеть как бы в масштабах всего
московского метрополитена, и нам было интересно сделать как бы схемы по каждой
станции. Вот такой проект. Но он тоже в области геоданных. Чего еще?
-Ну вот допустим препятствия в метро. И как вы узнавали об этих препятствиях?
- Ходили и собирали данные.
- то есть люди живые ходят и ниоткуда не могут получить..
- Роботов таких пока не изобрели, поэтому.. поэтому да, они живые. Таких данных не
существует. Это важно понимать. Государство –меня все спрашивают – государство не
потому не дает этих данных , отчасти – иногда оно зажимает. Но часто не дает, потому что
их просто нету у него.
01:02:26
И многих данных – это особенно касается геоданных. Все устаревает, очень быстро
меняется. У нас область геодезии и картографии – она в таком зачаточном состоянии
находится, если читаете новости – то там ад происходит, и это не помогает поддерживать
все эти наборы данных в актуальном, хорошем, пригодном состоянии. Поэтому
существуют эти проблемы. И поэтому надеяться на то, что вы куда-то придете и получите
готовый набор данных, я бы не стал. Естественно, что все зависит от задач, все зависит от
проектов. Где-то можно прийти на гислаб и скачать готовый набор данных. То есть,
например, проблему административного деления.. вот давайте я отойду немножко назад,
да, в 2009 году появился первый, только в 2009 году, появился набор данных по границам
субъектов федерации.
01:03:19
Российской федерации. До этого открытого набора данных по границам не было. В
принципе. Еще один пример. Москва. Казалось бы – сколько тут миллионов живет?
Попробуйте найти карту Москвы 39-го года. План. Казалось бы – у нас столько
историков. Столько археологов, столько я не знаю кого! Попробуйте найти план Москвы
привязанный, который вы можете наложить на свои данные и, значит, что-то с чем-то
сравнить, посмотреть, где какие были адреса и так далее. Это очень сложно. Реально его
нет в том виде, в котором он ожилается от как бы информационного некоего
пространства. Его нету. Это я опять к тому, что проблема с данными. Следующий вопрос.
01:04:19
-А вот в каждом региональном центре есть служба земельного кадастра. Я знаю даже,
если индивидуальный предприниматель хочет поставить какой-нибудь ларек, или там
какая-нибудь сделка купли-продажи недвижимости, это все должно с их помощью, то есть
они там делают привязку всех этих объектов. Вот эти данные, они как-то…
-Хороший вопрос. Наша продолжающаяся еще одна.. как назвать.. противостояние..
Это не противостояние. Противостояние- это когда один стоит против другого. А когда
один стоит против другого, а тот как бы ходит вот кругами, это не совсем противостояние.
Есть такая штука- публичная кадастровая карта. Вы можете там посмотреть каждый
кадастровый участок. И посмотреть про него некую полезную информацию.
- Эта карта, она где-то в интернете?
-Да. Maps.rosreestr.ru. Публичная кадастровая карта это называется. Не важно. Это
громадный шаг в области информатизации кадастра, именно кадастра.
01:05:20
В нее поступает, там сложная система, я вот боюсь соврать – у нас десятки миллионов
кадастровых участков по всей стране. Это настолько большая тема, что вот только начать
и закончить мне рассказывать. Публичная кадастровая карта, в соглашении об
использовании сказано, что вы не можете использовать эти данные для коммерческих
целей без письменного разрешения. Письменное разрешение получить невозможно. Это
первое. Второе- непонятно, насколько это вообще легитимное требование, потому что это
государственная информационная система, и кадастровые выписки. И у нас была целая
эпопея с привлечением юристов, написания, выступления в общественном совете
росреестра, привлечение профессиональной общественности и так далее для того, чтобы
попытаться.. ну сейчас же у нас открытость, все вперед!
01:06:14
Почему бы не открыть кадастр? Открыть по-настоящему, я имею в виду. Чтобы мы могли
пакетно получать информацию, что-то с ней делать и так далее. Короче говоря, по сути
ситуация такая. Ничего не изменилось, пока ничего не произошло, кроме того, что зам
главы росреестра, который всем этим занимался, бежал за границу. Совсем недавно.
- Хороший знак!
-Я не знаю, хороший ли это знак или нет. С одной стороны, что это может означать для
нас? Я не уверен. Может быть, нам тоже придется бежать. А может быть наоборот. Все
поняли, что.. короче, росреестр – это классная штука. Я имею в виду вот эту
информационную систему. Это классная штука, это действительно движение в сторону
такой информатизации, легкого доступа. Принцип Парето знаете, да? 20% потребности
определяют 80% набора. 20% возможностей определяют 80% потребностей. У нас народу
надо выписки смотреть. Ему не надо делать сложные визуализации связи кадастровой
стоимости участка и строительства метро, для того чтобы понять, где лучше потом землей
торговать, да? Я имею в виду вот тем 80% не надо.
01:07:21
Но, короче говоря, эти 80% он удовлетворяет. Но он не стимулирует развитие технологии,
развитие бизнеса, развитие каких-то сложных вещей, связанных с.. которые он мог бы
стимулировать. И мы пытались сделать так, чтобы они об этом хотя бы задумались. Это
много лета эта тема продолжается. Уехал человек. Это человек, который за всем этим
стоял. Главный технолог как бы Росреестра.
-Вот Максим, еще такой вопрос. Как обстоят- вкратце только – дела с
высококачественными геоданными в мире и в России. Встречал ли ты в своей практике
вот отличнейшие наборы качественных геоданных представленных открытых. Такое
бывает? Или все приходится чистить, перерабатывать?
- Ну это сложный вопрос. Важно вот что понимать: мы недалеко на самом деле от мира в
данном случае убежали.
01:08:22
И такая принципиально другая позиция по отношению к открытости геоданных, она
встречается довольно в небольшом количестве стран. Та же самая Великобритания,
(нрзб), это такое наше Роскартография, Росреестр, они раскрыли свои данные только
после того, как пришел Тим Бернерс Ли и поговорил – кто там был, Джонсон или кто-то, с
премьер-министром. Как его звали- все время забываю. Поговорил с ним по душам, и тот
сказал – лално, все, открываем. И это случилось буквально пару лет назад. 2010 или 2011
год. То есть реально такая же ситуация у них существовала. Что касается качества данных
– это очень такой сложный вопрос. Потому что данные все время меняются. Конечно,
статичные наборы данных –мы можем найти хорошие примеры и у нас в стране, и
зарубежом, почем нет? Везде есть профессионалы, везде есть люди, которые понимают,
как данные собирать.
01:09:20
Что касается открытых данных, то понятно, что нам сложно с чем-нибудь сравнивать,
потому что у нас нету данных открытых. Не с чем сравниваться. Ну что, разве Москву с
Нью-Йорком сравнить? Ну вот. Можно ,в принципе. Не знаю. То, что касается тематики –
это такой вопрос тоже на долгое-долгое обсуждение. Потому что каждая тема- она своя, и
что считать качеством.. сложно. Не ответил, да? Смотрите, когда перерыв..
-Да, давайте прервемся ненадолго.
(пауза)
01:28:13
(на экране все еще заставка)
-Пока собираются, может, про форматы?
(пауза)
01:28:33
- С шейп-файлами там так: есть, как я говорил, геометрия и атрибутика. Геометрия
пишется в один файл, атрибутика пишется в другой файл, а между ними есть еще индекс,
который связывает геометрию и атрибутику. Это минимально необходимый набор. Три
файла всегда.
- А формат какой?
-Эс-ри-шейп называется. Дальше к нему добавляются всякие дополнительные файлы. Вот
то, что называется метаданными. Вот описание проекции, да, там есть специальный
формат для нее, это файл .prj, он также называется, но другое расширение. Может
добавляться еще файл символики, например. Разные ГИСы, они по-разному символику
хранят. Символика, она всегда отдельно от этого. В отличие от САПР, где символика
всегда пишется в файл, в ГИС символика отдельно..
- Символика- это справочная?
-Нет. Символика – это то, как.. толстая зеленая линия. Это символика. Как линия
отрисовывается. Специфика того, как показываются данные. То есть сама структура
представления данных векторная, она есть.
-А что касается распространенных форматов, вот csv, там все в одном файле получается
описывается все это?
-Нет, там свои.
-Тогда эсришейп, там своя структура ,видимо, они стандарт свой сделали и.. по нему все
эти данные и выкладывают. Тремя файлами и плюс метаинформации.
-Обсудим. Хорошо. В смысле, чуть попозже. Этот компьютер я закрываю. Он не нужен? У
нас осталось 35 минут.
(появилось видео)
01:30:20
У нас такой пример. 29 октября у нас день.. мемориал проводит акцию, «вспоминаем
имена», называется. И соответственно пример, который я придумал – он связан с этой
штукой. Давайте я покажу, как.. последовательность некую действий для того, чтобы нам
сделать карту окрестности вот того места, где мы сейчас сидим. Ой, а мне кстати вай-фай
еще нужен. Можно вайфай? А какая сетка? Инфокульт. Вот. Да, мы сделаем карту того,
как выглядит… где вот в нашей области были расстрельные дома. То есть дома, где
расстреливали людей. В 37 году. Соответственно это все будет делаться на открытых
данных. Но прежде, чем перейти к собственно данным, давайте я вам покажу, где брать
эту карту-основу. Один из способов ее взять- это с опенстритмэпа, у нас есть
специальный сервис на гислабе, который ежедневно экстрагирует информацию с
опенстритмэпа, преобразует ее в такой вот более удобочитаемый формат. Это делается по
всем странам бывшего СССР, и это делается по всем субъектам федерации отдельно. То
есть можно скачать целиком страну, можно скачать один из субъектов.
01:32:12
Соответственно я сейчас качать не буду, чтобы побыстрее. Я просто беру и скачиваю
Москву. После этого вы делаете то, что делает любой гис=специалист – вы запускаете
свое пользовательское приложение, я вам рекомендую попробовать, вот если хотите
попробовать начать, да, это называется qgis. Раньше она называлась Quantum GIS, сейчас
сократили, просто qgis, и проект данных опенстритмэп, который я скачал, будем думать,
что я его скачал, он выглядит следующим образом. Ну это просто я немножечко покажу
данные, как они выглядят.
Это слои-слои –слои, это новая Москва, в новых границах. И у нас тут куча всего разных
данных. Естественно, все слои, они каким-то образом визуализируются, и мы можем.. а я
все слои раскрыл, ну молодец.
01:33:20
И мы можем нажать на любой слой, сказать «открыть таблицу атрибутов», и посмотреть,
что у нас про каждый объект в этом слое, какая информация существует, да? Очень
удобно, очень много данных. Москва настолько велика, что с ней довольно сложно на
самом деле работать целиком со всеми этими наборами, поэтому обычно какой-то кусочек
вырезается, но я сейчас этим заниматься не буду. Короче говоря, если я возьму и увеличу
какой-нибудь кусок, то у нас здесь будет все больше и больше информации, ну вот где-то
примерно там, где мы сидим, вот это вот ФСБ… короче, вот этот квартал, где мы сейчас
сидим. И вот несколько кварталов, где мы находимся с вами. И здесь у нас есть то, что
нужно для нашего проекта. Мы будем расстрельные дома визуализировать, поэтому
какая-то информация по домам у нас есть. Для того, чтобы точно убедиться, что это то,
что нам надо, мы возьмем слой, который называется «здание», и мы можем его выделить
и взять инструмент «идентификация» называется, и щелкнуть любое здание, посмотреть,
что про него написано. Вот тут (нрзб) ввел адрес. Ввел только что оно из себя
представляет.
01:34:52
А если взять здание.. вот это, ну вот тоже лентяи. А здесь ввел, да? Дом номер два, улица
такая-то. Даже ввел количество этажей, ну и вот этот вот самый признак, о котором линия
замкнутая является полигоном, что это объект типа «билдинг». Это пока можем закрыть и
перейдем ко второй части, это собственно основа у нас есть. Теперь какие данные
тематические будем использовать. А чего мы на карте-то будем показывать. Это проект
«мемориала», расстрелы в Москве. Пожалуйста, можно на любую улицу щелкнуть и
посмотреть, кто и что и как, в какой квартире. Окей. Набор хороший, но это не геоданные,
да?
01:35:39
Поэтому мы пишем небольшой скрипт на Питоне, это очень-очень просто, сейчас писать
не будем. Помещается реально на один экран. То есть скрипт делает очень простую вещь.
Он делает новый файл, в нем будет записываться адрес и количесто человек в этом доме
расстрелянных, создает файл .csv и потом скачивает страницы. Я знаю, что на сайте
«Мемориала» 78 страниц. Если щелкать по страницам, то вы увидите, вот так не видно, но
если вот так сделать, то видно, что это шот-5. вот таких у них 78, поэтому он будет 78
страниц скачивать и их складывает определенным образом в таблицу. Работает это так.
(набирает на экране текст)
01:37:07
Он складывает все данные в определенную папку, и эту папку я ему не создал, поэтому он
ругается. Надо было создать заранее. Папка называется Grabber- от английского Grabсхватить и утащить. То называется Pages. Сейчас все сделает. Но это неважно, это я вам
просто показываю, что все очень быстро происходит. У нас создается файл вот такого
вида. Ждать не будем. Файл, табличка.. тоже ее даже открывать не будем. Это адрес и
количество людей. Это все экстрагируется в таблицу, ничего нового. Никаких расчетов,
подсчетов и так далее. Дальше самое, одно из самых интересных.. а есть мышка? Мы
делаем то, что называется «геокодированием». Геокодирование с помощью специального
инструмента, да? Сначала у нас .csv наша табличка, мы ее конвертируем в шейп, это такой
необязательный шаг, но тем не менее надо его сделать. Сделал маленький файлик,
специально для этого дела. Есть, да? Можно?...
01:38:54
Геокодирование. Мы указываем название файла, говорим, что в поле «адрес» у нас
содержится собственно информация об адресе, говорим, что это Москва регион, и
говорим, что.. можно разные геокодеры использовать, ну вот мне нравится (нрзб). Я
говорю «пуск», и он работает.. Надо отправить запросы. Ну фактически он делает поиск.
По каждому адресу он делает запрос, возвращает в джейсон тот самый, его раскладывает в
виде координаты и атрибуты, и из простой таблички уже делает таблицу с геоданными.
Вот у нас эти точки, да? Соответственно для того, чтобы посмотреть, как это все
выглядит, мы загрузим новый проект…
01:39:55
Возьмем наш проект, который мы уже в качестве такой подложки будем использовать. Он
немножко другой. Я все по-другому сделал, чтобы были менее контрастные дома, и чтобы
наша информация, она не мешалась. И сюда добавим этот наш только что сделанный
файлик. Да. Вот это очень хорошо иллюстрирует, что геокодер – штука не идеальная. Он
очень часто ошибается с адресами, а часто информации, которая вам нужна, просто может
не быть в карт-основе. И вот поэтому мы все время и страдаем с данными, что этот
процесс нужно потом каждую точку все равно проходить и смотреть, правильно она
попала или неправильно. Сейчас мы этим ,естественно, заниматься не будем. Такая
ручная уже правка, доводка геокодирования. Поэтому я загружу сразу набор данных,
которые я предварительно подчистил. Да? Вот наши точки, адреса. Все адреса
геокодированные. Опять ж мы можем посмотреть табличку, и вы увидите, что там у нас –
адрес, и количество людей, да?
01:41:21
Для каждой точки уже можно рассчитать координаты сами, они тут рассчитаны, но тут
стандартная тоже операция для ГИС. Вот. Чего дальше будем делать с точками? Хотим
здания. Выберем точками здание. У нас есть слой зданий, и в некоторые из этих зданий
попадают точки. Сами точки нам были нужны только для того, чтобы мы могли создать
объект, и выборку сделать следующую. Пространственно. У нас каждая точка попадает в
здание. Делается это так. В qgis это называется “объединение атрибутов по районам»
Целевой векторный слой у нас «здания», и объединяем мы это со слоем, который так и
называется- adr nnum people. И сохраняем только совпадающие записи. Вот он выбираетвыбирает, домов много, точек тоже там прилично, поэтому немножко думает. Вот создал
файл, говорить «добавить?» - добавь. Дома он создал. Вот мы уже можем.. точки нам
больше не нужны, можем отключить. Не все кстати попадали дома, не важно. Дома он
создал. Что дальше? Дальше у нас есть такой интересный параметр, как количество
людей, расстрелянных в каждом доме.
01:42:59
Поэтому покрасим. Красится следующим образом. У каждого слоя есть куча всяких
настроек, в частности, то, что называется «стиль», и в стиле есть разные типы легенд. То
есть обычный знак, то, что называется, это когда все объекты одним знаком
показываются. Нам нужно то, что называется «градуированные значения». Градуировка,
или классификация по определенному полю, нужно знать, какое вам нужно поле. Вот он
сейчас предлагает вот эти 4, я так на взгляд вижу, что того поля, которое нам нужно, там
просто нету. Его нету. Почему- надо зайти в таблицу. Можно тоже зайти в «свойства», и
сказать поля, и увидеть, что вот это поле num, ну я знаю, что оно называется num, оно
типа «string», оно нам не подходит, потому что у нас градуировка, она по количеству.
Сейчас быстренько с вами пересчитаем что надо. Откроем таблицу атрибутов, она уже
побольше, прибавилась при предыдушем редактировании.
01:44:10
Добавим поле, назовем его Инт, побольше размера, а, пардон.. Есть проще способ. Он
просто создаст новое поле сразу сам. Инт, здесь напишем выражение некое. Что
преобразование у нас в Инт, в целочисленное, и поле, которое называется Нум. А
сохранить это все в поле, которое называется Нум_Инт.
01:45:10
Ну теперь удалил. Почему не удалил? Удалил. Еще разок. Вот он
рассчитал.соответственно, у нас появились те же цифры, только из строк,
сконвертированных в целочисленные значения, которые мы можем уже для легенды и
построения использовать, сохранить. Визуально у нас ничего не изменилось, потому что
стиль мы пока не поменяли. А дальше у нас появится полином… не уникальное, а
градуированное значение. Точно, да, нум-инт, вот поэтому он там показывал все поля,
потому что как раз уникальным значениям, им все равно, какое значение. Можно
побольше сделать классов, на какое количество их разбивать. Изменить легенду, потемнее
сделать те дома, где больше людей погибло. Вот у меня здесь еще более-менее, а там…
окей. Собственно, если интересует по конкретному зданию какая информация, мы
естественно можем их все подписать.
01:47:00
Вот это? Большой Златоустьевский переулок, 26 человек. В одном здании. На самом деле
это очень как бы такой быстрый подход. А здания сносились, менялись адреса и так далее.
Но вот это простой пример именно создания географических данных. Мы только что
создали с вами новый набор данных. То есть если раньше у «Мемориала» была просто
таблица , то сейчас это некий географический набор данных, и они могут, вы можете слой
этот передать обратно, они могут наложить на свои карты, может быть эти им не нравятся,
ну и вобщем произошло некое создание нового знания.
01:47:51
Значит, по поводу.. время? У нас 10 минут, давайте я попробую показать вам за 10 минут,
как привязать старую карту к новым данным и как это все выложить в интернет. Как уже
упомянул, у нас много чего поменялось, название улиц и так далее. И нам бы хотелось
подложить вот эту старую карту, про которую я говорил, что ее очень сложно найти. И это
делается довольно просто следующим образом. Управление модулями, модуль называется
«привязка растров». Растр наш выглядит вот так. Домов , к сожалению, нет, но есть
старые названия улиц. Это карта 39 –го года. То есть близко с теми данными, с которыми
мы сейчас имеем дело. Наша задача- опять же из негеографического набора данных
сделать географический, и .если мы все сделаем правильно, он у нас ляжет, куда нужно, и
мы сможем его совместно использовать с другими данными. И делается это так.
01:49:22
Привязка растров, у привязчика свое окно, туда надо загрузить наш фрагмент. Дальше,
если бы у нас был растр в известной системе координат, то нам не нужно было бы эту
операцию делать. Мы бы просто сказали «переведи из этой системы координат» -и все,
ожидать, что все совпадет. Так у нас растр в этой локальной системе координат, просто
пиксельная сетка. Нам нужно набрать несколько точек, минимум три, по-моему, которая
будет указывать – эта точка находится здесь, эта здесь, эта здесь. Ну такая стандартная
задача привязки. И делается это следующим образом. Придется найти несколько
пересечений, характерных таких пересечений. Ну вот это Тверская и бульвар, да? Сейчас
мы быстренько.. вот у нас Тверская, Тверской бульвар. Точки ставятся.. так. От того, что
мы привязываем, к тому, куда мы привязываем. Первая точка, вторую допустим..
Маросейка-Покровка, вот она где-то здесь должна быть. Вот она.
01:51:21
Раз.. две точки. И третья – давайте прямо в Кремль ее вставим. Вот такое есть треугольное
здание характерное, и вот тут оно находится. Вот здесь. Три точки. Потом нам надо
сделать тут немножечко такую вещь, котора называется «параметры трансформации», то,
что я говорил про полиномы, если кто знает, что это такое. Это не так важно в данном
случае. Вот мы создаем новый файл, он будет называться наш фрагмент – модифайд.
Говорим «сохранить», интересно что получится. Да, это будет делать Геотифф. Привязку.
Вот она сделалась. Не очень. Все получилось. Карта привязалась, мы можем теперь
включать-выключать наши слои, по крайней мере, можем теперь посмотреть, как названия
изменились-не изменились. Вот Пушкинская улица там называлась Софийка, а большая
Дмитровка так и осталась. Если бы у нас была какая-то боле подробная информация,
хотелось бы подложить, но это осталось просто в качестве иллюстрации.
01:53:09
Вам такой пример. 10 минут ровно. Хорошо. Тогда последнее, что я вам хочу показать
быстренько – это мы создали с вами данные, теперь хотим его как-нибудь
визуализировать в Интернете. Для этого существует такая довольно распространенная
сейчас новая программа, делает компания (нрзб), называется (нрзб). Позволяет взять
набор данных и создать с ним новую карту, которую потом выгрузить в интернет, и она
там появится примерно в таком же виде. Делается это следующим образом. Назовем
новый проект, добавить, сюда. Новый слой, добавить слой. И идем прямо туда, где мы
наши данные сохранили. Мы их сохранили- скул, пректис.. печаль… Щас найдем.
01:54:45
Вот он его нашел. Такой инструмент, довольно забавный. Вот эти наши дома. На самом
деле мы с подложкой ничего делать не будем, слой границ удалим. Сделаем мы вот что. В
Таумил вся настройка визуализации осуществляется с помощью специального языка,
который называется «Карта ЦСС». Если кто-то веб занимается, знает .что такое ЦСС. Есть
такая штука для карт, называется «карты цсс». Утомлять вас тем, как это должно быть, я
не буду, поэтому я просто скопирую у меня здесь заготовочку и вставлю это сюда.
Довольно все просто. Я закомментировал цвет фона, чтобы карта была прозрачна. Слой
наложился на другие данные. И дальше у меня стандартный цвет зданий оранжевый, но
он модифицируется в зависимости от того, какие значения принимает поле «нум_инт».
Если от 0 до 3, он становится темнее, а нет – он таким и остается. Если там от 3 до 6, то
он становится темнее на 10 единиц и т.д. и добавим немножко интерактивности.
00:56:11
Интерактивность делается так. Здесь это почему-то называется Тизер, и мы можем из
набора полей выбрать наш Нуминт и сказать… я хотел взять этот код для поля, сюда в
ставить и сказать «сейв». После этого можно закрыть ,если мы…чего я ошибся где-то?..
(ищет ошибку и комментирует)
01:57:48
Еще разок.
- Полигон опасити=1 – это разве не полная прозрачность?
-Щас, секунду. А, все понял. (комментирует и переживает).
(пытается сделать по-другому)
Давайте просто зелененьким выделим.
01:59:36
Вот видите, да, появился тизер, значит то, что мы наводим на полигон, появляется. Затем
нужно экспортировать это в некий специальный формат, который назыается «мб-тайлс»,
это количество уровней, тайлов, 13. Центр карты, имя, экспорт. У меня сохранился
предыдущий, лучше на нем покажу. Некогда сейчас разбираться. Дальше вы просто
загружаете это в интернет. На бокском создается аккаунт, создается новая карта, и снова
найдем нашу родную Москву, вот примерно наш кусок, да? Можно поменять ее какнибудь более серьезно. Добавляем наш слой. Сохраняем. Работает? И делаем паблиш.
02:01:46
Ну там самый простой способ – это взять эту ссылку и посмотреть ее отдельно, чтобы
кому-то передать, можно было имитировать.. можно было тоже кстати настроить. Не
успеваю. Может, не нажал паблиш? Ну вот наша карта с некими результатами, с некой
подсказкой и так далее. В интернете. У нас три минуты. Вопросы? Ну вот процесс
примерно такой.
- Когда расскажешь о том, где это фактически применяется?
- Ну это уже был вопрос про проекты. Мне кажется.. я не хотел бы рассказывать, потому
что мне кажется, что вы должны исходить из своих личных потребностей. Если у вас есть
какая-то потребность, то ее нужно выразить и разобрать, в смысле ,как это делается. А
мне рассказывать вам, как это применяется, всегда очень скучно, потому что вы.. ну у вас
другие проекты, другие вещи вас интересуют. Поэтому мне кажется, давайте, что у вас
болит, а не у меня.
02:03:09
Я не евангелист гис, я не хочу заставить никого использовать ГИС. Ну не заставляю я
людей.. точнее когда-то этим занимался, потом бросил. Вот. Поэтому, если у вас есть
какая-то необходимость, вы мне скажите, попытаюсь ответить.
- Насколько сейчас опен стрит мепс полно описывают хотя бы российские города?
- Бесполезно отвечать. А насколько гуглмепс описывает?
-Ну скажем так, базовые слои – улицы, дома..
-Да, но очень по-разному, где-то хуже, где-то лучше. От квартала, от улицы зависит. Гдето есть активный народ и где нет активных людей. Сложный вопрос. Без ответа просто.
02:04:09
-Скажите, какие технологии вы бы порекомендовали для следующей задачи. Например,
есть компания, у которой множество офисов, складов. И есть информация о том, на каком
стеллаже лежит какой товар. И мы хотим сделать вот такую же интерактивную карту для
отображения вот.. для визуального представления этой информации.
-Вы хотите иметь это все в ГИС? Может быть часть, которая касается складов, оставить на
всякое складское программное обеспечение? Там явно свое какое-нибудь есть.
-Ну там должен быть веб-интерфейс..
-Карта складов- это просто. Это то же самое, что я показал сейчас, да? Делаете точки,
набор данных по расположению ваших складов, засовывает, с помощью кугиса..
-Ну это склады на карте города. А я имею в виду внутри складов, помещений.
-тот же самый подход, только вам не нужно работать в географическом пространстве,
потому что как один склад относится к другому складу ,никого не интересует.
02:05:08
Здесь важная информация внутри. Но подход тот же самый. Просто у вас система
координат своя, локальная.
-Ну вот формат данных например какой использовать? Прямо из базы?
-Можно прямо из базы брать, можно делать вот внешними файлами типа этого.. Там весь
вопрос- в веб же вы потом захотите это все, визуализировать. С вебом всегда сложности.
Там простой пример, но с вебом всегда сложности. Браузер – плохая, гис он слабенький,
1000 объектов уже не показываются, начинает все тормозить, это надо все кластеризовать.
На сервере отрисовывать ,а не на клиенте, и там множесто разных нюансов. Но это вполне
возможно.
-А вот этот мсс воспринимается? Есть какой-нибудь опен соурсный ява-скриптовый
компонент, который бы позволял вот джейсон получал на вход, или мсс тот же, и
позволял рисовать эти карты?
02:06:02
- Мапник, есть такая программа, она занимается рендерингом карт. И собственно
разработчики и (нрзб), это все тоже разработчики мапника. Мапник – это рендеринг карт.
Mapnick. Кстати, наш соотечественник, который в Лондоне живет, разработал. Ну первую
такую версию. Он берет именно так – он берет на входе какие-то данные, какой-то стиль
описания символики и рендерит это в виде растровой подложки, которую можно потом
показывать в интернете большому количеству пользователей.
- Лифлет, который также разработал один из наших товарищей.
- Я не знаю, насчет лифлета и карты ЦСС, понимают ли они его.. Все ,все по домам? Ну
стало понятней?
Download