Тексты лекций, часть 1 - Школа открытых данных

advertisement
ШОД-01
00:00:14
- Так, что мы здесь интересное наблюдаем. Ладно, давайте действительно
начнем. Все равно опен рефайн у нас будет после небольшого перерыва. Все,
да, можно начинать?
00:00:50
Итак, здравствуйте, уважаемые коллеги. Сегодняшнее занятие у нас будет
посвящено цифровой обработке данных для построения истории в контексте
датажурналистики, или журналистики данных. И я хотелось бы.. прежде, чем
начать свою основную лекцию, вернуться опять же –таки к определению
журналистики данных., которые дают известные деятели в этой области.
Напомню, что в принципе журналистика данных – это у нас некий общий
термин, обозначающий некую междисциплинарную область знаний, которая
охватывает набор инструментов и техник, методов работы с данными, и
также конструирование истории на основе работы с этими данными. И
построения различных сюжетных линий.
00:01:43
Из этого определения следует, что для журналистики данных очень важно
именно умение грамотно искать и обрабатывать данные. И вот этому
процессу и будет посвящено сегодняшнее занятие. То есть фактически
журналистика данных – это область некая сугубо практическая, которая
нацелена на предоставление данных в интересах общества. И эти вот
общественные интересы несут определенную социальную нагрузку. То есть,
данные должны быть достоверными. Они должны быть открытыми и
перепроверяемые. То есть основная цель работы именно с открытыми
данными в контексте журналистики данных – это именно повторяемость
эксперимента, перепроверяемость. То есть должны быть обязательно
открытые данные, и открытые инструменты работы с данными.
00:02:44
Обратимся к мировым образцам. Очень известное направление, точнее.. у
Гардиан, грубо говоря, есть некий отдельный эшелон по работе с данными,
который даже имеет некое подназвание «Фэктс оф сейкред», то есть факты
священны. Это именно название ориентировано на то, что журналист данных
должен уметь работать с данными, грамотно преподносить их публике и
сами факты нельзя искажать. Их нужно грамотно уметь интерпретировать и
они сами по себе священны. То есть получается, что если журнались данных
по мановению волшебной палочки генерирует некую волшебную картинку, в
виде инфографики, не объясняя при этом, откуда данные взялись, откуда
источник данных, каким образом эта инфографика была получена, каким
образом была получена интерактивная визуализация, то фактически мы
находимся в состоянии так называемых потемкинских деревень.
00:03:51
Когда мы видим очень красивый фасад, но не знаем, что за этим фасадом
скрывается. И одно из важных направлений, которому и посвящена работа с
данными, это именно работа и обработка данных и так называемый дейта
анализис, то есть анализ данных. То есть это уже целая область, которая тоже
задействована в журналистике данных. Еще раз – возвращаясь к предыдущем
слайду, когда я говорила о том, что журналистика данных – это зонтичный
термин. Это междисциплинарная область, объединяющая несколько
областей.
00:04:38
Прежде всего это, конечно же, анализ данных, о котором сегодня и будет
идти речь, и также это и дизайн, и некий возможный матаппарат, то есть
статистические методы по работе с данными. Можно посмотреть , как
работают с данными в Гардиан. Есть целый подраздел на сайте Гардиан,
дейта-блог так называемый, в котором выложены открытые данные. То есть
любой может пройти туда, скачать и посмотреть вообще, что с этими
данными можно делать. Вот здесь вот есть ссылка, по которой вы это можете
проделать. Помимо Гардиан, есть также и у других агентств такие же
разделы. Нью-Йорк-Таймз отличился в этом смысле, потому что у Нью-Йорк
Таймс есть замечательный раздел со связанными открытыми данными.
00:05:21
Мало у кого из агентств крупных есть такой раздел, и мало кто может себе
позволить такой раздел. Потому что связанные открытые данные – это еще
другая, отдельная область работы с данными и требует также аналитических
определенных работ экспертных. И, грубо говоря, вот так вот ,человек,
обладая минимальными навыками и компетенциями по работе с данными,
прийти именно по работе, и начать работу со связанными открытыми
данными вряд ли сможет. То есть, для того, чтобы начать с ними работать,
нужно многое узнать именно в этой области. Эта область ориентирована
прежде всего на аналитики при помощи программного обеспечения. То есть
,если, например, с данными, которые выложены у Гардиана, можно работать
и непосредственно вручную, что называется, то есть человек-аналитик может
скачивать наборы данных в различном инструментарии, как-то Эксель или
собственно Гугл Фьюжн Тейбл, сводная таблица гугла, или же другие,
00:06:32
То, значит, уже когда речь идет про связанные открытые данные, порог
вхождения несколько выше. Итак, у нас получается следующая картина: у
нас возможна ситуация, когда в рамках дата-журналистики возможно
применение как раз методов анализа данных, тот самый дейта анализис, о
котором я уже упоминала, это очень мощный аппарат, позволяющий
работать в различных областях там, где требуется обработка данных. То есть,
это не только журналистика данных, это может быть бизнес-анализ. И так
далее. И второй вариант – я его обозначила как вариант так называемый
работы вручную, ну это когда человек непосредственно ищет данные в
Интернете и при помощи достаточно простого инструментария.
Популярного. Извините за такой жаргон, популярного инструментария
осуществляет собственно простейшие манипуляции с данными.
00:07:37
Тут надо понимать, что второй вариант менее трудозатратен, чем первый, и
он не требует таких больших познаний в данных, в природе данных и при
работе с данными, но при этом плод, результат работы именно по второму
варианту, он и менее ценен как конечный продукт. То есть, поясню на
примере, что я имею в виду. То есть, грубо говоря, у вас есть допустим некий
набор открытых данных, которые вы нашли в интернете уже при помощи
предыдущего моего мастер-класса, например. С одной стороны, да. И вы их
обработали и представили. Но какую ценность ваш этот продукт несет? Кому
вы можете, как вы можете его капитализировать? Как вы можете его
представить? С одной стороны – да, это удобный инструментарий для
иллюстрации различных тенденций, например. Это, может быть, само по
себе бесплатный продукт, условно бесплатный, свободно распространяемый.
Но насколько он будет важен в журналистике, насколько он будет
проырывным как новость, насколько он будет критичен. Насколько мы
знаем, журналистам же интересен эксклюзивный материал.
00:08:54
Эксклюзивный материал достать очень сложно. И здесь действуют те же
законы, то есть эксклюзивные данные достать очень сложно. Эксклюзивно
обработать при помощи специальных методов и получить громкий продукт,
который позволит прогреметь издательству или агентству новостному, в
общем-то, это достаточно сложный процесс. Это как раз дейта-анализ. Но
тем не менее возможен вот и более простой вариант обработки данных
вручную. Прежде всего нужно определить цель анализа. На этом слайде я как
раз хотела показать, да, вот сумбур, море информации, условно, что можно
данные представлять различным совершенно образом. Но необходимо
понимать, что основная цель – это грамотное принятие решения на основе
данных. То есть это либо человек принимает решение, если мы говорим про
бизнес-анализ, или про данные в рамках каких-нибудь корпораций, то это
решение на уровне корпораций.
00:10:02
Если мы говорим про открытые данные и про дата-журналистику, то здесь
имеется в виду пользователь, обычный рядовой пользователь, который, глядя
на продукт анализа, может принять решение о ценности новости. Вот здесь в
эти слова включен и этот смысл также. И сразу должна озвучит, оконтурить
такую мысль, что, так как журналистика данных является
междисциплинарной областью, соответственно терминология здесь весьма
разнообразна. То есть терминология взята из тех областей, чьи методы и чьи
знания журналистика использует, с одной стороны.
00:10:45
Но тут надо понимать, что те же краеугольные термины, как информация,
они семантически, то есть имеют смысловое значение, разное в разных
областях. И в силу того, что журналистика данных – это достаточно молодая
дисциплина, устоявшейся терминологии еще нет, соответственно, возможно
и в моей речи и в заметках аналитических и новостных по журналистике
данных разночтение в этих терминах. Это тоже нужно понимать и иметь в
виду. Можно ,конечно, относиться здесь к этому и со снисхождением, но
рано или поздно эта бомба замедленного действия даст о себе знать.
00:11:23
Я имею в виду, например, трактовку даже вот такого термина, как
информация, разную. В журналистике и в информационных технологиях это
совершенно разные вещи. И ,если мы не определимся с какими-то вещами
очень концептуальными и важными, мы рискнем ну не то что не научно,
оперировать ненаучными методами, но мы рискнем.. Высок риск
возникновения ошибок. Ошибочной трактовки терминологии. Поэтому я
думаю ,что вопросов, которые у нас с вами возникнут, их пугаться не надо..
но надо понимать, что обязательно должен быть некий контекст
терминологический. То есть в каком контексте мы именно говорим про
какой термин.
00:12:08
Итак, какие могут быть помехи и неприятности при анализе данных.
Слишком много информации тоже вредно. Можно в ней просто погрязнуть,
можно за деревьями не увидеть леса, что называется. И это, в общем-то, с
моей точки зрения, конечно же, много информации – не мало, с одной
стороны, потому что, когда информации нет совсем, тогда анализ
невозможен, очевидно. Поэтому излишки информации – это менее страшная
ситуация и помеха, нежели случай, когда информации недостаточно.
00:12:44
Следующий вариант – это когда слишком много переменных и в них можно
запутаться. Сейчас уже речь идет про конкретику, да? То есть, я уже вот так
вот с места в карьер погружаюсь, перешла уже к работе с данными, да? И,
когда я говорю ,что слишком много переменных, измеренных различными
способами, возможно именно ошибки, возникающие при различных методах
поступления данных. Ну и неправильно измеренная переменная говорит сама
за себя, здесь понятно, что неправильные измерения,
поступающие при анализе, ведут к неправильному анализу.
изначально
00:13:23
Итак, требуется привести данные к единому виду, унифицировать,
обязательно найти всю недостающую информацию по возможности. Об этом
тоже поговорим. Необходимо выявить зависимость. Это очень сложный
процесс, если не говорить о совсем простых тривиальных вещах. Потому что
зависимости, к сожалению, даже если и выявляются, иногда бывают
ложными. Иногда человек склонен видеть то, что ему хочется видеть, а не то,
что есть на самом деле. Это та самая одна из ошибок, которые, в общем-то,
стараются при научных методологиях избегать.
00:14:03
Как раз видение того, что хочется ученому, вот когда мы говорим о науке о
данных, дейта сайнс. То есть, есть понятие ученого, дата ученого, и
соответственно здесь тоже нужно понимать, что это фактически уже
оперирование такое научное данными и, собственно, грамотное выявление
зависимости- это одна из очень важных вещей построения анализа на основе
данных. И следующее- это конструирование цифровой истории. Поанглийски это звучит как digital storytelling, перевести можно как «цифровая
история», это, в общем-то, достаточно устоявшийся термин, с одной
стороны. А с другой стороны, наверное все-таки «история» грамотнее
переводить как “рассказ», хотя, в общем-то, насколько я понимаю ,в
источниках начинает складываться терминология, связанная именно с
«цифровой историей».
00:15:01
Давайте посмотрим, из каких этапов состоит анализ данных. Здесь в данном
случае я поступила достаточно простым, тривиальным образом. Я в своем
представлении этапов анализа данных ориентировалась на курс,
замечательный курс по анализу данных на «Курсере», здесь есть ссылка ,вы
можете сходить, скачать и посмотреть этот замечательный курс. И в
принципе анализ данных как курс ориентирован на более глубокое
погружение в работу с данными. То есть, может быть, это не совсем простая
и тривиальная задача. Но может быть вначале, как неофиты, как новички в
журналистике данных, нам не и не требуется громоздкого инструментария по
анализу данных.
00:15:49
С одной стороны. Но с другой стороны, всегда нужно представлять, что
стоит за тем или иным явлением. Когда мы говорим про работу с данными,
да, мы можем поверхностно изучать данные. Но какое качество этой работы
с данными в результате будет? Это даст нам некое общее представление о
процессах, но у нас слишком высока вероятность ошибки в наших
изысканиях. И это, собственно, одна из причин, для чего нужна эта
открытость. Чтобы мы могли перепроверять наш анализ, возвращаться к
нему позже и корректировать, обязательно корректировать.
00:16:25
Потому что никто не застрахован от ошибок. И бояться ошибок не надо,
потому что у того нет ошибок, кто ничего не делает. Итак, вернемся к этапу
анализа данных. Вкратце, я пробегусь по этим этапам. Прежде всего, очень
важна общая постановка задачи, ну вот как и цель – зачем ,куда мы идем ,что
мы с этого получим, что мы с этого имеем, зачем проводится анализ данных.
Требуется определение идеального набора данных. Ну вот это именно уже
задача некоего моделирования, то есть представления, что мы хотим от
данных получить, в идеальном случае, когда у нас не ограничен ресурс,
временные ресурсы и материальные ресурсы, человеко-ресурсы, которые мы
тратим на этот процесс.
00:17:15
На анализ данных. Нужно определить, к каким данным есть доступ, нужно
очертить границы анализа. Когда я говорю про этапы анализа данных, это
обобщенный анализ данных. То есть, это может быть анализ как на открытых
данных, так и на закрытых данных. Но в любом случае поступающие данные
должны быть так или иначе открыты. Мы же к ним иначе не получим
доступа. И получение данных говорит само за себя. И следующее - это уже
процессинг, то есть обработка, очистка данных, предварительная подготовка
данных к проведению самого анализа и проведение исследовательских работ
по анализу данных.
00:18:00
Затем идет моделирование. Я бы обозначила этот этап как моделирование
эксперимента. Еще раз: вот эта вот последовательное представление этапов
анализа данных разработано не мной. Но тем не менее оно очень логично,
стройно и понятно, и, конечно же, ноги растут у этого представления именно
из научной среды, то есть прежде всего анализ данных изначально, как
дисциплина, как серьезная дисциплина нужен в научных экспериментах для
моделирования процессов, для подтверждения результатов, для понятия
вообще природы, что происходит и прочего-прочего. Собственно, без
моделирования здесь не обойтись. Может быть, в дата-журналистике не
требуется пока что глубокого моделирования. Но здесь опять же-таки очень
спорный момент, потому что глубокий анализ данных, он повышает
ценность конечного продукта.
00:18:55
Конечно же, все эти трудозатраты окупаются ценностью именно конечного
результата. Но это отдельный такой, слегка может быть философский
момент. Но тем не менее, это надо представлять. Обязательно нужно
интерпретировать конечный результат. Грамотная интерпретация результата
дает очень многое. То есть, это очевидно, да? Всегда нужно в результате
сомневаться. Это тоже один из принципов ученых-иследователей. И этот
принцип нужно исповедовать также и дата-журналистам. Нужно всегда
ставить под сомнение факты. Нужно всегда искать альтернативы. Всегда
нужно помнить о том, что человек очень часто хочет видеть то, что хочет
видеть, а не то, что есть на самом деле.
00:19:35
И поэтому можно на кон поставить очень высокие ставки, и ошибиться в
анализе, и в результате, очевидно, прийти совершенно к другому выводу,
который может играть значительную роль в жизни людей. В том числе и
репутационные .например. обязательно нужно описать результат, так
называемое построение цифровой истории. Описание – это тоже достаточно
неочевидный процесс, потому что описывать можно по-разному, можно
зацикливать, заосторять внимание на мелочах, не давая общей целостной
картины. И обязательно вот в анализе данных практикуется как создание
воспроизводимого программного кода. Насколько вы помните из
предыдущих лекций, и из большинства материалов, популярных материалов,
лежащих на ресурсах, по журналистике данных, вообще о построении кода
речи обычно не идет.
00:20:36
То есть это для тех журналистов, которые сейчас, да, у нас вот в нашем мире
существуют, пока что еще с одной стороны достаточно сложная задача. То
есть в принципе построением воспроизводимого кода занимаются крупные
агентства, и мы это увидим. И есть открытый код, выложенный на гитхабе у
этих агентств. И, собственно, это замечательная практика, потому что это
действительно настоящий анализ данных. Соответственно, полумера, без вот
этого глубокого погружения, это уже повод усомниться вообще в аналитике
проведенной и в проведенном расследовании. И тут надо держать всегда
перед собой картинку в голове, насколько данные значимы для конкретных
людей, насколько эти данные будут использоваться в конечном продукте
журналистской деятельности, насколько от них будет зависеть принятие
каких-то серьезных решений.
00:21:41
Если это очень важная вещь, то, соответственно, к этому надо подходить
серьезно и конечно уделять и больше внимания, и больше собственно
ресурсов для анализа данных. Итак, постановка задач. Пробежимся по этим
пунктам. Помимо целеполагания, помимо понимания, что же и для кого же
мы делаем, необходимо тщательно изучить данные. Нужно понять,
насколько вообще целесообразно их использовать. Сможем ли мы вытянуть
из них что-либо. Какие вопросы сформулировать, да? Вот помните эту
присказку замечательную про то, что в грамотном вопросе содержится 50%
ответа. Да, это конечно же замечательно, но, когда мы говорим про анализ
данных, мы никогда заранее наперед, по-хорошему, не должны представлять
результат, потому что, если мы представляем конечный результат, то у нас
уже есть риск необъективности некоторой, то есть подтягивания нашего
анализа под конкретные желания исследователей.
00:22:47
Поэтому, конечно же, формулировка вопроса очень важна. Я позвонила
себе взять в качестве примера как раз вот примеры курсеровского курса, ну
на самом деле примеров здесь может быть очень много, в том числе, как я и
сегодня задалась вопросом, вот посмотреть статистику посещаемости
«Школы открытых данных», и там тоже свои вопросы очень интересные. Но
тем не менее я бы хотела вам рассказать еще и о каких-то других примерах,
да, вот например, как можно определять спам в е-мейлах?
00:23:20
На самом деле это данный пример, он слегка не соответствует критериям
истинного дата-анализа по некоторым причинам, расскажу позже. Почему не
соответствует – потому что он слишком не глубоко у меня проработан. То
есть, я слишком по верхам все это представляю, но тем не менее мне
хотелось бы дать вам некое представление вообще об этом процессе, и
поэтому я рискнула, взяла этот пример. На основе каких данных можно
определять этот спам? Можно какие-то технические решения искать, можно
искать описательную часть, искать по адресам, по вложениям, аттачментам,
опять же по времени суток, когда пришло письмо. Хотя в общем-то сейчас в
мой личный почтовый ящик письма приходят из почтовых рассылок в любое
время суток, и письма от контрагентов из других стран, особенно из тех,
которые находятся на противоположном конце земного шара, в общем-то
тоже могут приходить в разнообразное время.
00:24:24
Но у человека, который не занимается перепиской с иностранными
контрагентами, не подписан на рассылки, очевидно, что е-мейлы будут
приходить в очевидное время, в рабочее или там в какое-то человеческое.
Следующий шаг- определение идеального набора данных. Что же в этот
идеальный набор данных может входить. Вообще, состав идеального набора
данных, конечно же, зависит прежде всего от контекста, это очевидная вещь.
Обязательно должна быть описательная характеристика. В случае вот этого
примера со спамом это вот характеристика, описывающая людей.
00:25:15
Вы помните вот
предложениями
определения вот
странные имена.
эти замечательные имена псевдолюдей с удивительными
разнообразными. Ну, собственно, можно исходить из
как раз, да, речь идет про спам. Про как раз вот именно
Адотья, Фекла, приходит что-то такое. Исследовательская
характеристика очень важна. Очень важны те характеристики и показатели,
качественно, которые мы будем исследовать. И также уже следующая
характеристика- это уже то ,что мы получаем на основе предыдущих. В
данном случае, если мы говорим про спам, то это как раз вот характеристики
– та или иная выборка, может быть, случайная выборка, может быть ,уже
выборка какая-то преднамеренная, сделанная неправильно, это тоже надо
понимать. В дата-анализе это очень важно. Тестовые данные,. Подходят ли
эти данные под конкретные критерии.
00:26:21
Следующий шаг – это определение данных, к которым есть доступ. Обратите
внимание, что в данном пункте, точнее, на данном этапе, я сразу скакнула на
второй- купить данные в интернете. Да. Данные можно купить. Их много где
продают. Есть специальный бизнес, на этом построенный. На продаже
качественных данных, может быть, полученных из открытых источников, но
уже потом проданные с подкреплением, с некоторой достоверностью, с
верифицируемостью, и вот эту вот надбавочную стоимость по обработке по
представлению данных, за это и берут деньги. Но тем не менее есть и
множество в интернете баз данных, доступ к которым можно купить по
подписке тем или иным способом.
00:27:10
Что в этом пункте интересует нас с точки зрения датажурналистики? Это,
конечно же, открытость. А можно ли эти данные затем выкладывать в
открытом доступе. То есть, все эти вещи должны проговариваться. Должны
быть проговорены. То есть мысль заключается в следующем. Что данные-то
мы купим, но наш эксперимент – открытость, наш эксперимент – это наше
видение того, той ситуации, которую мы представляем при помощи данных.
Наша цифровая история.
Мы должны этот эксперимент уметь
воспроизвести. То есть, если этот анализ лежит в открытом доступе, то
соответственно должны быть и определенные лицензии, позволяющие эти
данные открывать.
00:27:51
То есть, на самом деле вот этот пункт именно с точки зрения работы с
открытыми данными, он не столь однозначен. Но, тем не менее, не надо
забывать и про это. И поэтому необходимо и удостовериться в возможности
использования этих данных. Про поиск открытых данных в интернете я
говорила на предыдущем занятии своем, и думаю, что особо углубляться в
это не надо, но нужно здесь понимать, что открытых данных становится в
интернете все больше, особенно зарубежных данных. В России тоже, но пока
что в России данные открываются в основном на федеральном уровне, хотя
есть и достаточно успешные примеры открытия и муниципальных данных.
00:28:45
Но тем не менее здесь надо понимать, что конечно же делиться.. Ценность
данных возрастает с их детализацией. Средняя температура по больнице в
общем виде никому, наверное, не интересна. Потому что она не несет
семантики, не несет смысловой компоненты. И собственно именно важна
детализация. То есть самое интересное и вкусное лежит именно в тех местах,
где представлены детализированные данные. Данные можно сгенерировать
самостоятельно,
и
хороший
пример
этомупроект
Максима Дубинина, о котором он тоже говорил на прошлых занятиях
, как раз по оцифровке карт метро..
00:29:29
Ну я не очень корректно выражаюсь, он, конечно же, оцифровывал не карты
метро. Я имею в виду тот замечательный проект по доступности метро. То
есть измерение, физическое измерение фактически всех узких проходов и
мест для инвалидов, колясочников и прочее. Это очень социально значимый
проект, я считаю. Очень важный. Но, чтобы его сделать, конечно же, Максим
– герой, он поднял волонтеров, то есть была проделана действительно
реальная работа на местах, чтобы получить эти данные, обработать,
перевести в цифровой вид и уже затем как-то их, с ними работать, да?
Очевидно, что данный пункт, сгенерировать данные самостоятельно несет
самую большую трудозатрату по времени как минимум, по человеческому
ресурсу.. но тем не менее очень часты случаи, когда требуется генерация
недостающих данных.
00:30:30
Ну вот в том примере, который у нас идет, это напомню – спам. Да? У Гугла
данные закрыты. К данным нет доступа, нужно найти их как-то в интернете.
Ну забегая вперед, в данном примере мы, конечно же, ну точнее не мы, а..
Данные нашлись как раз в репозитории машинного обучения, в архиве. С
одной стороны. И это большая удача, хотя они немножечко не свеженькие.
Но у нас поэтому, значит, пример получился несколько надуманным. Но если
делать действительно стоящую работу, стоящий анализ данных, то .конечно
же, нужно ориентироваться на реальные потребности. И тут со своей
стороны я с удовольствием вам напомню, что у нас со второй недели декабря
стартует «экспедиция данных», на нашем проекте «Дейта Жорнализм»,
Datadrivenjournalism.ru. Который мы запускаем с Анной Сакоян вдвоем.
00:31:40
И там как раз у нас эта дата-экспедиция будет посвящена именно работе с
данными, именно анализу данных, очистке и процессингу. То есть обработке
данных. И, собственно, на конкретном примере мы уже сможем с вами
окунуться в боевую реальность и посмотреть, что будет. Я еще раз позже
вернусь к этой экспедиции, я считаю, что это очень важный проект, потому
что он позволяет действительно понять потребности и возможности того, как
можно работать с данными. И главное зачем все это надо. При получении
данных всегда важно фиксировать адрес, из которого были получены
данные. Ну это понятно, это ведение логов так называемая история данных.
00:32:31
И также важно фиксировать время получения данных, потому что данные
могут меняться. Также хочу отметить ,что обязательно данные лучше
скачивать себе на компьютер, если мы говорим про набор данных, не про ip.
Для того, чтобы всегда была возможность проверить проведенный анализ.
Потому что без наличия наборов данных собственно проверить анализ
достаточно затруднительно. Но данные, которые мы скачали с какого-то
информационного источника в Интернете, могут исчезнуть. И в связи с этим
лучше всегда все резервировать, копировать и скачивать себе. Обязательно с
временной пометкой. Потому что данные могут просто качественно
измениться. И тогда тоже проведенный анализ данных будет некорректным.
00:33:26
Конечно же, сырые данные нуждаются в очистке и подготовке. Это такая,
может быть, аксиома, потому что уже идеальных.. значит, не стоит
рассчитывать на идеальную ситуацию. Или как это говорят в институте
открытых данных, Unicorn Dataset, то есть набор данных – как единорог, все
слышали, но никто его не видел, идеальный, внезапно появится он, внезапно
сам очистится, представится и будет идеально представлен. Потому что на
самом деле в наборе данных мало того, что куча всякого мусора, но есть еще
такая вещь, как форматирование данных, нормализация и прочее, и прочее, и
грамотное представление в нужном разрезе.
00:34:11
И этот процесс тоже нужно обязательно фиксировать, потому что для
представления цифровой истории по анализу данных важна фиксация
каждого процесса для воспроизводимости эксперимента. Это как раз опять
же –таки отсылка к научности, к научно-исследовательской составляющей
данного процесса. Ну и помимо всего нужно фиксировать природу
источника данных ,потому что случайная выборка вместо выборки может
гарантировать заведомо ложный результат, как мы понимаем. И собственно к
опросам тоже нужно, как учит наша история, подходить весьма тоже с
пониманием того, при аких условиях и кем и когда этот опрос был проведен.
00:35:11
Нужно обязательно задаться вот этими вопросами, которые я отметила.
Потому что очень важно именно работа с данными в контексте конкретных
срезов. То есть когда, например, когда речь идет про какие-то большие
наборы данных, а на обработку массивов данных свыше порядка сотни
записей в одном наборе, в общем-то, требуется время и определенные
мощности, если мы говорим про бытовые компьютеры, а не про более-менее
мощные системы. И вот например тот самый набор данных, которые сегодня
мы с вами посмотрим, какие есть варианты очистить при помощи Open
Refine, состоящие за 70 тыс записей, в общем-то, у меня не загрузился в гугл
спредшитс.
00:36:10
Так что здесь тоже нужно понимать, что каждому инструментарию – свое
время. То есть когда данных слишком много, возможна ситуация, когда
анализ будет затягиваться на неопределенное количество времени либо не
потянет именно аппаратное обеспечение, такое тоже возможно. И поэтому
здесь важно всегда понимать, на какие поднаборы данных (сабы) можно
разбивать большой набор. Не потеряется ли при разбивке этого набора
основной смысл. Не потеряем ли мы соотношения и корреляции те самые,
которые мы хотим выявить, когда раздробим этот набор на составляющие и
он фактически станет представлять собой эти наборы в самостоятельном
каком-то разрезе.
00:36:59
Насколько такие данные могут быть пригодны для анализа, это очень
важный вопрос. Потому что .если данные непригодны, мы можем затратить
сколько угодно времени, но это будет время впустую. Любой инженер знает,
что важно очень прикладное значение. Интерпретация полученного
результата: конечно же, важна именно грамотное объяснение. Потому что не
должно быть такого, что как дышло- куда повернул, туда и вышло.. даже при
наличии ошибки, неверной трактовки вот эта воспроизводимость и обратная
связи от других исследователей как раз дает возможность корректировать
анализ данных. А именно для грамотного объяснения необходим так
называемый plain language - простой и понятный язык, простое описание, то,
к чему стремится современная доктрина открытой науки. Это доступ к
грамотному изложению для людей, в общем-то, в научных публикациях.
00:38:08
Когда барьеры в виде непонятных, ненужных, слишком вымученных
предложений и мудреных составляют, в общем-то, могут нести
дополнительные
преграды для именно представления семантической
компоненты, смысловой, анализа данных. Ну вот в примере, который идет
лейтмотивом, интерпретация полученного результата, я даже не стала, в
общем-то, в оригинале можете посмотреть, у меня там ссылка есть, да? В
оригинале было представлено несколько интерпретаций, что если есть некое
пороговое значение получения, появления некоторых мусорных символов, то
с большой долей вероятности письмо является спамом. Но опять же
трактовка этого порогового значения, какая вероятность ошибки именно
интепретации вот этого порогового значения и верности применения этого
порогового значения к данной ситуации.
00:39:01
Это очень важный вопрос в анализе, но, если мы.. Обратите внимание, как у
меня здесь все просто написано. На самом деле это должен не один слайд,
это должна быть отдельная лекция, посвященная именно статистическим
методам и определение вообще корректности всего анализа данных. Но тем
не менее я рискнула привести этот пример, опираясь на всю полноту анализа
данных именно как аппарата. Обязательно нужно проверять полученный
результат. Всегда нужно сомневаться в полученном результате, потому что
излишняя самоуверенность губит в данном случае.
00:39:51
То есть, это вот утверждение как раз скорее из научной среды, когда идет
именно борьба за правдоподобность результатов и за правильность. Поэтому
требуются постоянные, в идеале, да, как раз речь идет именно про анализ
данных и, соответственно, про такой трудозатратный процесс. И конечно же
необходимо все эти результаты перепроверять неоднократно, то есть на
основе полученных результатов уже на следующем этапе опять возвращаться
к первому этапу. А вдруг у нас опять ошибка, то есть в свете полученных
новых результатов уже, по результатам первого прохода анализа, может быть
стоит поменять постановку задачи, может стоит переформулировать те самые
вопросы, о которых я говорила.
00:40:36
Может быть, стоит сменить источники данных, может эти источники данных
были некорректны. Может быть, по результатам, первый проход анализа,
выявил именно неграмотное использование источников данных. То есть,
ошибочные сведения, которые из них были получены. Либо, опять же таки,
возможно какие-то ошибки на этапе обработки данных. То есть неграмотное
использование методов или анализа и т.п. все эти этапы нужно
перепроверять обязательно. Следующее – это описание результата. Конечно
же, написание изложения цифровой истории от начала до конца – это
отдельный этап, он не такой простой, как может показаться. Это не просто
запись пошаговая всех процессов.
00:41:39
Пошаговое описание всего процесса, конечно же, необходимо, но цифровая
история – это уже та цифровая история, которая имеет аргументацию. То
есть в цифровую историю не должны входить ошибочные ветви анализа. О
них можно упоминать, но лучше о них не заострять внимание, потому что
они замыливают глаз, они скрадывают общую картину. И поэтому цифровая
история – ошибочно считать, что это просто последовательное выполнение
всех этих действий. Это, конечно же, совершенно отдельный продукт на
основе проделанного анализа.
00:42:16
И, собственно, возвращаясь уже к ранее сказанному по поводу создания
воспроизводимого программного кода, я вашему вниманию предоставила как
раз репозитории открытого кода на Гитхабе. Различные аналитические и
новостные агентства выкладывают свои данные, в том числе и на гитхабе. То
есть, можно посмотреть, скачать, проверить, это замечательная практика.
Более того, на гитхаб приходит все больше и больше организаций. Есть
замечательный проект на гитхабе по выкладыванию кода фондов,
занимающихся открытыми государственными данными и государственных
структур. И это замечательно! Это та самая доктрина открытого государства
в действии. Когда код от государства, как это ни звучит пафосно, лежит в
открытом виде на гитхабе. Это замечательно. Это повышает степень доверия
к людям, которые как раз занимаются всем этим – анализом, работой с
данными и построением программного обеспечения на основе данных.
00:43:41
Есть также репозиторий и Нью-Йорк таймс. Мы видим, что здесь цифры
поменьше. Чикаго Трибьюн. Я выделила основные три, особо не заостряя
внимание на других репозиториях, но их на самом деле много. Еще раз – для
работы, для проведения анализа данных очень важна грамотная организация
файлов в вашем компьютере. То есть не должно быть сумятицы. Очевидно,
дата анализ, как мы уже поняли, это серьезная задача, не простая.. то есть не
бывает такого, что по мановению шелчка возникает инфографика, волшебная
картинка с какими-то цифровыми историями. А если она возникает, то если
такая картинка внезапно возникает, то первое, что мы должны спросить сами
себя, что это такое и откуда оно взялось, это не бывает! Это не правда! Где
данные, где открытые данные? Где эксперимент проведенный?
00:44:49
Для того, чтобы организовать дата анализ, должна быть именно структура не
только в голове и понимание процесса, но и структура на вашем компьютере.
То есть, в общем-то, имеет смысл выделить 4 папки отдельные, в которых
будут содержаться данные, сами данные, сырые данные, с теми данными,
которые вы скачали, получили, с обработанными данными ,пошаговыми, да?
Должны быть представлены моделирования, в том числе и визуализации,
которые вы в в процессе работы с данными осуществляете. То есть это
визуальное представление и в ходе анализа, и окончательное, то, которое уже
является аргументом в вашей цифровой истории.
00:45:35
Конечно же, желательно иметь программный код, открытый программный
код со всеми ошибками, и этого бояться не надо, ошибки неизбежны, это
известный факт и ничего страшного в этом нет. Главное, чтобы эти ошибки
не были критичны для смысловой составляющей анализа данных. Когда
ошибки уже влияют на конечный результат, перевирая его, тогда это,
конечно же, очень критично. Но как раз именно открытость программного
кода и является гарантом того, что мы можем перепроверить анализ данных,
перепроверить эксперимент, повторить, и в общем-то найти те ошибки, где
они.. И соответственно обязательно должны быть текстовые файлы с
описанием и всех файлов. Ну в общем-то люди, которые работают с гихабом,
в курсе и не только. То есть должно быть полное описание анализа данных
.то есть всего процесса. Пошагово. То, что не является цифровой историй, но
то, что является описанием анализа данных.
00:46:46
Теперь от такой вот несколько монструозной части, именно от дата анализа
мы переходим к более простым вещам. История повторяется, у нас
эксперимент повторяем, видите? Возвращаемся уже к более простым вещам,
собственно, к популяризации журналистики данных, то есть, если мы раньше
говорили про такой мощный анализ данных, который применим в
журналистике данных, сейчас мы говорим о простых вещах, информацию о
которых можно получить на множестве свободных образовательных
ресурсов по журналистике данных и, конечно же, таких, в общем-то,
концептуальных вещей там обычно не делают. Простые исследования не
сопровождаются программным кодом и прочее и прочее.
00:47:44
Ну и упрощенная работа с данными, она не является гарантом тех
правильных решений, которые мы получаем, когда проводим настоящий
анализ данных. Я как раз хотела про вот эту среднюю часть поговорить,
потому что получение данных мы смотрели, визуальное представление
данных – про это вам Иван говорил на одной из прошлых лекций, и,
собственно, интересно посмотреть ,что же вот эта сердцевина собой
представляет. Дело в том, что если убрать вот эту сердцевину, вот как раз
тогда и появится как раз та самая волшебная картинка, когда у нас есть
полученные данные, сделанная на коленке инфографика или какое-то
представление непонятное, да, и возникает вопрос, что это такое, насколько
это все достоверно, тот самый анализ, обработка данных достоверная, и что
же вообще было сделано.
00:48:58
Когда мы говорим про именно такую ручной режим, простой, обычно, вот я
здесь выделила всего три инструмента, на самом деле их гораздо больше, то
есть инструментов по работе с данными. Есть как платные – Эксель, есть и
бесплатные – гугловые таблицы данных, сводные таблицы данных. Есть гугл
рефайн бывший, сейчас он называется Оупен рефайн, и его мы посмотрим
подробнее в виде мини мастер-класса чуть позже. Здесь я вкратце просто
показала, что работа с Гугл Спредшитс, с таблицами данных гугла
достаточно проста, потому что в общем-то по интерфейсу подобные
программы похожи между собой – эксель, гугл спредшитс.. они просты,
понятны интуитивно и не интуитивно, потому что в общем-то есть
функциональность, которая, в общем-то, на вскидку не очевидна, как работа
по обработке, ну примитивная обработка, форматирование или приведение к
какому-то виду, нормализации данных.
00:50:17
Это достигается какими-то математическими операциями. Это нужно
представлять. Но, тем не менее, у этих простеньких инструментов тоже есть
свое достоинство, потому что эти инструменты позволяют очень быстро
понимать, что происходит, в случае, если нужно оперативно решить какуюто проблему или осуществить какой-нибудь простенький иллюстративный
анализ к статье. Но опять же-таки не претендующие на какие-то значимые
результаты, влияющие на судьбы людей и прочее, и прочее. Вкратце я здесь
описала преимущества использования Опен Рефайн. Что я хочу сказать:
00:51:13
Что у меня, конечно же, моя лекция и введение такое рассчитано на совсем
начальный уровень.. я считаю, что лучше вас подманить прелестью и
простотой использования инструментария, заманить вас в нашу датаэкспедицию, где мы уже конкретно в декабре посмотрим с вами, как же
нужно обрабатывать и работать с данными. И тем не менее я хотела бы
заострить внимание на преимуществах Оупен Рефайна – это, конечно же,
бесплатность.
Очень важно. Это очень важно для повторяемости
эксперимента. Это свойство, оно здесь сохраняется. Совместимость с
большинством браузеров – оказывается, к сожалению, не со всеми Оупен
Рефайн работает. Я с этим столкнулась. Но из тех ,что – Хром, Опера,
Сафари- работают, такое, наиболее популярное.
00:52:20
Есть очень важное преимущество – это работа в оффлайне. Дело в том ,что
очевидно, что многие данные не хочется преждевременно выкладывать в
онлайн. По различным причинам, в том числе и по соображениями
безопасности. У опен рефайна нет необходимости пересылки данных по
интернету, хотя есть возможность работы с данными в онлайне. Очень
важная особенность – это работа с историей внесенных изменений, и
действительно это очень важно и помогает .потому что очень часто, когда
работаешь с данными, понимаешь, что делаешь не те вещи. Приходится
откатывать позиции какие-то и возвращаться назад, смотреть, на каком же
этапе был промах, ошибка.
00:53:14
Для этого в Опен Рефайне есть история изменений, очень удобно. Может как
откатывать назад, так и возвращать последовательность действий. Это очень
удобная функциональность. Также есть возможность работы с данными
различных машиночитаемых форматов, в том числе по модели RDF, ну мы
ее касаться сейчас не будем – coma separate value- csv. Это открытый формат,
это достаточно очень хорошая возможность по работе с наборами данных
именно в открытом виде.
00:53:54
При помощи открытого инструментария. Далее у меня слайды уже пошли о
том, как запускать и как работать с Опен Рефайном, я бы хотела показать это
воочию, не в виде слайдов, хотя, как выяснилось, у нас уже образовалось два
почитателя.. лекторов- почитателей различных методов. То есть, одни
считают отличным работать именно со слайдами, послайдовая, пошаговая
стратегия, делаем и рассказываем. А вторые стараются воочию показать и
продемонстрировать возможности. В общем-то, и тот и другой способ
достаточно имеет свои преимущества, так что на данном этапе я хотела как
раз показать воочию, как это все происходит. Я думаю, что после перерыва
мы немножко посмотрим, а то я очень увлеклась, мне кажется. Меня очень
вдохновляет тема, и, думаю, вы меня понимаете.
00:55:00
Тем не менее, я хотела бы посмотреть в будущее ,вперед. Мы же говорим про
начальный уровень. Про людей, которые хотели бы работать с данными. Но
не очень понимают, с чего начать. Потому что вообще-то данные пугают,
потому что их много для новичка. Их много .непонятно, с какой стороны
начать работу. Ну теперь уже после лекции, наверное, слегка понятно, да? И
тем не менее я хотела бы выделить два направления, которые, я считаю
очень важным – это массовые открытые онлайн-курсы. Дело в том .что
информации по грамотной работе с данными, я имею в виду учебные курсы,
именно с веб-данными, их не так и много.
00:55:45
Есть учебные курсы по работе с данными, что называется, классические, то
есть это статистические методы, теорвер, этого никто не отменял, это очень
важно при анализе данных. Но и важна компонента новизны. Вот именно
особенность работы с веб-данными, с открытыми данными. И в этом
помогают, конечно же, технологии открытого обучения, то есть Open
Education, что называется. Ну и то, к чему я вас призываю уже в третий раз,
это участие в дата-экспедиции, это сугубо прикладная вещь. Есть задача, есть
этапы исследования, и, собственно, практика-практика-практика как в
анекдоте. Есть замечательный анекдот про человека, который в Нью-Йорке
останавливает музыканта очень известного, но этот человек не знает, что он
очень известный музыкант, и спрашивает, как мне добраться в КарнегиХолл.
00:56:36
И музыкант отвечает – практика, практика.. То есть здесь у нас без
вариантов. Можно сколько угодно говорить, но ничто не заменит практику,
это сугубо прикладная задача. И посему, обратите внимание, я вас как раз
призываю поучаствовать в нашей дата-экспедиции, которая будет уже вторая
по счету, у нас накопилась некая статистика и некий опыт проведения
экспедиции данных. Вы можете на сайте, обратите внимание, я здесь
отразила, подать заявку на участие, заполнить форму, и, в общем-то, мы вас
внесем в список, организуем уже по нашей опробованной методике работы
именно в дата-экспедиции, поэтому я всячески рекомендую с нами
сотрудничать и участвовать. Это бесплатно, это не больно, это душевно,
никаких особых дата-фобий у вас не будет.
00:57:42
Дата-фобия – это тот термин, который родился в ходе первой англоязычной
экспедиции, которую проводил Open Knowledge Foundation, в которой я
участвовала, и одна девушка тогда сказала. На самом деле у многих людей
есть большой барьер к работе с данными. Есть мотивация по работе, но
сложно преодолеть внутренний страх какой-то, возникающий именно перед
чужеродной областью. Но хочу сказать, что важно этот страх преодолеть. И
вот как раз дата-экспедиция рассчитана на то, что любой человек может
задать вопрос, не стесняясь показаться дурачком, все люди доброжелательно
отвечают, потому что у всех есть одна цель, и все стараются как можно
лучше этой цели достичь.
00:58:28
По традиции я разместила большое количество ссылок в презентации..
надеюсь что эти ссылки вам пригодятся. Существенное количество этих
ссылок – книги на Амазоне. Делюсь своим методом – я сейчас заказываю
электронные книги. Самые новейшие книги по всем этим вещам – это только,
к сожалению, Амазон и при этом онлайн. Потому что даже бумажные книги,
пока их довезут, и при этом они потеряются – не потеряются на дороге, это
долгая история. Сейчас Киндл вышел на не очень дорогие суммы, на не
очень высокие цены на книги, ну порядок там где-то 10-20 долларов. Иногда
бывают скидки. Можно вытянуть счастливый билетик.
00:59:17
Тем не менее. Хочу сказать – ничто книги не заменит. Поэтому, в общем-то,
призываю покупать их. К сожалению, они не в открытом доступе. Извините.
Что тут поделать. К сожалению, у нас пока закрыт доступ к знаниям.
Спасибо за внимание. Думаю ,что мы прервемся. Слегка обсудим, потом я
быстренько покажу вам работу с Опен Рефайном, опять-таки с нуля.
Обратите внимание, что все ориентировано на совершенно начальный
уровень. Более концептуальные вещи мы обязательно затронем в датаэкспедиции. Так что еще раз призываю поучаствовать, тем более, что это не
требует от вас физического присутствия нигде. То есть, вы можете сидеть
дома попивая кофе. И что еще говорит за дата-экспедиции: мы сейчас ищем
наиболее подходящий формат проведения дата-экспедиций. И мы понимаем,
что экспедиция данных бывают как однодневные, но очень сложно
организовать людей на какой-то конкретный день.ы
01:00:27
И поэтому приходится выбирать золотую середину между тем, чтобы не
размазывать экспедицию на месяц, такое тоже практикуется, на целый месяц
экспедиции. Это очень сложно и выматывает психологически. Я участвовала
как раз в длительных экспедициях. Но при этом это очень сильно сближает
людей. Умных людей, которые участвуют в экспедиции данных. Это
серьезно, это так. И на самом деле в англоязычных международных
экспедициях участвует большое количество людей из разных отраслей.
Медики, биологи очень интересуются работой с данными. Это очень важно.
Тут надо понимать, что сейчас очень много открытых данных в
определенных науках, в естественных науках. Биология, генетика, химия.
01:01:08
Есть куча больших, открытых баз данных в этих областях. И люди этих
профессий как раз заинтересованы в приобретении компетенций по работе с
этими данными. Очевидно ,что в тех областях, где открытых данных почти
нет, то и весь пафос теряется. Весь смысл всего этого. Получается, что
человек, который не заинтересован жизненно, кровно именно в работе с
данными, вымороченно из-под палки, ну вот получается, как-то начинает
работать и, конечно же, это недолговременная история, в общем-то. Ну
спасибо за внимание за первую часть. Перерыв.
01:02:05
(пауза)
Download