Сбор и анализ разведывательных данных из открытых

advertisement
crisisdata.info/courses/polanal www.crisisdata.info 1 crisisdata.info/courses/polanal www.crisisdata.info 2 crisisdata.info/courses/polanal www.crisisdata.info 3 Введение в сбор и анализ данных из открытых источников www.crisisdata.info 4 Задачи модуля в итоге студент должен: Шаг 1 Шаг 2 •  Понимать как анализировать проблему и производить ее деконструкцию •  Создавать план сбора данных •  Оценивать область информации из открытых источников, относящуюся к Шаг 3 анализируемой проблеме Шаг 4 Шаг 5 Шаг 6 •  Выбирать соответствующие проблеме источники информации •  Знать как управлять информацией после того, как она собрана •  Понимать различные методы для анализа и верификации собранной информации •  Идентифицировать потенциальные слабые места в анализе информации и итоговом Шаг 7 производстве разведывательного продукта www.crisisdata.info 5 Проблемы с информацией из открытых источников Сфера информации из отрытых источников • Постепенное и пожалуй в настоящее время неоспоримое признание роста значения информации из открытых источников. • Растущий объем доступной из отрытых источников информации создает потребность в способности осуществлять технически совершенный, безопасный и всеобъемлющий поиск и анализ такой информации. Технологическая революция •  Революция в информационно-­‐коммуникационных технологиях (ИКТ) привела к росту в объеме информации – как полезной, так и бесполезной – и дезинформации, которая легко доступна для аналитиков. Аналитические сложности • Эффективный и правильный анализ информации становится в этих условиях все более трудным. •  Аналитику требуется воспринять, верифицировать, оценить и интегрировать данные из все возрастающего спектра неизвестных источников с тем, чтобы выдать полезный для принятия решений разведывательный продукт в ограниченных временных рамках. Распространение специализированных инструментов для сбора информации •  Вышеобозначенные проблемы привели к созданию и распространению набора инструментов, техник и технологий, которые помогают в соборе и анализе информации. www.crisisdata.info 6 Четыре основные тенденции, влияющие на сбор и анализ данных из отрытых источников •  Растущее признание важности сбора и анализа данных из отрытых источников •  Информационная революция, ведущая к росту объема информации – полезной и бесполезной – доступной аналитикам •  Своевременный и верный анализ информации становится все более трудным. Аналитикам требуется собрать, верифицировать, оценить и интегрировать в свои доклады потоки информации, поступающей из все большего количества неизвестных источников •  Признание всего этого привело к созданию и распространению широкого набора инструментов (аналитических и программно-­‐
аппаратных), помогающих аналитикам выполнять их задачи www.crisisdata.info 7 Аналитический цикл Постановка задачи руководством Производство и распространение разведывательного продукта Планирование Разведывательный цикл Анализ www.crisisdata.info Сбор 8 Содержание этапов аналитического цикла •  Понять задачу и деконструировать аналитическую проблему(ы) •  Разработать план сбора информации, отвечающий этим проблемам •  Выбрать методы и техники, которые помогут идентифицировать и получить необходимую информацию Постановка задачи руководством Планирование Сбор •  Проанализировать и оценить ключевые источники и их содержание Анализ •  Понять ключевые запросы «заказчика» для производства разведывательного продукта, отвечающего на конкретные вопросы заказчика Производство и распространение разведывательного продукта www.crisisdata.info 9 Что такое информация из открытых источников? •  Информация из открытых источников – свободно доступная информация, которую любой может законно получить по запросу, при покупке или путем наблюдения. (Источник: US Intelligence Community Direc{ve 301: Na{onal Open Source Enterprise) www.fas.org/irp/dni/icd/icd-­‐301.pdf www.crisisdata.info 10 Что такое «сбор данных из открытых источников»? • 
• 
• 
• 
• 
«Сбор разведданных из открытых источников это использование общедоступной информации, которая собирается, обрабатывается, своевременно распространяется среди экспертов, в тех областях деятельности, где необходимо ее использование». (FMI 2-­‐22.9 декабрь 2009) «….это форма управления сбором разведанных которая включает в себя нахождение, отбор и извлечение необходимой информации из общедоступных источников, для дальнейшего анализа и использования». (Wikipedia) «….части мозаики, без которых невозможно ни начать, ни завершить сборку мозаики... разведданные из открытых источников являются важнейшей основой для всех источников разведданных, но они не заменяют собой совокупность всех источников.» (Joseph Nye, Head Na{onal Intelligence Council, 1990) «... общедоступные материалы, которые может получить кто угодно на законном основании, путем запроса, через коммерческое приобретение или самостоятельный поиск.» (Intelligence Community Direc{ve Number 301 and P.L. 109-­‐163, Sec. 931) «Соответствующая определенным требованиям информация из открытых источников, которая после тщательного анализа на соответствие этим требованиям предоставляет в распоряжение аналитика актуальную, репрезентативную , релевантную , надежную и достоверную информацию или доклад, в корректном формате и временные сроки. Такая информация позволяет быть более уверенным при принятии решений и сократить время на его принятие.» (Arno H.P.Reuser) www.crisisdata.info 11 Информация из открытых источников и засекреченная информация в сравнении: •  Секретная информация не является классом информации. Термин «секретно» есть мера безопасности, но не тип информации. Таким образом, их сравнение не является корректным. Почти вся засекреченная информация это информация, полученная из открытых источников с пометкой «секретно». В силу отсутствия, каких либо критериев подлинности: источник, имен авторов, использованной методологии, надежность секретной информации практически невозможно определить. Законодательство •  Многие страны имеют законодательство о сборе информации, которое ясно разъясняет, как и при каких условиях может осуществляться сбор информации. www.crisisdata.info 12 Типы информации из открытых источников 1.  Информация, свободно доступная всем 2.  Коммерческие данные – например, ежегодные отчеты компаний 3.  Экспертиза отдельных экспертов 4.  Т.н. «серая» литература – например, доклады, подготовленные в частном секторе, правительственных учреждениях или академических институтах, которые лишь ограниченно доступны www.crisisdata.info 13 Открытые источники информации •  СМИ •  Общественные данные •  Информация из профессиональных или академических источников •  Коммерческие данные •  «Серая» литература www.crisisdata.info 14 Ценность информации из открытых источников «90% разведывательных данных получаются из открытых источников. Лишь оставшиеся 10%, приходятся на секретную работу» Генерал-­‐лейтенант Самуэль В.Уилсон, бывший директор РУМО Анализ «вопросов» Анализ «вопросов» •  Для чего необходим анализ вопроса? •  Вопрос, на который можно получить ответ •  Последовательность анализа •  Использование модификаторов при составлении поисковых вопросов •  Поисковые концепты •  «Проблемы» с поисковыми вопросами •  Причины, по которым клиент часто не может корректно сформулировать вопрос •  Типичные «неправильные» вопросы Для чего необходим анализ вопроса? Самая большая проблема в поиске информации: это расплывчатые или нечеткие вопросы Следствие расплывчатого вопроса: Неверный вопрос? => Неверный ответ! Переизбыток ответной (как правило, не релевантной) информации Вы не знаете когда остановить поиск Всегда начинайте поиск, уделяя пристальное внимание формулировке вопроса. Вопрос, на который можно получить ответ Концепция «Вопроса, на который можно получить ответ» включает следующие советы: Никогда не начинайте поиск, если в вопросе присутствует неопределенность Пример: Получить несколько докладов (статей, ссылок, материалы и т.д.) по последней ситуации в сфере безопасности в Бразилии. Неопределенность в вопросе: несколько, «текущей», «ситуация», «безопасность». Всегда старайтесь сформулировать вопрос как можно более точно. Неправильно: «Получить несколько докладов (статей, ссылок, материалы и тд) по последней ситуации в сфере безопасности в Бразилии». Правильно: «Получить не более пяти газетных статей из международных изданий про безопасность правительственных компьютерных сетей в Бразилии опубликованных на прошлой неделе» Правила: Если мы понимаем вопрос, мы знаем, как должен выглядеть ответ. Если мы знаем, как должен выглядеть ответ, мы также знаем, когда остановить поиск. Последовательность анализа
В процессе перевода исходной информации в запрос, который вводится в поисковую систему, можно выделить следующие этапы: 1) У Клиента (начальника) есть общая информационная проблема. Например: «У меня недостаточно сведений о Бразилии» 2) Клиент формулирует определенную задачу Пример: «Дайте мне всю информацию о Бразилии для доклада высшему руководству» 3) Поисковый аналитик формулирует «вопрос, на который можно получить ответ» Например: «Найти не менее 6 аналитических статей в зарубежных изданиях о ситуации в сфере безопасности в Бразилии за последние 6 месяцев, описывающих события и их последствия для безопасности в регионе». 4) Поисковый аналитик переводит вопрос в поисковый запрос ss (Brasil
+BrasiliaCity)/{,de * majpap/so * 2008/py * len>800 Использование модификаторов при составлении поисковых вопросов Модификаторы это дополнительные параметры, сужающие рамки поиска. Цель их использования: Уменьшить количество найденных результатов Увеличить релевантность найденных результатов Примеры модификатров: •  1. Язык документа: найти документы только на Русском или Английском языке •  2. Время публикации: найти документы, опубликованные на прошлой неделе, в прошлом месяце, в таком то году. •  3. Количество результатов: показать только 50 результатов •  4. Формат : найти только книги или доклады, блоги, презентации, карты или видео •  5. Издатель/источник информации: найти только документы, опубликованные аналитическими центрами, правительством, ИТАР ТАСС. Поисковые концепты Думайте концептуально! 1. Когда вы формулируете вопрос, старайтесь определить его конкретный смысл Пример: 1. Доклад о пограничном конфликте между Абхазией и Грузией 2. История кораблестроения 3. История кораблестроения в России и т.д. «Проблемы» с поисковыми вопросами Вопросы, вводящие в заблуждение Вопрос: Найти книгу о движении сопротивления «Дикая обезьяна» в Бразилии» Настоящий вопрос: "Действительно ли существует такое движение в Бразилии?» Неполные вопросы Вопрос: «техническое описание Т-­‐80» Истинный вопрос: «техническое описание тепловизорного оборудования танка Т-­‐80 экспортной версии» Нечеткий вопрос Вопрос: «найти книги про фотоискусство» Истинный вопрос: Как использовать 16мм камеру для подводной съемки морской жизни. Причины, по которым клиент часто не может корректно сформулировать вопрос: •  Клиент не хочет выглядеть глупым. •  Клиент не хочет или не может сформулировать правильный вопрос •  Клиент является посредником (например секретарь передающий просьбу руководителя в информационный департамент) •  Клиент не понимает возможности информационного департамента •  Клиент сам не знает, какая информация ему нужна (очень сложно сформулировать слова, которые ты не знаешь) •  Клиент сильно упрощает вопрос Типичные «неправильные» вопросы Очень часто клиент не способен самостоятельно сформулировать корректный вопрос Такой вопрос может выглядеть следующим образом: •  Вопрос о том, как что то сделать •  Например, найдите мне: •  Книги про управление мотоциклом •  Публикации про саперное дело •  Поиск специфических названий, узко технических терминов и т.д. •  Очень широкий вопрос Обсуждайте с клиентом информацию, которую он хочет получить На основе предыдущего объяснения, о том, почему многие пользователи не задают правильных вопросов, неплохо предварительно обсудить с клиентом (или с самим собой) точный вопрос. Рассмотрите следующие вопросы, которые помогут лучше составить запрос: 1. 
Чего вы действительно хотите? 2. 
Это настоящий запрос? (Или он содержит скрытый запрос?) 3. 
Тема запроса ясна? Понимаете ли вы терминологию запроса (Атомная архитектура Кадмия 109) 4. 
Есть ли неточности в вопросе? 5. 
Содержит ли вопрос неопределенность? 6. 
Какие проблемы будут решены с помощью этой информации 7. 
Для чего будет использоваться найденная информация? (Мотивация клиента) 8. 
Бэкграунд клиента (образование, работа, должность) 9. 
Степень информированности клиента в запрашиваемом ответе 10. 
Тип вопроса: глубокое исследование, фактологическая информация, короткий обзор, брифинг, доклад, подтверждение подлинности 11. 
Тип опубликованной информации (доклад, книга, патент, руководство пользователя) 12. 
Что клиент уже нашел по данному вопросу 13. 
Установленные ограничения: 14. 
Язык текста 15. 
Временные рамки 16. 
Стоимость 17. 
Требуемый формат вывода информации для конечного пользователя (Текстовая, Видео, Аудио) Семантика Терминология •  Использование правильной терминологии для обозначения предмета поиска является ключевым фактором успеха. •  Семантическая таблица поможет определить правильный ли термин выбран для обозначения объекта поиска. •  Правило: в процессе поиска, старайтесь думать о том как документ который вы ищите, может быть составлен, какую информацию о может содержать. Как найти ключевые слова для составления вопроса (термины) При поиске ключевых слов, для поискового запроса, рекомендуется использовать следующие источники: •  Словари •  Энциклопедии •  Справочники •  Тезарусы, таксономии или онтологии •  Книги, журнальные статьи, и т.д. •  При изучении источников, также необходимо обратить внимание на следующую, встречающуюся в них информацию: •  Известные авторы по данной тематике, автор предисловия, редактор. •  Названия институтов, университетов, сообществ публикующих работы по данной тематике. •  Имена издателей. •  Названия журналов. Семантическая таблица Семантическая таблица состоит из 10 пунктов, которые необходимо принимать во внимание, при формировании вопроса. 1) Варианты написания •  Обращайте внимание на возможные варианты написания одного и того же термина, например •  : Al-­‐Qaida ; Al-­‐Qaeda ; Al-­‐Qa'eda ; Al-­‐Kaida 2) Использование акронимов (аббревиатур, сокращений) Как: •  (a) ВУЗ -­‐ «Высшее учебное заведение» •  (b) США -­‐ «Соединенные штаты Америки» •  (c) ОМП -­‐ «Оружие массового поражения» При этом необходимо помнить, что один и тот же акроним может иметь разное значение КАК: •  ДНК -­‐ дезоксирибонуклеиновая кислота •  ДНК -­‐ дистилированные нефтяные кислоты •  ДНК -­‐ духовно-­‐нравственная культура Или: •  НАК -­‐ Национальный антитеррористический комитет •  НАК -­‐ незаменимая аминокислота •  НАК -­‐ Национальная ассоциация кинотеатров •  НАК -­‐ Национальный антикоррупционный комитет 3) Технические термины /
профессиональный жаргон •  (a) Законность -­‐ Легитимность •  (b) аскорбиновая кислота -­‐ витамин •  (c) определение целостности гальванической цепи с помощью омметра, мультиметра или других приборов и приспособлений – Прозвонка 4) . Исторические особенности написания стран •  (a) Цейлон – Шри-­‐Ланка •  (b) Мьянма – Бирма •  (c) Югославия – Бывшая республика Югославии Черногория -­‐Montenegro -­‐ Балканы 5) Синонимы •  (a) Мотоцикл -­‐ Байк •  (b) Нидерланды -­‐ Голландия •  (c) Модель-­‐Образец-­‐Прототип 6) Антонимы •  (a) Белый -­‐ Черный •  (b) Благодаря -­‐ Вопреки •  (c) Богатый -­‐ Нищий 7) Квази синонимы •  number 10 -­‐ london -­‐ united kingdom -­‐ "gordon brown" •  Кремль-­‐Москва-­‐Россия •  Белый Дом-­‐Вашингтон-­‐США 8) Термины включающие широкую предметную область; Термины включающие узкую предметную область •  Широкая предм. область: полевая артиллерия •  Поисковый термин: гаубица •  Узкая предм. область : механизированная гаубица/ самоходное орудие •  Еще более узкая предм. область : M109A2/A3 •  Широкая предм. область: Россия •  Узкая предм. область: Московская область •  Еще более узкая предм. область: Москва 9) Язык •  Найдите написание ключевых слов в других языках •  Имейте в виду, что один и тот же термин в Англии и США может писаться по разному •  (a) Li¦ -­‐ elevator ; lorry -­‐ truck ; autumn -­‐ fall ; chips -­‐ french fries ; trousers -­‐ pants •  (b) Encyclopaedia -­‐ encyclopedia ; catalogue -­‐ cataloge •  (c) At the weekend -­‐ on the weekend ; I have lost my book -­‐ I lost my book •  rocket=missile ? 10) Омонимы •  Омонимы полные (абсолютные) — омонимы, у которых совпадает вся система форм. Например, наряд (одежда) — наряд (распоряжение), горн (кузнечный) — горн (духовой инструмент). •  Омонимы частичные — омонимы, у которых совпадают не все формы. Например, ласка (животное) и ласка (проявление нежности) расходятся в форме родительного падежа множественного числа (ласок — ласк). •  Омонимы грамматические, или омоформы — слова, совпадающие лишь в отдельных формах (той же части речи или разных частей речи). Например, числительное три и глагол три совпадают лишь в двух формах (к трём — мы трём, три яблока — три сильнее!). Поисковые стратегии Существуют четыре основные поисковые стратегии • 
• 
• 
• 
Построение блоковой поисковой стратегии Фокусирование результата поиска Метод «снежного кома» Использование цитат в процессе поиска Использование «Блоковой» поисковой стратегии •  Крайне упорядоченный подход к поиску, в котором поисковый запрос состоит из «блоков» поисковых терминов связанных между собой связкой OR , а каждый концепт связан связкой AND «Блоковая» поисковая стратегия используется в случаях когда встречаются следующие условия: •  Сложный вопрос (состоит из нескольких концептов и терминов) •  Поисковая система позволяет создание наборы вопросов •  Поиск должен быть исчерпывающим Как использовать «блоковую» стратегию 1.Проанализируйте вопрос/ разберите проблему 2.Сформулируйте вопрос в одном предложении 3.Разделите вопрос на концепты 4.Для каждого концепт подберите термины в соответствии с семантической таблицей •  5. Начните поиск для каждого концепта •  6. Используйте для связки терминов между собой «OR» •  7. Используйте для связки концептов «AND» • 
• 
• 
• 
8 основных шагов при поиске 1.  Формулируйте вопрос в одном предложении 2.  Четко выделяйте конкретный смыслообразующий текст далее концепт в предложении 3.  Для каждого концепта найдите несколько семантических вариаций: синонимы, варианты написания, псевдонимы, множественное или единственное число, аббревиатуры. 4.  Комбинируйте термины для каждого концепта с помощью связки OR для расширения охвата поиска 5.  Комбинируйте концепты при помощи связки AND, для увеличения релевантности 6.  Проверяйте полученный результаты на наличие новых ключевых слов, имен авторов, вариантов написания, и тд. 7.  Используйте модификаторы 8.  Произведите отсев результатов Пример Проблема: «найти информацию о старых ветреных мельницах в Голландии, 17 века постройки, конструкция, использование, и тд.» 1. Формулируем вопрос: «история ветряных мельниц в Голландии» 2. Определяем концепты: история; ветряные мельницы, Голландия 3. Для каждого концепта находим ключевые слова История, средневековье, 17 век, Ветряные мельницы, ветряк, ветряные турбины, ветряной генератор Голландия, Нидерланды, dutch ; nederland ; pays bas ; niederlande 4. Комбинируйте ключевые слова со связкой OR (история OR средневековые OR «17 век») (ветряные мельницы OR ветряные турбины OR ветряные генераторы OR wind-­‐mills OR windmill OR "wind turbine" OR "wind generator") (Нидерланды OR Голландия OR nederland OR "pays bas" OR nieder-­‐ lande) 5. Комбинируйте концепты связкой "AND" (a) (history OR geschiedenis) (windmills OR windmolens) (netherlands OR holland) (история OR средневековые OR «17 век») AND (ветряные мельницы OR ветряные турбины OR ветряные генераторы OR wind-­‐mills OR windmill OR "wind turbine" OR "wind generator") AND (Нидерланды OR Голландия OR nederland OR "pays bas" OR nieder-­‐ lande) 6. Проверьте полученные результаты на наличие новых ключевых слов, имен авторов, повторите шаг номер один. 7-­‐8. Произведите отсев результатов По названию: Нидерланды, Ветряные мельницы По типу документа : pdf По адресу сайта: Ветряные мельницы site:ru По языку : ( В поисковой системе Google, идем в меню Search Seªngs, , in Exalead, type "language:en" для поиска только на английском) По времени: (в Google, нажать Show Op{ons) Конечный поисковый запрос •  (history OR geschiedenis) (in{tle:windmills OR in{tle:windmolens) (netherlands OR holland) _letype:pdf site:ru date:3" Пример Проблема: клиент хочет получить исчерпывающую информацию о пограничном конфликте между Индией и Пакистаном Сформулируйте вопрос в одном предложении. Такой вопрос обычно содержит исходную информацию: предмет поиска, географическое расположение, временные рамки Вопрос : Найти высококачественную информацию академического уровня о пограничном конфликте между Индией и Пакистаном. Разбиваем вопрос на концепты Индия Пакистан Пограничный конфликт Для каждого концепта находим термины в соответствии с семантической таблицей Пример: Индия: Индия, Нью-­‐Дели, Манмохан Синг Пакистан: Пакистан, Исламобад, Асиф Али Зардани Пограничный конфликт: пограничный конфликт, пограничный инцидент, вооруженный инцидент Начните поиск по каждому концепту Скомбинируйте все термины в рамках одного концепта при помощи связки OR Скомбинируйте все концепты между собой при помощи связки AND Пример •  Вопрос: Контрабанда стрелкового оружия на Балканах •  Выделяем концепты и термины •  Контрабанда: торговля OR контрабанда OR незаконный оборот OR продажа; •  Стрелковое оружие: винтовка OR автомат OR пистолет OR стрелковое оружие OR автоматическое оружие •  Балканы: Балканы OR Сербия OR Босния OR Хорватия •  Конечный поисковый запрос: торговля OR контрабанда OR незаконный оборот OR продажа AND винтовка OR автомат OR пистолет OR стрелковое оружие OR автоматическое оружие AND Балканы OR Сербия OR Босния OR Хорватия Инструменты и поисковые системы для улучшения «блоковой» поисковой стратегии •  Google не позволяет строить наборные запросы, но используя кнопку «поиск среди найденных результатов» вы можете симулировать «блоковую» поисковую стратегию Фокусирование результата поиска •  Если вы сформулируете очень «сырой» запрос, то вы получите огромное количество результатов с низкой релевантностью. Если же в запрос добавлены концепты, термины и прочие ограничители, то это существенно сокращает количество результатов, увеличивая релевантность. Пример Проблема : Найти высококачественную информацию академического уровня о пограничном конфликте между Индией и Пакистаном. Вопрос: аналитические доклады о пограничном конфликте между Индией и Пакистаном. Разбиваем вопрос на концепты • 
Индия • 
Пакистан • 
Пограничный конфликт Для каждого концепта находим термины в соответствии с семантической таблицей • 
Пример: • 
Индия: Индия, Нью-­‐Дели, Манмохан Синг • 
Пакистан: Пакистан, Исламобад, Асиф Али Зардани • 
Пограничный конфликт: пограничный конфликт, пограничный инцидент, вооруженный инцидент Начните поиск по каждому концепту • 
Скомбинируйте все термины в рамках одного концепта при помощи связки OR • 
Скомбинируйте все концепты между собой при помощи связки AND • 
Пример фокусированного поиска • 
Пример: шаг за шагом • 
Индия • 
Нью Дели • 
Индия OR Нью Дели • 
Индия OR " Нью Дели " • 
in{tle:Индия OR in{tle:" Нью Дели " • 
Пакистан • 
Исламабад • 
Пакистан OR Исламабад • 
in{tle:Пакистан OR in{tle:Исламабад • 
in{tle:Пакистан OR in{tle:Исламабад in{tle:Индия OR in{tle:"Нью Дели" • 
in{tle:Индия OR in{tle:"Нью Дели" in{tle:Пакистан OR in{tle:Исламабад -­‐спорт -­‐крикет • 
in{tle:Индия OR in{tle:"Нью Дели" in{tle:Пакистан OR in{tle: Исламабад -­‐ спорт -­‐крикет -­‐inurl:(.com|.net) • 
in{tle:Индия OR in{tle:"Нью Дели" in{tle:Пакистан OR in{tle: Исламабад -­‐ спорт -­‐крикет -­‐inurl:(.com|.net)_letype:pdf • 
in{tle:Индия OR in{tle:"Нью Дели" in{tle:Пакистан OR in{tle: Исламабад -­‐ спорт -­‐крикет -­‐inurl:(.com|.net)_letype:pdf daterange:
2453371.50000-­‐2455927.50000 Метод «снежного кома» •  Большая часть научной литературы содержит список ссылок на других авторов, писавших по данной тематике. •  1.Найдя релевантный документ, обратите внимание на ссылки и библиографию, по ссылке вы находите другую работу, которая так же содержит ссылки. •  2.Важно! Найдя новый документ, обязательно запишите имя автора, оно может понадобиться для дальнейшего поиска, например в библиотечных каталогах. Так же записывайте название публикующих организаций: институтов, университетов и тд . •  3.Обязательно отмечайте новые ключевые слова, варианты написания ключевых слов, новые выражения и термины, имеющие отношение к предмету вашего поиска. •  Повторите шаг №1. Использование «цитирования» в процессе поиска Существует два способа работ с «цитированием» в процессе составления поискового вопроса. •  Нахождение новых документов с использованием «индекса цитирования». •  Нахождение новых документов с использованием существующих ссылок. Как использовать? •  Возьмите научную статью, назовем ее «статья №1» •  Берем имена авторов этой статьи •  С помощью индекса цитирования смотрим какие другие авторы цитирует в своих работах «статью №1», таким образом находим новые статью , называем ее «статья №2» •  Берем имена авторов «статьи №2» •  С помощью индекса цитирования смотрим какие другие авторы цитирует в своих работах «статью №2», таким образом находим новые статью , называем ее «статья №3» •  И так далее Второй способ •  Берем статью, смотрим на кого ссылается автор, находим по ссылке исходный документ, смотрим на кого в нем ссылается его автор, и так далее. Введение в сбор и анализ данных из открытых источников Тема: Анализ источников и их содержимого www.crisisdata.info 59 Понимание источников: два ключевых элемента I. Анализ источников •  Кому принадлежат, аффилиация, в каком окружении функционируют •  Какие источники являются ключевыми? Кто является ключевыми лицами, принимающими решения или влияющими на это принятие? Каков существующий уровень свободы выражения мнений? II. Анализ содержания •  Как различные источники освещают конкретнтые проблемы и события? •  Являются ли они сбалансированными, объективными и основанными на фактах, или они односторонние и подвержены влиянию какого либо мнения? I. Анализ источников: четыре ключевых компонента • Имеется ли политическая афилиация источника – центр, правые или левые? • Является ли источник государственным или частным? • Кто оказывает финансовую поддержку или владеет источником? • Влияют ли отношения собственности на публикуемые материалы? • Каков существующий уровень свободы СМИ и цензуры? • Каково законодательство, регулирующее СМИ? Присутствуют ли элементы устрашения? Политическая афилиация Экономическая афилиация Юридическое окружение • Кто написал исследуемый материал? Что мы знаем об авторе? Автор Политическая афилиация Имеется ли политическое влияние на источник – центр, правые или левые? •  Является ли источник государственным или частным? •  Политическая афилиация Политическая афилиация • 
• 
• 
Cover Story: h°p://www.newsweek.com/id/136440 McCain response: h°p://www.newsweek.com/id/136572 Newsweek: h°p://www.newsweek.com/ Экономическая афилиация: наиболее наглядный пример, скрытая и явная реклама • 
• Кто оказывает финансовую поддержку или владеет источником? • Влияют ли отношения собственности на публикуемые материалы? Экономическая афилиация • 
• 
Basic: $600 to $850. At this price, you’re usually talking top-­‐freezers—very energy efficient and space efficient for their size, but s{ll smaller overall than side-­‐by-­‐sides. Two GE models, the GTS18KCM, $600, and the GTS22KCM, $650, are good values. MIDRANGE: $850 to $1,800. The real bargain among side-­‐by-­‐side refrigerators is the GE GSS25JFM, $890, If you’re looking for a bo°om-­‐freezer, the GE GBS22LB, $1,050, offers the best combina{on of performance, capacity, and flexibility. HIGH-­‐END: $1,800 to $5,000. Cabinet-­‐
depth refrigerators are less expensive than true built-­‐ins. The GE Profile Arc{ca PSI23NGM, $2,300 performed well. Юридическое окружение Алжирский Президент Бутефлика, 1999: •  “СМИ должны в конечном счете служить государству” • 
• 
• 
• 
• 
За исключением газет El-­‐Khabar и El-­‐Watan, ВСЕ газеты в Алжире печатаются государственными печатным предприятиями и распространяются по государственным дистрибьюторским сетям Государство контролирует доходы от рекламы в соответствии с позициями газет. При этом большинство этих доходов идет про-­‐правительственным газетам Государство полностью контролирует теле и радио сети, включая Enterprise Na{onale de Television (ENTV) Алжирский УК содержит статьи, предусматривающие тюремные сроки и штрафы за публикацию информации, наносящей ущерб президенту, членам парламента или другого правительственного органа, а также вооруженных сил Алжирское законодательство запрещает публикацию статей по безопасности или политическим конфликтам из любых источников, кроме правительственных Алжирские государственные СМИ •  Algerian Press Service (APS) •  Algerian Radio •  Enterprise Na{onale de Television (ENTV) •  El Moudjahid, Ежедневная газета на французском •  Ech Chaab, Ежедневная газета на арабском •  «Сухой остаток»: Контроль над основными алжирскими СМИ позволяет правительству манипулировать информацией
Ключевые источники по свободе прессы Репортеры без границ (RSF) защищает журналистов и борется с цензурой и законодательным ограничением свободы прессы. h°p://www.rsf.org/ Commi°ee to Protect Journalists составляет доклады об угрозах журналистам. h°p://www.cpj.org/ Секция с информацией по странам дает обзоры медийного окружения и содержит списки печатных и электронных СМИ. h°p://news.bbc.co.uk/1/hi/country_profiles/default.stm Interna{onal Federa{on of Journalists организация профсоюзов журналистов. h°p://mena.i¼.org/en II. Анализ содержимого: четыре ключевых компонента •  Кто является целевой аудиторией? •  Представляется ли содержимое таким образом, чтобы удовлетворять нужды конкретной группы пользователей? •  Является ли содержимое явно упрощенным или явно усложненным? •  Какие темы затрагиваются, а какие игнорируются? Какие СМИ освещают какие вопросы, и как они это делают? •  Имеется ли повторение отдельных элементов в различных источниках – общие метафоры, общие заявления? •  Откуда источник берет информацию? •  Кто освещает конкретную тему? Политики? Представители академического сообщества? Активисты? •  Цитируются ли источники корректно? •  Статьи какого типа публикуются? Мнения (письма редактору, тематические колонки, рубрика «от редактора»)? Новости? Или аналитические статьи? •  Каков тип содержимого? Печатный, аудио, видео? Аудитория Освещение Сбор информации Тип содержимого Аудитория The Daily Star • Кто является целевой аудиторией? • Представляется ли содержимое таким образом, чтобы удовлетворять нужды конкретной группы пользователей? • Является ли содержимое явно упрощенным или явно усложненным? Аудитория • В десятке наиболее читаемых в Великобритании газет • Популистская • Смешивание политического, экономического, социального и культурного содержимого и нацеливание на максимально широкую аудиторию Carnegie Endowment for Interna{onal Peace • Академический исследовательский институт • Публикации нацелены на информированную аудиторию лиц, причастных к выработке и осуществлению политики в области безопасности и обороны h°p://www.dailystar.co.uk; h°p://www.carnegieendowment.org/ Освещение • Какие темы затрагиваются, а какие игнорируются? • Какие СМИ освещают конкретную проблему и как они это делают? • Имеется ли повторение отдельных элементов в различных источниках – общие метафоры, общие заявления? Освещение Конфликт между Израилем и Хезбола, июль-­‐август 2006 Освещение – что сообщается? • 
• 
• 
• 
Позиция Совета по сотрудничества стран Залива Критика Резолюции ООН за недостаточное внимание израильской военной агрессии против Ливана Предположение, что интересы безопасности игнорируются «Сухой остаток»: Совет по сотрудничества стран Залива выступает в поддержку прав палестинцев, создания двух государств и вывода Израиля со всех оккупированных арабских территорий Освещение – что сообщается? (2.) • 
• 
Палестинская точка зрения Критика резолюции ООН за сохранение возможности для дальнейшей израильской военной агрессии • 
«Сухой остаток»: WAFA is the Pales{nian news agency, and is owned by the Pales{nian Na{onal Authority. Освещение – что сообщается? (3.) • 
• 
• 
Международный взгляд на проблему СБ ООН смог прийти к консолидированной позиции по вопросу, вокруг которого до этого были существенные разногласия «Сухой остаток»: ООН часто критикуют за бездействие по арабо-­‐израильскому вопросу. Неудивительно, что представитель постоянного члена СБ ООН оценивает переговоры как крупный h°p://daccess-­‐dds-­‐ny.un.org/doc/UNDOC/GEN/N06/465/03/PDF/
успех международного N0646503.pdf?OpenElement сообщества Освещение – как сообщается? •  BBC Asia-­‐Pacific news page, 11 апреля, 2010 Освещение – как сообщается? Bangkok Post, 11 апреля, 2010 Сбор информации • Откуда источник берет информацию? • Кто освещает конкретную тему? Политики? Представители академического сообщества? Активисты? • Цитируются ли источники корректно? Сбор информации MSN India, April 11, 2010 Сбор информации • Откуда источник берет информацию? • Кто освещает конкретную тему? Политики? Представители академического сообщества? Активисты? • Цитируются ли источники корректно? Сбор информации New York Times, April 11, 2010 Сбор информации– сенсационность СМИ продают новости, и поэтому они всегда ищут «большие» новости, что зачастую приводит к тому, что журналисты и редакторы не анализируют свои источники Случай Аднана Хаджа •  В 2006, Рейтер был вынужден удалить все фото, сделанные фотографом Аднаном Хаджем, который освещал конфликт между Израилем и Хезболлой. •  Хадж был уличен в изменении изображений, с тем чтобы показать большие разрушения, чем имели место на самом деле. •  Его желание продать историю привело к «сенсациолизации» фактов. Измененные фото С помощью графического редактора на данном фото добавлен дым, с целью создать видимость больших разрушений, чем в действительности Тип контента • Статьи какого типа публикуются? Мнения (письма редактору, колонки, «от редактора»)? Новости? Или аналитические статьи? • Каков тип содержимого? Печатный, аудио, видео? Тип контента h°p://www.washingtonpost.com/wp-­‐dyn/content/ar{cle/
2010/04/11/AR2010041102509.html Тип контента – анализ видео информации (не всегда объективна) • Статьи какого типа публикуются? Мнения (письма редактору, колонки, «от редактора»)? Новости? Или аналитические статьи? • Каков тип содержимого? Печатный, аудио, видео? Тип контента Талибан выпустил видео по американскому военнослужащему, 8 апреля, 2010 h°p://www.reuters.com/news/video?videoId=69351807 Тип контента – анализ изображений • 
• 
“Ливанская «золотая молодежь» проезжает по улице, рассматривая разрушенные кварталы Бейрута.” Источник: h°p://news.bbc.co.uk/2/hi/
middle_east/6385969.stm На самом деле: часть кадра (обрезка), показывающего, как неприспособленные немедицинские автомобили используются для транспортировки раненых Тип контента – анализ изображений (2) <= • 
На самом деле: фото сделано на военном аэродроме через неделю после начала военной операции => «Первые американские военнослужащие высаживаются на Гаити в сентябре 1994 года для восстановления власти отстраненного в результате военного переворота 1991 года президента Аристида» Тип контента – анализ изображений (3.) • 
• 
• 
• 
Первые фото организатора 9/11 Халида Мохамеда, снятые Красным Крестом в Гуантонамо, появились в Интернете в сентябре 2009 года Фото были сделаны для членов семьи, а не для публикации Фото сразу появились на веб сайтах и форумах, используемых Аль-­‐Каидой для пропаганды Демонстрация последствий публикации изображений Анализ источников и содержимого -­‐ матрица Политическая афилиация Левые Центристы Правые Экономическая афилиация Частные Государственные Юридическое окружение Открытое Ограничивающее Непонятное Автор Авторитетный Неавторитетный Аудитория Специалисты Освещение Объективное Сбор информации Источники прослеживаются Природа контента Мнение Факт непонятная Тип контента Печатный аудио Видео неясно Общая аудитория Одностороннее непонятное Источники скрыты Ключевые вопросы Афилиация • Какие ограничения присутствуют при освещении данной проблемы? • Какие национальные интересы вовлечены? • Кто может приобрести или потерять что либо в экономической области? Автор и аудитория • Какова квалификация автора в освещении данного вопроса? • Каким образом публикация апеллирует к целевой аудитории? • Пытается ли публикация информировать или убеждать? Содержимое • Откуда автор взял исходную информацию? Цитирует ли он уважаемые источники? • Представлен ли сбалансированный взгляд на ключевые аспекты проблемы? • Как формат представления материала влияет на контент? Выводы: •  Всегда задавайте вопросы об источниках и их содержимом •  Никогда не считайте, что текстовый, фотографический или даже мультимедийный контент верен и объективен •  Всегда ищите доказательства или признаки манипулирования информацией, которую Вы собрали 
Download