Анализ неструктурированных массивов данных на примере

advertisement
АНАЛИЗ
НЕСТРУКТУРИРОВАННЫХ
МАССИВОВ ДАННЫХ
АНАНЬЕВА А.Г., АРТАМОНОВ А.А.,
КШНЯКОВ Д.О., ТРЕТЬЯКОВ Е.С.
Кафедра №65 «Анализ конкурентных систем» НИЯУ «МИФИ»
МУЛЬТИАГЕНТНАЯ ИНФОРМАЦИОННОАНАЛИТИЧЕСКАЯ СИСТЕМА
• Система сбора данных и подготовки их для оценки
научно-технического потенциала зарубежных стран
• Позволяет осуществлять тематическую
информационную поддержку различных организаций в
полуавтоматическом режиме
• Итоговые материалы в виде объектных дайджестов,
семантических сетей, динамического досье
МИАС - 20 февраля 2015 г.
2
ФУНКЦИИ МИАС
• Агентный поиск информации в открытых источниках (настройка оператором)
• Эффективные инструменты визуализации информации (семантические сети, геокарты и
т.д.)
• Мониторинг различных внешних информационных ресурсов (автоматический режим)
• Автоматизированное выделение фактографических данных из информационных
ресурсов
• Анализ состояния и прогноз развития научной и промышленной базы по основным
отраслям знаний (привлекаются эксперты)
• Интеллектуальная обработка и анализ больших объёмов неструктурированной
информации
• Анализ документов с целью извлечения значимой прогнозно-аналитической информации
МИАС - 20 февраля 2015 г.
3
ИСТОЧНИКИ ДАННЫХ И ОБРАБОТКА
• Сайты организаций и лабораторий
• Патентные БД и национальные патентные бюро
• Базы знаний и публикаций, в т.ч. НИР и НИОКР (Web of
Science)
• Конкурсная документация по выбранным проектам
и/или технологиям
• Базы данных торговых марок и технологических
решений
• Информационные материалы по итогам конференций и
выставок
• Новости крупных коммерческих компаний,
госкорпораций и ТНК
• Периодические новостные издания
• Все источники проходят проверку на
достоверность и актуальность
публикуемых данных
• Данные проходят обработку в
соответствии с поставленной в каждом
конкретном случае задачей
• Для получения специализированного
научно-технического отчёта могут
использоваться различные виды
анализа включая статистику, SWOT- и
PEST-анализ, выделение фактографии
• Досье на объекты исследования (персона, организация,
технология, проект, событие)
МИАС - 20 февраля 2015 г.
4
Базы конкурсной
документации
Охват информационного поля
Ключевые слова и
кодификаторы
6
12
29
12
18
МИАС - 20 февраля 2015 г.
Web of Science
Неявные
закономерности через
связи между объектами
Открытые патентные
базы
23
Интуитивный поиск
5
Временные затраты
Поиск источников
мониторинга
2
18
20
Обработка
Настройка роботов
60
Скачивание
МИАС - 20 февраля 2015 г.
6
АЛГОРИТМИЗАЦИЯ РАБОТ
• Все источники проходят проверку в рейтинговой системе Alexa
• Используются кодификаторы и аббревиатуры международных систем классификации
и кодификации
• Словарь ключевых слов выбирается на основе уникального для исследуемого объекта
информационного кластера
• Используются нестандартные поисковые системы (DuckDuckGo, Startpage)
• Используются proxy-серверы для поиска данных на сайтах с ограниченным доступом
(Браузер Tor, анонимайзеры)
• Используется синтаксис расширенного поиска (поиск по домену, поиск по .pdf, .doc)
• Используются связи между организациями, проектами и персонами для поиска
релевантных данных, которые не попадают в стандартные поисковые наборы
МИАС - 20 февраля 2015 г.
7
ПРОВЕРКА ИСТОЧНИКОВ В ALEXA
Сайт
Рейтинг в
стране
http://www.dtic.mil/
http://www.darpa.mil/
http://www.northropgrumman.com/
http://www.dod.mil
http://gcn.com/
http://www.spacenews.com
http://www.spaceref.com
http://www.compositesworld.com/
51435
65147
97486
113349
128475
138342
204917
282188
19438
68148
32503
28621
68104
57451
81947
130584
http://www.homelandsecuritynewswire.com/
http://www.militaryaerospace.com/
http://www.spacewar.com/
http://www.ir.bbn.com
303146
308402
342293
373873
92537
158561
80906
187144
http://www.swri.org/
469563
114825
2638066
3123343
5231587
17569220
0
363323
0
0
http://www.agriculturedefensecoalition.org/
http://www.irconnect.com/
http://www.govbudgets.com
http://innoflight.com/
МИАС - 20 февраля 2015 г.
Глобальный
рейтинг
Рубрика
Пресса
Организация
Организация
Организация
Пресса
Пресса
Пресса
Пресса
Пресса
Пресса
Пресса
Пресса
Исследовательский
институт
Сообщество по с\х
Организация
Организация
8
ЭФФЕКТИВНОСТЬ РАБОТЫ
• Собрана база конкурсов DARPA с детализацией
• Часть найденных документов невозможно обнаружить при
прямом поиске (источник нерелевантен поисковой задаче)
• Найдены технологии и патенты по исследуемым тематикам
• Выявлены основные компании, участвующие в проектах
• Проведён анализ бюджетов и результатов по каждому из
проектов
9
МИАС - 20 февраля 2015 г.
ПРИМЕР ДАЙДЖЕСТА
Рубрикация: Новости компаний и новости в мире науки
МИАС - 20 февраля 2015 г.
10
СЕМАНТИЧЕСКИЕ СЕТИ И ИХ
ВИЗУАЛИЗАЦИЯ
МИАС - 20 февраля 2015 г.
11
МИАС - 20 февраля 2015 г.
Пример семантической сети – VTOL X-Plane
12
МИАС - 20 февраля 2015 г.
Пример семантической сети – T3
13
АЛГОРИТМ СОЗДАНИЯ
ТЕМАТИЧЕСКОГО ДАЙДЖЕСТА
МИАС - 20 февраля 2015 г.
14
Начало поиска ИМ
Алгоритм поисковых мероприятий при
создании тематического дайджеста
Ввод ключевых
слов и
тематических
областей
Нет
Формирование
поискового запроса в
WoS
Да
Полнота найденных
данных
Формирование отчёта
Нет
Поиск патентов
google.ru/patents
Да
Оценка результатов
Полнота найденных
данных
Да
Кластер аннотаций
Поиск полнотекстовых
публикаций
Кластер патентов
Конец поиска ИМ
Полнота найденных
данных
Да
Нет
Анализ документов на
выявление
кодификаторов
Формирование
поискового запроса по
ключевым словам в сети
Интернет
Наличие
кодификаторов
Кластер ИМ по
ключевым словам
Нет
Кластер полнотекстовых
публикаций
Кластер аннотаций
Отчёт
Нет
Полнота найденных
данных
Да
Формирование
поискового запроса в
сети Интернет по
кодификаторам
Кластер дополнительных
материалов с
использованием
кодификаторов
Алгоритм – работа с Web of Science
Начало поиска ИМ
Поиск полнотекстовых
публикаций
Ввод ключевых
слов и
тематических
областей
Кластер аннотаций
Кластер полнотекстовых
публикаций
Кластер аннотаций’
Формирование
поискового запроса в
WoS
Нет
Оценка результатов
Полнота найденных
данных
Да
МИАС - 20 февраля 2015 г.
16
Таблица аннотаций’ по тематическому
направлению: Active thermal protection
МИАС - 20 февраля 2015 г.
17
Алгоритм – формирование отчёта
Полнота найденных
данных
Нет
Да
Поиск патентов
google.ru/patents
Кластер патентов
Формирование отчёта
Полнота найденных
данных
Нет
Да
Формирование
поискового запроса по
ключевым словам в сети
Интернет
Нет
Отчёт
Кластер ИМ по
ключевым словам
Да
Конец поиска ИМ
Полнота найденных
данных
Нет
Анализ документов на
выявление
кодификаторов
Наличие
кодификаторов
Да
Формирование
поискового запроса в
сети Интернет по
кодификаторам
МИАС - 20 февраля 2015 г.
Кластер дополнительных
материалов с
использованием
кодификаторов
18
DARPA SYSTEM F6
МИАС - 20 февраля 2015 г.
19
ПОСТАНОВКА ЗАДАЧИ
• Найти среди открытых источников Интернет достоверную, актуальную, технически
значимую информацию о проекте, включая данные:
•
•
•
•
•
•
•
Описание проекта
Бюджет и сроки реализации
Результаты
Контракты и участники
Публикации
Патенты и технологии
Аналоги
• Произвести оценку источников информации по системе Alexa
• Проверить релевантность информации по ключевым словам, организациям, персонам
• Произвести систематизацию информации
• Оценить охват информационного поля
МИАС - 20 февраля 2015 г.
20
ОПИСАНИЕ ПРОЕКТА
• Цель System F6 (Future, Fast, Flexible,
Fractionated, Free-Flying) – демонстрация
возможностей кластерной спутниковой
архитектуры, в которой функциональность
аналогичная традиционным КА достигается за
счет объединения модулей, соединенных
беспроводной связью и способных делиться
своими ресурсами между собой
• Первые контракты – февраль 2008 г.*
• * Данные FedBizOpps
МИАС - 20 февраля 2015 г.
21
ОСНОВНЫЕ СВЕДЕНИЯ
• Менеджеры программы: с 2007 года Пол Еременко (Paul Eremenko), в 2008 году - Оуен
Браун (Owen Brown), с 2011 года - Джон Лозински (John Losinski)
• В основе программы System F6 лежит разработка стандартов открытого интерфейса
• Программа должна была завершиться демонстрацией кластерной системы спутников на
орбите в 2015 году
• Задачи демонстрации:
• Полуавтономное длительное обслуживание кластера и кластерной сети, добавление и удаление
модулей КА в/из кластера и сети кластеров.
• Безопасный обмен ресурсами внутри сети в режиме реального времени во время полезных нагрузок
или нахождение пользователей в нескольких доменах безопасности
• Перенастройка кластера при сохранении критически важных функций безопасности в условиях
деградации сети или сбое в работе компонентов
• Возможность осуществить разброс и сбор кластера на случай манёвра по уклонению от космического
мусора
МИАС - 20 февраля 2015 г.
22
БЮДЖЕТ SYSTEM F6, МЛН. ДОЛЛАРОВ
• По официальным данным, общий бюджет проекта с 2006 года по 2014 год составил
292,229 млн долл., в 2014
году финансирование составило 3 млн долл., планы на 2015 не предусматривают финансирования
2006
2007
2008
2009
2010
2011
2012
2013
2014
2015
3
0
79
44.675
21.095
9.235 12.224
МИАС - 20 февраля 2015 г.
35
40
48
23
УЧАСТНИКИ ПРОГРАММЫ С 2008 ПО 2013 ГГ.
1. Orbital Sciences Corp
16. University of Southern California
2. Boeing
17. University of Virginia
3. Lockheed Martin Space Systems
18. Referentia Systems Inc.
4. Lockheed Martin Integrated and Global Systems
19. Southwest Research Institute
5. Aurora Flight Sciences
20. Space Micro Inc.
6. Colbaugh & Heinsheimer Consulting
21. The University of Pittsburgh
7. Vanderbilt University
22. mZeal Communications Inc.
8. Northrop Grumman Space and Mission Systems
23. Raytheon BBN Technologies Corp.
9. Alliant Tech Systems
24. Carnegie Mellon University
10. Juniper Networks
25. Stevens Institute of Technology
11. L3 Communications
26. Aeronix Inc.
12. BAE Systems
27. Palo Alto Research Center
13. Cornell University
28. QinetiQ North America
14. Jet Propulsion Laboratory
29. Emergent Space Technologies Inc
15. Massachusetts Institute of Technology
30. Innoflight, Inc.
МИАС - 20 февраля 2015 г.
24
ДОСТИГНУТЫЕ РЕЗУЛЬТАТЫ ЗА ПОСЛЕДНИЕ ГОДЫ
• 2013:
• Завершён первоначальный вариант программного обеспечения для разработчиков (FDK/MDK) и
продемонстрирована функциональность в представленных орбитальных условиях
• Завершён начальный релиз FDK
• Проведён предварительный Design Review (PDR) для F6TP
• Проведён критический Design Review (CDR) для F6TP
• Завершена FDK документация для беспроводной межмодульной связи и информационного
обеспечения архитектурной платформы
• 2014 (планы):
• Завершить разработку инженерной части технологического пакета F6TP
• Создать лётную единицу постоянного широкополосного наземного терминала подключения для
фракционированных кластеров
• Завершить полнофункциональную, хорошо документированную архитектуру и дизайн инструмента
для адаптации космических систем
МИАС - 20 февраля 2015 г.
25
ПРОЕКТ СЕЙЧАС
• 17 мая 2013 года директор офиса ТТО DARPA Бред Тусли (Brad Tousley) объявил о том,
что программа System F6 досрочно закрыта в связи с рядом факторов, среди которых
указал, в частности, отсутствие организации, которая могла бы объединить
технологические усилия по созданию спутниковой системы
• Переориентация: DARPA Airborne Launch Assist Space Access (ALASA) – проект по
созданию ракеты, способной менее чем за 1 млн долл. вывести спутник массой 100
фунтов на НОО
• Переориентация: DARPA Phoenix, проект, целью которого является модификация
разрушенных спутников для создания новых активов на орбите
• Дополнительная космическая программа DARPA - SeeMe (Space Enabled Effects for
Military Engagements), предназначенная для обеспечения в режиме реального времени
тактической разведки, с использованием малых спутников на орбите
МИАС - 20 февраля 2015 г.
26
АНАЛИЗ КОНТРАКТОВ DARPA SYSTEM F6
• 54 конкурса объявлено, 26 – реализовано в виде контрактов
• В рамках одного конкурса могли проходить несколько тендеров, в т.ч. в
DARPA-BAA-11-01 было объявлено 20 тендеров
• Коды NAICS:
• 541712 – Research and Development in the Physical, Engineering, and Life Sciences
(except Biotechnology) – 20 конкурсов
• 334419 – Other Electronic Component Manufacturing – 1 конкурс, BAE Systems
• 517410 – Satellite Telecommunications – 1 конкурс, Vanderbilt University
• Проводился поиск целевой информации по уникальному словарю проекта и
конкурсным кодам
МИАС - 20 февраля 2015 г.
27
ТЕХНОЛОГИИ И РАЗРАБОТКИ
• Всего обнаружено: 19
• Innoflight Inc: архитектура 32-разрядного двухъядерного процессора на базе ARM CortexA9, который может работать в режимах AMP, SMP с поддержкой Linux, а также
аппаратный криптографический ускоритель. Системы Space Ethernet Switch, Payload
Interface Controller (PIC) и Flight article modular payload interface electronics (PIE)
• Aurora Flight Sciences Corporation: Scalable Cluster Flight Algorithm
• Referentia Systems Inc.: система LiveAction, обеспечивающая защиту от кибератак
высокого уровня
• Southwest Research Institute: радиосистема в К-диапазоне, включая постоянно
действующий канал связи с помощью протоколов Time Division Multiple Access (TDMA),
протокол беспроводной межмодульной системы связи F6WICS, включающий уровень
управления передачей данных, интегрируемый с сетевыми протоколами более высокого
уровня
28
МИАС - 20 февраля 2015 г.
ТЕХНОЛОГИИ И РАЗРАБОТКИ
• Space Micro Inc.: блок интерфейса попутной полезной нагрузки (HPIU),
модификацию IPC-5000 (Image Processing Computer), Proton 400K SBC в
комплекте с периферийным устройством, включая цифровую плату ввода/вывода
и MIL-STD-1553 I/F борт
• Vanderbilt University: вычислительная платформы DREMS. Платформа использует
программное обеспечение стандарта ARINC 653 для планирования и
пространственно-временной изоляции приложений
• Stevens Institute of Technology: концепция Модульного пространства (Modular
Space Initiative), которая будет основана на теории Независимой модульной
структуры (Emergent Modularity) с использованием методологии транзакций затрат
в экономике и теории сетей, а также на основе некоторых новых разработок в
эволюционной биологии
МИАС - 20 февраля 2015 г.
29
ПАТЕНТЫ
• US 6633745 B1 от 14 октября 2003 г. – Satellite cluster comprising a plurality of modular
satellites (Спутниковый кластер, включающий в себя множество модульных спутников)
• US 20040192197 A1 от 30 сентября 2004 г. – Geostationary satellite system with satellite
clusters having intra-cluster local area networks and inter-cluster wide area network
(Геостационарная спутниковая система со спутниковыми кластерами, имеющими внутри
кластера локальные сети и межкластерные каналы связи)
• US 6847867 B1 от 25 января 2005 г. - Satellite communication with low probability of
detection (Спутниковая связь с малой вероятностью обнаружения)
• US 20040093132 A1 от 13 мая 2004 г. – Space-based integrated multi-mission broadband
architecture (Интегрированная космическая многоцелевая широкополосная архитектура)
• US 8401466 B2 от 19 марта 2013 г. – Scalable high speed MIMO-satellite communication
system (Масштабируемая высокоскоростная система спутниковой связи MIMO)
МИАС - 20 февраля 2015 г.
30
ПУБЛИКАЦИИ
• Всего выявлено – 39 (1998 – 2014)
• Организации: MIT Space Systems Laboratory, US Air Force Academy, Booz
Allen Hamilton, Lockheed Martin Advanced Technology Laboratories, Aurora
Flight Science, Boeing Company, Georgia Institute of Technology, The French
Aerospace Lab, Value-Driven Design Institute, Raytheon BBN Technologies,
Stevens Institute of Technology, Jet Propulsion Laboratory, European Space
Agency
• Наиболее часто публикующиеся авторы по тематике: Owen Brown, Paul
Eremenko, Roshanak Nilchiani, Daniel E. Hastings, Tatiana Kichkaylo, Babak
Heydari, Kia Dalili, Abhishek Dubey, William Otte, Gabor Karsai
МИАС - 20 февраля 2015 г.
31
СПАСИБО ЗА ВНИМАНИЕ!
 Viam supervadet vadens – Дорогу осилит идущий
 Путь у каждого свой – Будда
 Верный алгоритм поискового пути приведёт к
наименьшим затратам в дороге – команда
МИАС
МИАС - 20 февраля 2015 г.
32
КОНТАКТНЫЕ ДАННЫЕ
• Кшняков Дмитрий Олегович
• Моб.тел.: +7 (916) 604-24-49
• e-mail: mephist1993@gmail.com
МИАС - 20 февраля 2015 г.
33
Download