Журналистика данных для начинающих: где искать и как извлекать данные

karbasovan — Mon, 09 Dec 2013 22:44:19 +0000

Иван Бегтин. Фото: РИА Новости

Журналистикой данных заниматься непросто, если данных у вас нет. Нет данных – нет и истории. О том, как и где искать данные и как их извлекать, рассказал на хакатоне в РИА Новости Иван Бегтин, директор некоммерческого партнерства «Информационная культура». Вот короткий обзор.

Когда журналисты начинают работать с открытыми данными, у них есть три варианта:

Есть данные, но нет понимания, что с ними делать;
Есть идея для истории, но нет данных, чтобы ее доказать;
Нет ни данных, ни идеи, но сдавать все надо завтра.

В идеальном случае у вас есть четкое понимание того, о чем вы хотите рассказать, и все необходимые данные, а также время для работы с ними и технологии. Это означает, что вы умеете программировать или общаться с программистами на их языке.

Полную запись выступления Ивана Бегтина можно посмотреть здесь:

Как запустить проект с большими данными

При работе с большими массивами данных готовиться нужно заранее. Важны следующие моменты:

Данные: нужно знать, где из искать и что с ними делать.
Понимание основных API (application programming interfaces) и доступ к различным наборам данных, которые смогут увидеть важные взаимосвязи,
Скрейпинг: извлечение данных с сайтов при отсутствии доступа к структурированным данным.
Основные инструменты для обработки данных.

Excel, кстати, вам очень пригодится. Это базовый инструмент любого аналитика, работающего с данными.

Как можно работать с данными:

Берете существующую базу данных.
Используете API, которые другие создали до вас.
Создаете собственные API под конкретные задачи. Так работают известные издания, такие как The Guardian и New York Times. Это важный шаг при освоении журналистики данных, но надо понимать, что на него могут уйти недели и месяцы работы.

Ищем наборы данных

Поиск подходящего набора данных, содержащего достоверные и удобные для обработки цифры, может быть гораздо сложнее, чем кажется.

Где можно искать наборы данных:

Спросите других:
- Quora.com
- Stack Overflow
- Рассылка Open Knowledge Foundation и группы в Facebook
Каталоги:
- Thedatahub.org
- Hubofdata.ru
- Datacatalogs.org

Базы данных в интернете:

Международные базы данных:
- The Data Hub
- Data.worldbank.org позволяет сравнивать параметры развития нескольких стран.
- Data.un.org
Национальные базы данных:
- Hubofdata.ru
- Data.gov (США)
- Data.gov.uk (Великобритания)

Скрейпинг (Web/ screen scraping) позволяет извлекать неструктурированные данные со страниц, из документов и файлов и переводить и в базы данных. Вот в этой книге подробно изложены различные варианты извлечения данных при помощи скрейпинга, начиная от простых плагинов для браузера и заканчивая написанием собственного кода (книга на английском).

Wikipedia как полезный источник данных

Невероятно, но факт: Википедия позволяет экспортировать данные в машиночитаемом формате. Можно использовать следующие ресурсы:

http://ru.wikipedia.org/w/api.php
Wikidata.org Freebase.com, этот сервис принадлежит компании Google
Dbpedia.org – один из наиболее гибких сервисов, но непрост в использовании для новичков.

Инструменты для извлечения данных:

Программирование: Python, lxml, Beautiful Soup или любой другой язык программирования.
Scraperwiki, Abbyy PDFTransformer и Abbyy Finereader.

Записала Наталья Карбасова

скрейпинг – Russian

Журналистика данных для начинающих: где искать и как извлекать данные