Журналистика данных для начинающих: где искать и как извлекать данные
Журналистикой данных заниматься непросто, если данных у вас нет. Нет данных – нет и истории. О том, как и где искать данные и как их извлекать, рассказал на хакатоне в РИА Новости Иван Бегтин, директор некоммерческого партнерства «Информационная культура». Вот короткий обзор.
Когда журналисты начинают работать с открытыми данными, у них есть три варианта:
- Есть данные, но нет понимания, что с ними делать;
- Есть идея для истории, но нет данных, чтобы ее доказать;
- Нет ни данных, ни идеи, но сдавать все надо завтра.
В идеальном случае у вас есть четкое понимание того, о чем вы хотите рассказать, и все необходимые данные, а также время для работы с ними и технологии. Это означает, что вы умеете программировать или общаться с программистами на их языке.
Полную запись выступления Ивана Бегтина можно посмотреть здесь:
Как запустить проект с большими данными
При работе с большими массивами данных готовиться нужно заранее. Важны следующие моменты:
- Данные: нужно знать, где из искать и что с ними делать.
- Понимание основных API (application programming interfaces) и доступ к различным наборам данных, которые смогут увидеть важные взаимосвязи,
- Скрейпинг: извлечение данных с сайтов при отсутствии доступа к структурированным данным.
- Основные инструменты для обработки данных.
Excel, кстати, вам очень пригодится. Это базовый инструмент любого аналитика, работающего с данными.
Как можно работать с данными:
- Берете существующую базу данных.
- Используете API, которые другие создали до вас.
- Создаете собственные API под конкретные задачи. Так работают известные издания, такие как The Guardian и New York Times. Это важный шаг при освоении журналистики данных, но надо понимать, что на него могут уйти недели и месяцы работы.
Ищем наборы данных
Поиск подходящего набора данных, содержащего достоверные и удобные для обработки цифры, может быть гораздо сложнее, чем кажется.
Где можно искать наборы данных:
- Спросите других:
- Quora.com
- Stack Overflow
- Рассылка Open Knowledge Foundation и группы в Facebook
- Каталоги:
- Thedatahub.org
- Hubofdata.ru
- Datacatalogs.org
Базы данных в интернете:
- Международные базы данных:
- The Data Hub
- Data.worldbank.org позволяет сравнивать параметры развития нескольких стран.
- Data.un.org
- Национальные базы данных:
- Hubofdata.ru
- Data.gov (США)
- Data.gov.uk (Великобритания)
Скрейпинг (Web/ screen scraping) позволяет извлекать неструктурированные данные со страниц, из документов и файлов и переводить и в базы данных. Вот в этой книге подробно изложены различные варианты извлечения данных при помощи скрейпинга, начиная от простых плагинов для браузера и заканчивая написанием собственного кода (книга на английском).
Wikipedia как полезный источник данных
Невероятно, но факт: Википедия позволяет экспортировать данные в машиночитаемом формате. Можно использовать следующие ресурсы:
- http://ru.wikipedia.org/w/api.php
- Wikidata.orgFreebase.com, этот сервис принадлежит компании Google
- Dbpedia.org – один из наиболее гибких сервисов, но непрост в использовании для новичков.
Инструменты для извлечения данных:
- Программирование: Python, lxml, Beautiful Soup или любой другой язык программирования.
- Scraperwiki, Abbyy PDFTransformer и Abbyy Finereader.
Записала Наталья Карбасова