More DW Blogs DW.COM

onMedia

Качественная журналистика в цифровую эпоху

Журналисты раскрыли уклонения от налогов с помощью анализа данных

В прошлом году Международный консорциум журналистов-расследователей  в Вашингтоне получил по почте от неизвестного огромный объем данных, состоящий из 2,5 миллионов документов. В них содержались сведения о всемирной сети по уклонению от налогов. В документах было указано 130 000 имен людей из 170 стран, подозреваемых в мошенничестве. Среди них были олигархи, торговцы оружием и нелегальные финансовые инвесторы. Кроме того, в файлах были сохранены более двух миллионов электронных писем и список 122 000 компаний, зарегистрированных в налоговых гаванях.

Эта посылка положила начало беспрецедентному журналистскому расследованию, в котором приняли участие СМИ из 46 стран. В Германии к расследованию подключилась известная газета Süddeutsche Zeitung. В этом посте редактор Бастиан Бринкман (Bastian Brinkmann) рассказывает о том, как специалисты по работе с данными помогли проанализировать огромный объем информации.

Все началось с “аналоговой” посылки. По иронии судьбы, диск, содержащий 260 гигабайт секретных данных, что ранво примерно 500 000 печатных экземпляров Библии, пришел по почте. Такой объем данных нельзя просмотреть и за всю жизнь.

Поэтому перед консорциумом журналистов-расследоваталей стояла непростая задача. Как можно провести анализ такого огромного объема данных? И как конвертировать все данные – картинки, зашифрованные данные, электронные письма – в формат, который будет поддаваться анализу? Поэтому в первую очередь за дело взялись специалисты по работе с данными.

Как проводился анализ данных

Одной из задач, стоявших перед специалистами, было выявления дублированной информации. Многие документы были отсканированы, с ними эксперты работали при помощи программ оптического распознавания текста.

В итоге данные были проиндексированы, чтобы поисковые системы могли находить нужные фрагменты по ключевым словам.  Это было огромным успехом! Например, в программе dtSearch можно прочесывать загруженный список имен, даже если этот массив данных занимает 260 гигабайт. Другая программа, Nuix, может распознавать документы, в которых используется немецкий язык. Программа также может обнаруживать связи между различными данными, например, между прикрепленным файлом в фрмате pdf и электронной перепиской между несколькими людьми за определенный период.

Программа Nuix также позволяет просматривать реестр компаний и выяснять, например, кто является настоящим владельцем определенного траста, кто является контактным лицом, были ли у этого человека судимости, на какой адрес высылались счета. Так можно увидеть скрытые ранее взаимосвязи.

Например, в итоге получилась вот такая относительно простая визуализация, на которую было потрачено немало усилий.

Результаты анализа данных

В общей сложности над полученными данными работали 86 журналистов из 46 стран. В Германии к работе подключилисась газета Süddeutsche Zeitung и телерадиокомпания NDR, в США – газета Washington Post, во Франции – Le Monde, в Великобритании – Guardian.

Как выяснилось в ходе анализа, в документах содержались данные о более чем 122 000 подставных компаний. Были раскрыты имена 12 000 посредников, 130 000 людей, занимающихся уклоненем от налогов, были получены их адреса в 170 странах. За любой из этих цифр стоит потенциальная история для журналистского материала. А работа над этим массивом данным, по сути, только начинается.

 

Оригинал в Süddeutsche Zeitung:  Wie Computer-Forensik das Offshore-System entschlüsselte

Статья на сайте Консорциума журналистов-расследователей: Secrecy for sale: Inside the global offshore money maze

 

Date

Апрель 24, 2013

Share