Журналисты раскрыли уклонения от налогов с помощью анализа данных
В прошлом году Международный консорциум журналистов-расследователей в Вашингтоне получил по почте от неизвестного огромный объем данных, состоящий из 2,5 миллионов документов. В них содержались сведения о всемирной сети по уклонению от налогов. В документах было указано 130 000 имен людей из 170 стран, подозреваемых в мошенничестве. Среди них были олигархи, торговцы оружием и нелегальные финансовые инвесторы. Кроме того, в файлах были сохранены более двух миллионов электронных писем и список 122 000 компаний, зарегистрированных в налоговых гаванях.
Эта посылка положила начало беспрецедентному журналистскому расследованию, в котором приняли участие СМИ из 46 стран. В Германии к расследованию подключилась известная газета Süddeutsche Zeitung. В этом посте редактор Бастиан Бринкман (Bastian Brinkmann) рассказывает о том, как специалисты по работе с данными помогли проанализировать огромный объем информации.
Все началось с “аналоговой” посылки. По иронии судьбы, диск, содержащий 260 гигабайт секретных данных, что ранво примерно 500 000 печатных экземпляров Библии, пришел по почте. Такой объем данных нельзя просмотреть и за всю жизнь.
Поэтому перед консорциумом журналистов-расследоваталей стояла непростая задача. Как можно провести анализ такого огромного объема данных? И как конвертировать все данные – картинки, зашифрованные данные, электронные письма – в формат, который будет поддаваться анализу? Поэтому в первую очередь за дело взялись специалисты по работе с данными.
Как проводился анализ данных
Одной из задач, стоявших перед специалистами, было выявления дублированной информации. Многие документы были отсканированы, с ними эксперты работали при помощи программ оптического распознавания текста.
В итоге данные были проиндексированы, чтобы поисковые системы могли находить нужные фрагменты по ключевым словам. Это было огромным успехом! Например, в программе dtSearch можно прочесывать загруженный список имен, даже если этот массив данных занимает 260 гигабайт. Другая программа, Nuix, может распознавать документы, в которых используется немецкий язык. Программа также может обнаруживать связи между различными данными, например, между прикрепленным файлом в фрмате pdf и электронной перепиской между несколькими людьми за определенный период.
Программа Nuix также позволяет просматривать реестр компаний и выяснять, например, кто является настоящим владельцем определенного траста, кто является контактным лицом, были ли у этого человека судимости, на какой адрес высылались счета. Так можно увидеть скрытые ранее взаимосвязи.
Например, в итоге получилась вот такая относительно простая визуализация, на которую было потрачено немало усилий.
Результаты анализа данных
В общей сложности над полученными данными работали 86 журналистов из 46 стран. В Германии к работе подключилисась газета Süddeutsche Zeitung и телерадиокомпания NDR, в США – газета Washington Post, во Франции – Le Monde, в Великобритании – Guardian.
Как выяснилось в ходе анализа, в документах содержались данные о более чем 122 000 подставных компаний. Были раскрыты имена 12 000 посредников, 130 000 людей, занимающихся уклоненем от налогов, были получены их адреса в 170 странах. За любой из этих цифр стоит потенциальная история для журналистского материала. А работа над этим массивом данным, по сути, только начинается.
Оригинал в Süddeutsche Zeitung: Wie Computer-Forensik das Offshore-System entschlüsselte
Статья на сайте Консорциума журналистов-расследователей: Secrecy for sale: Inside the global offshore money maze