<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>скрейпинг &#8211; Russian</title>
	<atom:link href="https://onmedia.dw.com/russian/?feed=rss2&#038;tag=%d1%81%d0%ba%d1%80%d0%b5%d0%b9%d0%bf%d0%b8%d0%bd%d0%b3" rel="self" type="application/rss+xml" />
	<link>https://onmedia.dw.com/russian</link>
	<description>Just another Deutsche Welle Blogs site</description>
	<lastBuildDate>Mon, 03 Dec 2018 13:55:17 +0000</lastBuildDate>
	<language>ru-RU</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	
	<item>
		<title>Журналистика данных для начинающих: где искать и как извлекать данные</title>
		<link>https://onmedia.dw.com/russian/?p=6141</link>
		<pubDate>Mon, 09 Dec 2013 22:44:19 +0000</pubDate>
		<dc:creator><![CDATA[karbasovan]]></dc:creator>
				<category><![CDATA[Журналистика данных]]></category>
		<category><![CDATA[data set]]></category>
		<category><![CDATA[большие данные]]></category>
		<category><![CDATA[извлечение данных]]></category>
		<category><![CDATA[скрейпинг]]></category>

		<guid isPermaLink="false">http://onmedia.dw.com/russian/?p=6141</guid>
		<description><![CDATA[ [&#8230;]]]></description>
				<content:encoded><![CDATA[<div id="attachment_6143" aria-labelledby="figcaption_attachment_6143" class="wp-caption aligncenter" style="width: 581px"><a href="http://onmedia.dw.com/russian/files/Ivan-Begtin.-Photo-by-RIA-Novosti.jpg" rel="lightbox[6141]"><img class=" wp-image-6143   " alt="Иван Бегтин. Фото: РИА Новости" src="http://onmedia.dw.com/russian/files/Ivan-Begtin.-Photo-by-RIA-Novosti-1024x679.jpg" width="581" height="385" srcset="https://onmedia.dw.com/russian/files/Ivan-Begtin.-Photo-by-RIA-Novosti-1024x679.jpg 1024w, https://onmedia.dw.com/russian/files/Ivan-Begtin.-Photo-by-RIA-Novosti-300x199.jpg 300w" sizes="(max-width: 581px) 100vw, 581px" /></a><p class="wp-caption-text">Иван Бегтин. Фото: РИА Новости</p></div>
<p>Журналистикой данных заниматься непросто, если данных у вас нет. Нет данных – нет и истории. О том, как и где искать данные и как их извлекать, рассказал на <a href="http://ria.ru/tv_society/20131112/976303635.html">хакатоне</a> в РИА Новости <a href="https://twitter.com/ibegtin">Иван Бегтин</a>, директор некоммерческого партнерства <a href="http://infoculture.ru/">«Информационная культура»</a>. Вот короткий обзор.</p>
<p>Когда журналисты начинают работать с открытыми данными, у них есть три варианта:</p>
<ol>
<li>Есть данные, но нет понимания, что с ними делать;</li>
<li>Есть идея для истории, но нет данных, чтобы ее доказать;</li>
<li>Нет ни данных, ни идеи, но сдавать все надо завтра.</li>
</ol>
<p>В идеальном случае у вас есть четкое понимание того, о чем вы хотите рассказать, и все необходимые данные, а также время для работы с ними и технологии. Это означает, что вы умеете программировать или общаться с программистами на их языке.</p>
<p>Полную запись выступления Ивана Бегтина можно посмотреть здесь:</p>
<p><iframe frameborder="0" height="315" src="//www.youtube.com/embed/dbW_EJdQz2A" width="560"></iframe></p>
<p>&nbsp;</p>
<p><b><span id="more-6141"></span>Как запустить проект с большими данными</b></p>
<p>При работе с большими массивами данных готовиться нужно заранее. Важны следующие моменты:</p>
<ol>
<li>Данные: нужно знать, где из искать и что с ними делать.</li>
<li>Понимание основных API (application programming interfaces) и доступ к различным наборам данных, которые смогут увидеть важные взаимосвязи,</li>
<li>Скрейпинг: извлечение данных с сайтов при отсутствии доступа к структурированным данным.</li>
<li>Основные инструменты для обработки данных.</li>
</ol>
<p>Excel, кстати, вам очень пригодится. Это базовый инструмент любого аналитика, работающего с данными.</p>
<p><strong>Как можно работать с данными: </strong></p>
<ol>
<li>Берете существующую базу данных.</li>
<li>Используете API, которые другие создали до вас.</li>
<li>Создаете собственные API под конкретные задачи. Так работают известные издания, такие как The Guardian и New York Times. Это важный шаг при освоении журналистики данных, но надо понимать, что на него могут уйти недели и месяцы работы.</li>
</ol>
<p><b>Ищем наборы данных</b></p>
<p>Поиск подходящего набора данных, содержащего достоверные и удобные для обработки цифры, может быть гораздо сложнее, чем кажется.</p>
<p>Где можно искать наборы данных:</p>
<ol>
<li>Спросите других:
<ul>
<li>Quora.com</li>
<li>Stack Overflow</li>
<li>Рассылка Open Knowledge Foundation и группы в Facebook</li>
</ul>
</li>
<li>Каталоги:
<ul>
<li>Thedatahub.org</li>
<li>Hubofdata.ru</li>
<li>Datacatalogs.org</li>
</ul>
</li>
</ol>
<p><b>Базы данных в интернете:</b></p>
<ol>
<li>Международные базы данных:
<ul>
<li>The Data Hub</li>
<li>Data.worldbank.org позволяет сравнивать параметры развития нескольких стран.</li>
<li>Data.un.org</li>
</ul>
</li>
<li>Национальные базы данных:
<ul>
<li>Hubofdata.ru</li>
<li>Data.gov (США)</li>
<li>Data.gov.uk (Великобритания)</li>
</ul>
</li>
</ol>
<p><b>Скрейпинг (Web/ screen scraping) </b>позволяет извлекать неструктурированные данные со страниц, из документов и файлов и переводить и в базы данных. <a href="https://leanpub.com/scrapingforjournalists">Вот в этой книге</a> подробно изложены различные варианты извлечения данных при помощи скрейпинга, начиная от простых плагинов для браузера и заканчивая написанием собственного кода (книга на английском).</p>
<p><b>Wikipedia как полезный источник данных</b></p>
<p>Невероятно, но факт: Википедия позволяет экспортировать данные в  машиночитаемом формате. Можно использовать следующие ресурсы:</p>
<ol>
<li><a href="http://ru.wikipedia.org/w/api.php">http://ru.wikipedia.org/w/api.php</a></li>
<li><a href="http://www.wikidata.org/wiki/Wikidata:Main_Page">Wikidata.org</a><a href="http://www.freebase.com/">Freebase.com</a>, этот сервис принадлежит компании Google</li>
<li><a href="http://dbpedia.org/About">Dbpedia.org</a> – один из наиболее гибких сервисов, но непрост в использовании для новичков.</li>
</ol>
<p><b>Инструменты для извлечения данных:</b></p>
<ol>
<li>Программирование:  Python, lxml, Beautiful Soup или любой другой язык программирования.</li>
<li><a href="https://scraperwiki.com/">Scraperwiki</a>, <a href="http://pdftransformer.abbyy.com/">Abbyy PDFTransformer</a> и <a href="http://finereader.abbyy.com/">Abbyy Finereader</a>.</li>
</ol>
<p>&nbsp;</p>
<p>Записала <a href="http://mediakar.org/about/" target="_blank">Наталья Карбасова</a></p>
]]></content:encoded>
			</item>
	</channel>
</rss>
