Свежий номер журнала Science обращается к теме хранения и обработки больших объемов экспериментальных данных. Проблемы в этой области настоль остры и серьезны, что журнал посвящает им 38-страничную подборку материалов, затрагивающих самые разные науки от астрономии до нейрофизиологии, от генетики до физики элементарных частиц.
Многие эксперименты и наблюдения порождают на компьютерных носителях гигабайты и терабайты данных. А когда выйдет на проектную мощность Большой адронный коллайдер, он будет генерировать несколько петабайт (1015) данных в год. На основе этой информации готовятся научные публикации, но собственно данные в них, как правило, не включаются. Поэтому ученым, читающим статью, приходится либо верить коллегам на слово, либо запрашивать у них данные в случае сомнений или для проверки собственных гипотез. Согласно опросу ученых, приведенному в журнале Science, такие запросы делают почти 80% исследователей. Если данные требуются вскоре после публикации, то проблем обычно не возникает. Но чем больше проходит времени, тем труднее бывает получить первичные данные. А нередко они просто оказываются утраченными.
Подборку материалов в Science открывает драматичная история поиска и спасения данных, которые были собраны в 1970-х годах на международном коллайдере DESY ("Дэзи"). За прошедшее с тех пор время теоретики значительно продвинулись вперед, и потребовался новый анализ данных, полученных в прошлом на ускорителе, энергия которого была ниже, чем у современных установок. Но проект был закрыт в 1986 году и никто не финансировал работы по архивированию полученных данных. Они оказались разбросаны по всему миру, где работали группы, принимавшие тогда участие в исследования. Потребовалось два года работы, чтобы собрать данные, найти устройства способные работать с давно устаревшими типами магнитных лент и картриджей. Еще год ушел на воссоздание программ, которые могли бы на современных компьютерах читать файлы, записанных в уже неупотребляемых ныне форматах. Один критический массив калибровочных данных нашелся только в виде распечатки и пришлось целый месяц вводить данные вручную. А многие данные восстановить так и не удалось. Подобные работы называют компьютерной археологией.
На фоне подобных историй очень тревожно выглядят результаты все того же опроса ученых, опубликованного в журнале Science. Половина исследователей сказала, что все собранные данные хранятся у них в лаборатории. Еще почти у 40% данные хранятся на университетских серверах. При этом 80% опрошенных сказали, что у их исследовательской группы нет средств для организации полноценного архивирования научных данных. Это значит, что любая административная реорганизация лаборатории или университета может привести к утрате первичной научной информации. И тогда выполненные в прошлом исследования станут совершенно непроверяемыми. "Известна история о том, как археологи готовили кофе на костре из бревен, найденных среди руин, – цитирует Science одного из респондентов. – Но если мы не сможем создать среду для аккуратного архивирования и размещения в публичном доступе всех данных, которые мы добываем у природы, то мы фактически повторим ошибку тех археологов".
* * *
Из других интересных публикаций хочется выделить заметку в журнале New Scientist, которая касается назревающего кризиса, связанного с нехваткой на рынке редкоземельных элементов. К ним относят иттрий, скандий, все элементы из ряда лантаноидов, а также некоторые другие. Широкая публика редко о них слышит, но в высокотехнологичном производстве спрос на них постоянно растет. Иттрий нужен для сверхпроводящих кабелей, рений – для реактивных двигателей и катализаторов в нефтепереработке. В последнее время спрос на редкоземельные элементы постоянно растет, а вот предложение, напротив, сокращается.
И дело тут оказывается, вовсе не в том, что этих элементов так уж мало в природе. Название "редкоземельные" вводит в заблуждение, подчеркивает журнал New Scientist. Они, конечно, встречаются в виде небольшой примеси в обычных рудных месторождениях, но их количества вполне достаточно для нужд промышленности. Проблема, однако, в том, что почти 95% редкоземельных элементов сейчас поставляется на рынок из Китая, что позволяет ему манипулировать ценами. Тем более, что с ростом производства Китай сам начинает потреблять все больше добываемых редкоземельных элементов.
Так что другим странам не обойтись без развития собственной их добычи. В российском контексте тут, конечно, вспоминается уникальное месторождение рения, в кратере вулкана Кудрявый на курильском острове Итуруп. Оно открыто вулканологами почти 20 лет назад, но до сих пор не разрабатывается из-за проволочек с финансированием.
Многие эксперименты и наблюдения порождают на компьютерных носителях гигабайты и терабайты данных. А когда выйдет на проектную мощность Большой адронный коллайдер, он будет генерировать несколько петабайт (1015) данных в год. На основе этой информации готовятся научные публикации, но собственно данные в них, как правило, не включаются. Поэтому ученым, читающим статью, приходится либо верить коллегам на слово, либо запрашивать у них данные в случае сомнений или для проверки собственных гипотез. Согласно опросу ученых, приведенному в журнале Science, такие запросы делают почти 80% исследователей. Если данные требуются вскоре после публикации, то проблем обычно не возникает. Но чем больше проходит времени, тем труднее бывает получить первичные данные. А нередко они просто оказываются утраченными.
Подборку материалов в Science открывает драматичная история поиска и спасения данных, которые были собраны в 1970-х годах на международном коллайдере DESY ("Дэзи"). За прошедшее с тех пор время теоретики значительно продвинулись вперед, и потребовался новый анализ данных, полученных в прошлом на ускорителе, энергия которого была ниже, чем у современных установок. Но проект был закрыт в 1986 году и никто не финансировал работы по архивированию полученных данных. Они оказались разбросаны по всему миру, где работали группы, принимавшие тогда участие в исследования. Потребовалось два года работы, чтобы собрать данные, найти устройства способные работать с давно устаревшими типами магнитных лент и картриджей. Еще год ушел на воссоздание программ, которые могли бы на современных компьютерах читать файлы, записанных в уже неупотребляемых ныне форматах. Один критический массив калибровочных данных нашелся только в виде распечатки и пришлось целый месяц вводить данные вручную. А многие данные восстановить так и не удалось. Подобные работы называют компьютерной археологией.
На фоне подобных историй очень тревожно выглядят результаты все того же опроса ученых, опубликованного в журнале Science. Половина исследователей сказала, что все собранные данные хранятся у них в лаборатории. Еще почти у 40% данные хранятся на университетских серверах. При этом 80% опрошенных сказали, что у их исследовательской группы нет средств для организации полноценного архивирования научных данных. Это значит, что любая административная реорганизация лаборатории или университета может привести к утрате первичной научной информации. И тогда выполненные в прошлом исследования станут совершенно непроверяемыми. "Известна история о том, как археологи готовили кофе на костре из бревен, найденных среди руин, – цитирует Science одного из респондентов. – Но если мы не сможем создать среду для аккуратного архивирования и размещения в публичном доступе всех данных, которые мы добываем у природы, то мы фактически повторим ошибку тех археологов".
* * *
Из других интересных публикаций хочется выделить заметку в журнале New Scientist, которая касается назревающего кризиса, связанного с нехваткой на рынке редкоземельных элементов. К ним относят иттрий, скандий, все элементы из ряда лантаноидов, а также некоторые другие. Широкая публика редко о них слышит, но в высокотехнологичном производстве спрос на них постоянно растет. Иттрий нужен для сверхпроводящих кабелей, рений – для реактивных двигателей и катализаторов в нефтепереработке. В последнее время спрос на редкоземельные элементы постоянно растет, а вот предложение, напротив, сокращается.
И дело тут оказывается, вовсе не в том, что этих элементов так уж мало в природе. Название "редкоземельные" вводит в заблуждение, подчеркивает журнал New Scientist. Они, конечно, встречаются в виде небольшой примеси в обычных рудных месторождениях, но их количества вполне достаточно для нужд промышленности. Проблема, однако, в том, что почти 95% редкоземельных элементов сейчас поставляется на рынок из Китая, что позволяет ему манипулировать ценами. Тем более, что с ростом производства Китай сам начинает потреблять все больше добываемых редкоземельных элементов.
Так что другим странам не обойтись без развития собственной их добычи. В российском контексте тут, конечно, вспоминается уникальное месторождение рения, в кратере вулкана Кудрявый на курильском острове Итуруп. Оно открыто вулканологами почти 20 лет назад, но до сих пор не разрабатывается из-за проволочек с финансированием.