Ученые по всему миру соревнуются, чтобы спасти жизненно важные базы данных здоровья, снятые на фоне хаоса Трампа
Усилия по массовому архивированию являются ответом на удаление некоторых своих веб-страниц Центрами по контролю и профилактике заболеваний США.
В прошлый четверг, 30 января, биоинформатик Нима Мошири поздно ночью получила сообщение от давнего сотрудника с призывом сделать резервную копию веб-сайта Центров по контролю и профилактике заболеваний США (CDC). В то время ходили слухи о том, что агентство общественного здравоохранения, которое отслеживает вспышки заболеваний и делает свои данные общедоступными, начнет удалять страницы со своего веб-сайта в ответ на исполнительные указы, изданные президентом Дональдом Трампом, предписывающие правительственным ведомствам удалять публичную информацию о гендере и многообразии.
Мошири, который работает в Калифорнийском университете в Сан-Диего, и самоназванный «накопитель данных», который создает резервные копии своих личных видео и онлайн-квитанций и счетов, был рад помочь. "Я никогда не думал, что мне придется делать это для информационных страниц федерального правительства", - говорит он.
На прошлой неделе были удалены некоторые веб-сайты федерального правительства США, содержащие важные наборы данных и информацию об общественном здравоохранении и демографии, такие как глобальные программы по борьбе с ВИЧ и национальные исследования хронических заболеваний. Некоторые из них были восстановлены, другие нет. "Меня немного шокировало, что они просто удаляли страницы волей-неволей", - говорит Мошири.
Мошири является одним из десятков исследователей в Соединенных Штатах и во всем мире, которые пытаются получить публичную информацию на веб-сайтах федерального правительства США, прежде чем она будет подделана или исчезнет. "Многие люди предпринимали аналогичные параллельные усилия, особенно в своих собственных областях знаний", - говорит вирусолог Анджела Расмуссен, базирующаяся в Университете Саскачевана в Саскатуне, Канада, которая была соавтором, который написал Мошири. Она не спала до 2 часов ночи в прошлую пятницу, вручную загружая наборы данных, например, при наблюдении за гриппом. Создав эти резервные копии, исследователи выясняют способы сделать их общедоступными, добавляет она.
Центр по контролю и профилактике заболеваний и Министерство здравоохранения и социальных служб США, которое является материнским агентством Центра по контролю и профилактике заболеваний, говорят, что все изменения на их веб-сайтах соответствуют распоряжениям Трампа.
Глобальные усилия
В выходные Мошири связался с Чарльзом Габой, аналитиком политики здравоохранения и данных, базирующимся недалеко от Детройта, штат Мичиган.
Мошири помог Габе создать алфавитный список каждой веб-ссылки CDC - в размере более 7000 страниц, которые Габа вручную перенаправил на версию на Wayback Machine, сервисе, поддерживаемом некоммерческой организацией Internet Archive, базирующейся в Сан-Франциско, штат Калифорния, которая регулярно архивирует веб-страницы, включая материалы с правительственных веб-сайтов, таких как CDC. Затем Габа разместил весь список в своем блоге. "Это заняло пару дней", - говорит Габа. «Многое из этого жизненно важно, и вы не знаете, что было, что все еще там, чего там нет». С тех пор Габа опубликовала аналогичный список всего веб-сайта Управления по контролю за продуктами и лекарствами США (FDA), организованный по темам.
На своем жестком диске Мошири теперь имеет резервные копии веб-сайта CDC и всех наборов данных CDC, FDA и других правительственных веб-сайтов. Некоторые из них он скачал сам, а другие были впервые загружены и поделились другими в Интернете. Он также находится в процессе резервного копирования веб-сайта Министерства сельского хозяйства США — все эти сайты составляют сотни тысяч файлов и более 130 гигабайт несжатых данных, и все же все они могут поместиться на USB-накопителе. "Они довольно крошечные", - говорит он.
Мошири не поделился своими резервными копиями публично. Если его университет согласится с тем, что это относится к его роли преподавателя, Мошири хочет опубликовать точную нетронутую копию веб-сайта CDC. И его долгосрочная цель - резервное копирование всех веб-сайтов федерального правительства. «У меня под столом 100 терабайт места для хранения. Теоретически, я мог бы приклеить все это».
Кендра Альбертс, адвокат юридической фирмы Albert Sellars LLP в области технологий и средств массовой информации в общественных интересах в Филадельфии, говорит, что работы, созданные сотрудниками федерального правительства в рамках их работы, находятся в общественном достоянии. Вообще говоря, они говорят, что можно легально загружать правительственные наборы данных, создавать резервные копии государственных веб-сайтов и делиться ими. В обстоятельствах, когда в эти данные включены материалы, защищенные авторским правом, копирование и обмен ими часто подпадают под доктрину добросовестного использования, если это делается в целях исследований, пропаганды или в качестве исторической записи, чтобы показать, как выглядел сайт на более раннюю дату, говорит Альбертс.
Comments