37 миллионов старых газетных страниц выложены в Сеть
Опубликовано сб, 24/12/2016 - 09:19 пользователем DeMorte
Forums: Как создать самый большой архив периодики в домашних условиях? Американец Том Триниски просто вооружился сканером и взялся за дело в собственной гостиной. Работая в одиночку, Том Триниски сумел оцифровать более 37 миллионов страниц старых газет — это больше, чем в американской Библиотеке Конгресса (крупнейшая библиотека мира), — сообщает Newtonew. Результаты своего труда он выкладывает в открытый доступ на сайте Fulton History, где можно найти архивы более 1000 газет штата Нью-Йорк, некоторых других штатов и Канады. В архиве, который составитель регулярно обновляет, содержатся издания с 1795 по 2007 год. Триниски — инженер на пенсии и любитель старины. Над сайтом и контентом он работал в одиночку, в своём доме. Четырнадцать лет назад он решил отсканировать коллекцию старых открыток с видами округа Фултон, Нью-Йорк (его родной район), чтобы поделиться ими в интернете. Впоследствии к открыткам добавились заметки, рекламные объявления, некрологи, печатные издания. Ресурс до сих пор называется в честь округа Фултон, хотя материалы давно вышли за первичные географические границы. Для оцифровки газет используется программа для оптического распознавания символов, которая иногда ошибается из-за того, что некоторые издания очень старые. Также создатель сайта задействовал микрофильмы, на которых есть следы царапин и пыли, однако это добавляет старым газетным страницам обаяния. Сайт Fulton History не всегда справляется с наплывом гостей, и временно бывает недоступен из некоторых точек мира. Если такое случилось, можно заглянуть на Chronicling America, ещё один открытый ресурс с историческими газетами, на сайт с архивами газет от Бруклинской публичной библиотеки, или прошерстить базу данных Нью-Йоркской публичной библиотеки — здесь тоже есть множество старых изданий, и не только американских.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
nik_ol RE:Подайте бедному копеечку на книжку с литреса... 8 мин.
larin RE:Оплатил, но абонемент не отображается 1 час nehug@cheaphub.net RE:DNS 4 дня alexk RE:Багрепорт - 2 1 неделя sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 1 неделя Isais RE:Семейственность в литературе 2 недели Violontan RE:Жан Батист Мольер воскрешенный 2 недели sem14 RE:Гонкуровская премия 2 недели Dead_Space RE:Беженцы с Флибусты 3 недели Саша из Киева RE:Приключения белочки Рыжки 1 месяц alex-from RE:Оплатил два раза, но абонемента нет 1 месяц Kiesza RE:На 78-м году жизни скончался советский и российский... 1 месяц Paul von Sokolovski RE:Бушков умер. 1 месяц lemma7 RE:Серия «Интеллектуальный детектив» изд-ва АСТ 1 месяц Isais RE:Издательство "Медуза" 1 месяц babajga RE:Народные сказки - Сказки народов Сибири = Fairy-Tales of... 2 месяца Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 2 месяца sibkron RE:Серия "Библиотека французской литературы" (Макбел) 2 месяца Впечатления о книгах
123_abc про Вадим Юрьевич Панов
10 12 Аркада. Вся трилогия с оценкой "отлично". А с учетом времени её написания ещё и "плюс" сверху. Оценка: отлично с плюсом
vvv про Алмазов: Гений Медицины (Героическая фантастика, Городское фэнтези, Попаданцы, Самиздат, сетевая литература)
10 12 Медицинская часть интересна. Но остальное... Создается впечатления, что основной целью авторов было показать на примере персонажей, как развитие магии способствует деградации интеллекта.
Лысенко Владимир Андреевич про Земляной: Мастер стихий 3 [СИ] (Боевая фантастика, Технофэнтези, Самиздат, сетевая литература)
10 12 Книга понравилась, читается легко, хотелось бы продолжения. Оценка: отлично!
Дей про Наставник
08 12 Очень однообразно. Идут, разговаривают, влипают в неприятности, выпутываются - и так по кругу три книги. Всё это густо разбавлено древними шутками. Третью не оцениваю, ибо пролистала по диагонали.
ecr про В. Бирюк
08 12 Продолжения после 41-й книги не будет, автор скончался. https://samlib.ru/w/wbirjuk/nekrolog.shtml
mysevra про Джэнз: Дети тьмы [Children of the Dark ru] (Ужасы)
08 12 Подростки и ужасы – так, чтобы было интересно взрослым. Это сложно, мало кто справился: «Лето ночи», Кинг да, пожалуй, Кунц, навскидку больше некого и вспомнить. Оценка: неплохо
mysevra про Громыко: Год Крысы. Путница (Фэнтези)
08 12 Люблю этого автора – потрясающая фантазия и лёгкий слог. Дилогию прочитала с удовольствием, впечатление не испортили даже глупость и ограниченность главной героини. Оценка: отлично!
francuzik про Шимуро: Системный Кузнец IV (Фэнтези, ЛитРПГ, Самиздат, сетевая литература)
07 12 Очень слабо. Какая-то депрессивная хрень. Оценка: плохо
Лысенко Владимир Андреевич про Замполит: Белый генерал. Частная война (Альтернативная история, Исторические приключения, Попаданцы, Самиздат, сетевая литература)
07 12 Книга интересная, события описываются нормально, хотелось бы продолжения. Оценка: отлично!
Дей про Консультант
06 12 Первые три книги - мило и очень интересно. 4 - уже не мило (прапрадед и праправнучка?? серьёзно?), но интересно. 5 - сборник рассказов по сюжету серии. 6,7 и 8... мне не было ни мило, ни интересно, совершенно другая атмосфера.
udrees про Морале: Проклятье, с*ка! Книга 2 [АТ] (Альтернативная история, Попаданцы, Самиздат, сетевая литература)
06 12 Вторая книга написана в том же стиле, что и первая. Все такой же герой, его силы правда не особо растут, всю книгу он занимается своей работой – на страже правопорядке, детектив, расследует криминал, ищет таких же одаренных. ……… Оценка: плохо
udrees про Володин: Газлайтер. Том 2 [СИ] (Альтернативная история, Боевая фантастика, Фэнтези, Попаданцы, Самиздат, сетевая литература)
06 12 Приключения школоты продолжается, да еще обладая такими возможностями и силами – это просто читерство. Так герои запросто расправляются с вооруженной группой кавказских террористов, ворвавшихся в школу, даже не понеся потерь, ……… Оценка: неплохо |
RE:37 миллионов старых газетных страниц выложены в Сеть
Вот это мужик! Респект и уважуха!
От будут ли правообгладатели ему втыкать за использование материалов?
RE:37 миллионов старых газетных страниц выложены в Сеть
Из FAQ_HELP_INDEX:
В. Могу я добавить статью на этот сайт?
О. Ага. Если газета была опубликована в штате Нью-Йорк и не попадает под копирайт...
===
И на первой странице:
Мери Крисмас, библиотекарь!
RE:37 миллионов старых газетных страниц выложены в Сеть
Ну если оно в сети, тогда и все смогут загребти себе. Вот и если начнется массовое пополнение библиотек газетами...
RE:37 миллионов старых газетных страниц выложены в Сеть
Что-то сильно я сомневаюсь что именно 37 млн страниц газет, скорее всего. как пишут в статистике больших библиотек "единиц хранения" - отдельных открыток, рекламных обьявлений и т.д.
Попробуем посчитать.
37 000 000 / 14 лет = 2 642 000 страниц в год / 365 дней = 7 241 страница в день /12 часов = 600 стр в час или 6 страниц в минуту.
Многовато выходит, и это чисто сканирование. + какая-никакая обрезка + каталогизация + выкладка в Сеть.
RE:37 миллионов старых газетных страниц выложены в Сеть
Дети помогали. Или еще кто то.
А какие там страницы, может не такие как у нас. Тогда по несколько страниц за проход.
RE:37 миллионов старых газетных страниц выложены в Сеть
А можно задать вопрос: вы сами пробывали сканировать газеты?
RE:37 миллионов старых газетных страниц выложены в Сеть
Нет.
Но при современному оборудовании много чего возможно.
RE:37 миллионов старых газетных страниц выложены в Сеть
Расчёт - правильный. В исходных статьях ещё написано, что дедуля в последние три года оцифровывает по 250 000 страниц в месяц - те же самые 6 страниц в минуту (если считать, что он работает 24 часа в сутки, не питаясь и не отлучаясь в туалет).
Я тоже заинтересовался гигантскими цифрами в заметке и немного посчитал. А потом полез на англоязычные сайты и все странности исчезли. Всё гораздо проще.
С бумажными газетами дед недолго поработал в самом начале проекта - в 2001-2003 годах, когда у него был только планшетный сканер.
После этого он приобрёл мощный автоматический сканер для обработки микрофильмов (Wicks and Wilson Scanstation production-level microfilm scanner), наладил взаимодействие с библиотеками и запустил поточное производство. Так что последние 14 лет он оцифровывал микрофильмы, а не сами газеты.
Работает дед по 70-80 часов в неделю, и его работа заключается в том, чтобы распаковать привезённые ему микрофильмы, вставить их в мощный сканер-автомат и получить на выходе готовые сканы, практически не требующие дополнительной обработки. Их сразу можно отправлять на сайт.
Так что основную работу проделали десятки библиотекарей, десятилетиями превращавшие бумажные газеты в микрофильмы. А дед пользуется результатами их титанического труда. Это, конечно, не умаляет его заслуг - но объясняет его небывалую для сканировщика "производительность"...
Подробности - здесь:
http://www.thecrowleycompany.com/long-time-client-uses-wwl-scanners-digitize-26-million-newspaper-images/