37 миллионов старых газетных страниц выложены в Сеть
Опубликовано сб, 24/12/2016 - 09:19 пользователем DeMorte
Forums: Как создать самый большой архив периодики в домашних условиях? Американец Том Триниски просто вооружился сканером и взялся за дело в собственной гостиной. Работая в одиночку, Том Триниски сумел оцифровать более 37 миллионов страниц старых газет — это больше, чем в американской Библиотеке Конгресса (крупнейшая библиотека мира), — сообщает Newtonew. Результаты своего труда он выкладывает в открытый доступ на сайте Fulton History, где можно найти архивы более 1000 газет штата Нью-Йорк, некоторых других штатов и Канады. В архиве, который составитель регулярно обновляет, содержатся издания с 1795 по 2007 год. Триниски — инженер на пенсии и любитель старины. Над сайтом и контентом он работал в одиночку, в своём доме. Четырнадцать лет назад он решил отсканировать коллекцию старых открыток с видами округа Фултон, Нью-Йорк (его родной район), чтобы поделиться ими в интернете. Впоследствии к открыткам добавились заметки, рекламные объявления, некрологи, печатные издания. Ресурс до сих пор называется в честь округа Фултон, хотя материалы давно вышли за первичные географические границы. Для оцифровки газет используется программа для оптического распознавания символов, которая иногда ошибается из-за того, что некоторые издания очень старые. Также создатель сайта задействовал микрофильмы, на которых есть следы царапин и пыли, однако это добавляет старым газетным страницам обаяния. Сайт Fulton History не всегда справляется с наплывом гостей, и временно бывает недоступен из некоторых точек мира. Если такое случилось, можно заглянуть на Chronicling America, ещё один открытый ресурс с историческими газетами, на сайт с архивами газет от Бруклинской публичной библиотеки, или прошерстить базу данных Нью-Йоркской публичной библиотеки — здесь тоже есть множество старых изданий, и не только американских.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Леди Стервa RE:Подайте бедному копеечку на книжку с литреса... 7 часов
babajga RE:Кто сможет раздобыть и оцифровать нужные мне книги? 8 часов Isais RE:Дмитрий Анатольевич Горчев - ЖЖ Дмитрия Горчева (2009–2010) 3 дня Саша из Киева RE:Детям о Ленине (Издание 1965 года) 6 дней Саша из Киева RE:Приключения Мишки-Ушастика (Перевод Марата Брухнова) 1 неделя babajga RE:Белая княжна 2 недели Nicout RE:Таинственная личность админа Флибусты 2 недели Isais RE:Файл достаточно хорош. Нет смысла в его улучшении. Ага,... 2 недели mazay RE:Sleepy Xoma - Bagⲣѱnoⲣojdennaѱ 2 недели zlyaka RE:С Новым годом! 3 недели Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 3 недели SparkySpirit RE:Прошу переформатировать, распознать, etc... 3 недели SparkySpirit RE:Жорж Санд - переводы 19 века 3 недели Саша из Киева RE:Наш дом - СССР 4 недели babajga RE:Чернушка. Повести 4 недели Саша из Киева RE:Сказки далёких островов 1 месяц babajga RE:Лопоухий бес 1 месяц babajga RE:Ежик покидает дом 1 месяц Впечатления о книгах
Wild_XC70 про Дроздов: Интендант третьего ранга. Herr Интендантуррат [Дилогия] (Альтернативная история, Попаданцы)
22 01 Мне понравилось. Живой сюжет. Хороший слог. Оценка: отлично!
Wild_XC70 про Дроздов: Зубных дел мастер (Попаданцы, Самиздат, сетевая литература)
22 01 Начало интересное. Жду проду. Оценка: хорошо
Wild_XC70 про Дроздов: Командировка в ад [СИ] (Боевая фантастика, Приключения: прочее, Самиздат, сетевая литература)
22 01 Редкостное нечитабельное гуано. Писал не Дроздов а Матвиенко. Оценка: нечитаемо
Columbus про Мир вашему дому!
22 01 дядя_Андрей а ничего, что никаких "Татарстана, Хакассии, Мордовии, Удмуртии, Коми, Чувашии, Ханты-Мансийска" просто не существовало до прихода туда Русских людей? Не забудь об этом, когда будешь говорить о "покорении ………
V_E про Бегоунек: 7 недель в полярных льдах (Путешествия и география)
22 01 Жанры указаны - путешествия и география. Киберпанк я не указывал. Даже не знаю такого жанра.
дядя_Андрей про Мир вашему дому!
21 01 Второй гашек, а ничего, что никаких "Татарстана, Хакассии, Мордовии, Удмуртии, Коми, Чувашии, Ханты-Мансийска" просто не существовало до прихода туда Русских людей? у Олега Николаевича замечательные книги с правильными ………
grina про Никитин: Вадбольский – 2 (Фэнтези, Попаданцы, Самиздат, сетевая литература)
21 01 ощущение, что писал малолетний озабоченный, не сопоставляющий реалии сюжета, времени, традиций и норм. Оценка: неплохо
mysevra про Маринина: Стечение обстоятельств (Полицейский детектив)
20 01 Это нормально, когда через четверть века книжка лично для тебя превращается из ладной и остроумной в надуманную и скучную. Оценка: неплохо
Олег Макаров. про Житинский: Глагол «инженер» (Социальная фантастика)
20 01 Житинский вообще один из лучших за времена СССР. Ни одной вещи, которую можно было бы в здравом уме осмелиться критиковать
Синявский про Говард Эндрю Джонс
19 01 19.01.2025г. Знаменитый автор фэнтези Говард Эндрю Джонс умер в 56 лет от рака мозга
iggy71 про Житинский: Глагол «инженер» (Социальная фантастика)
19 01 Блистательно! Правдоподобно, реалистично, без всякой там фантасмогории, характерной для некоторых других его вещей, которая иногда утомляетЮ откровенно сказать. Как будто в молодость вернулся, короче. Когда грузинскую сцену прочитывал, ржал как лошадь. Оценка: отлично!
9333694 про Дроздов: Горящее небо Аорна [СИ] (Боевая фантастика, Социальная фантастика, Приключения в современном мире, Самиздат, сетевая литература)
18 01 Напоминает классику: Эдмон Мур Гамильтон "Звездные короли". Но совершенно самсостоятельное произведение. Прочитал с удовольствием. Немаловажно, что ГГ не злоупотреблял перепевом отечественной классики, чем автор иногда грешит Оценка: хорошо |
RE:37 миллионов старых газетных страниц выложены в Сеть
Вот это мужик! Респект и уважуха!
От будут ли правообгладатели ему втыкать за использование материалов?
RE:37 миллионов старых газетных страниц выложены в Сеть
Из FAQ_HELP_INDEX:
В. Могу я добавить статью на этот сайт?
О. Ага. Если газета была опубликована в штате Нью-Йорк и не попадает под копирайт...
===
И на первой странице:
Мери Крисмас, библиотекарь!
RE:37 миллионов старых газетных страниц выложены в Сеть
Ну если оно в сети, тогда и все смогут загребти себе. Вот и если начнется массовое пополнение библиотек газетами...
RE:37 миллионов старых газетных страниц выложены в Сеть
Что-то сильно я сомневаюсь что именно 37 млн страниц газет, скорее всего. как пишут в статистике больших библиотек "единиц хранения" - отдельных открыток, рекламных обьявлений и т.д.
Попробуем посчитать.
37 000 000 / 14 лет = 2 642 000 страниц в год / 365 дней = 7 241 страница в день /12 часов = 600 стр в час или 6 страниц в минуту.
Многовато выходит, и это чисто сканирование. + какая-никакая обрезка + каталогизация + выкладка в Сеть.
RE:37 миллионов старых газетных страниц выложены в Сеть
Дети помогали. Или еще кто то.
А какие там страницы, может не такие как у нас. Тогда по несколько страниц за проход.
RE:37 миллионов старых газетных страниц выложены в Сеть
А можно задать вопрос: вы сами пробывали сканировать газеты?
RE:37 миллионов старых газетных страниц выложены в Сеть
Нет.
Но при современному оборудовании много чего возможно.
RE:37 миллионов старых газетных страниц выложены в Сеть
Расчёт - правильный. В исходных статьях ещё написано, что дедуля в последние три года оцифровывает по 250 000 страниц в месяц - те же самые 6 страниц в минуту (если считать, что он работает 24 часа в сутки, не питаясь и не отлучаясь в туалет).
Я тоже заинтересовался гигантскими цифрами в заметке и немного посчитал. А потом полез на англоязычные сайты и все странности исчезли. Всё гораздо проще.
С бумажными газетами дед недолго поработал в самом начале проекта - в 2001-2003 годах, когда у него был только планшетный сканер.
После этого он приобрёл мощный автоматический сканер для обработки микрофильмов (Wicks and Wilson Scanstation production-level microfilm scanner), наладил взаимодействие с библиотеками и запустил поточное производство. Так что последние 14 лет он оцифровывал микрофильмы, а не сами газеты.
Работает дед по 70-80 часов в неделю, и его работа заключается в том, чтобы распаковать привезённые ему микрофильмы, вставить их в мощный сканер-автомат и получить на выходе готовые сканы, практически не требующие дополнительной обработки. Их сразу можно отправлять на сайт.
Так что основную работу проделали десятки библиотекарей, десятилетиями превращавшие бумажные газеты в микрофильмы. А дед пользуется результатами их титанического труда. Это, конечно, не умаляет его заслуг - но объясняет его небывалую для сканировщика "производительность"...
Подробности - здесь:
http://www.thecrowleycompany.com/long-time-client-uses-wwl-scanners-digitize-26-million-newspaper-images/