Вы здесьГоре оцифровщики или проблема соурсов
Опубликовано вт, 10/11/2009 - 10:52 пользователем Lord KiRon
В который раз сталкиваюсь с проблемой горе-оцифровщиков, сейчас это был "Владыка Сардуора" Зыкова - количество ошибок просто огромно, формат местами потерян полностью, местами у отдельных параграфов отсутствует конец (известный баг Файнридера) , кое какой текст повторяется 2 раза и т.д. ... Собственно попросту говоря файл не вычитали. Я не хочу наезжать на тех кто оцифровывал - иметь книгу даже в таком виде лучше чем вообще не иметь, однако передо мной возникла следующая проблема: А почему бы не завести возможность на Либрусеке например "присоединения" сканов к тексту книги?
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Isais RE:Катя Водянова - Дом и два жениха в придачу 10 часов
Aleks_Sim RE:Подайте бедному копеечку на книжку с литреса... 14 часов Aleks_Sim RE:Прошу переформатировать, распознать, etc... 1 день kopak RE:Таинственная личность админа Флибусты 5 дней Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 6 дней Isais RE:Дмитрий Анатольевич Горчев - ЖЖ Дмитрия Горчева (2009–2010) 1 неделя Саша из Киева RE:Детям о Ленине (Издание 1965 года) 1 неделя Саша из Киева RE:Приключения Мишки-Ушастика (Перевод Марата Брухнова) 2 недели babajga RE:Белая княжна 3 недели Isais RE:Файл достаточно хорош. Нет смысла в его улучшении. Ага,... 3 недели mazay RE:Sleepy Xoma - Bagⲣѱnoⲣojdennaѱ 3 недели zlyaka RE:С Новым годом! 4 недели Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 4 недели SparkySpirit RE:Жорж Санд - переводы 19 века 1 месяц Саша из Киева RE:Наш дом - СССР 1 месяц babajga RE:Чернушка. Повести 1 месяц Саша из Киева RE:Сказки далёких островов 1 месяц babajga RE:Лопоухий бес 1 месяц Впечатления о книгах
Barbud про Фонд: Баба Люба. Вернуть СССР 4 (СИ) (Попаданцы, Самиздат, сетевая литература, Фантастика)
29 01 Дерьмище редкостной зловонности. Главное, что автор писать умеет, пишет образно, без "картона", коим грешат очень многие кропатели нетленки. Но боже мой, какую же херню он пишет! Первые две части осилил, остальные пролистнул по диагонали, ибо чушь. Оценка: нечитаемо
decim про Р. Дж. Баркер
29 01 Хорошо, а местами и отлично. Было бы совсем отлично, если бы автор не растянул историю на три тома, но это обычное дело.
mysevra про Баркер: Алые песнопения (Ужасы, Триллер, Детективы: прочее)
29 01 Как часть истории «Восставшего» - мило и познавательно. Но зачем такое изобилие обсценной лексики уличного разлива? Для реализьму, так сказать? Так у меня дл вас плохие новости, мои маленькие друзья, это лет 30 назад такое ………
lukyanelena про Гремучий ручей
29 01 Хотите серию про вампиров? Пожалуйста! Только забудьте про романтичные истории с загадочными красавцами и красавицами. Будет больно, будет страшно, будет неприятно, но я скорее поверю в таких тварей, чем в слащавых вампирчиков.
Лысенко Владимир Андреевич про Земляной: Игровой практикум [СИ] (Боевая фантастика, Фэнтези, ЛитРПГ)
29 01 Книга понравилась, читается легко, жду продолжения. Оценка: отлично!
Nicout про Сушков: "Ленинградское дело": генеральная чистка колыбели революции (Документальная литература)
29 01 Говорите, во время блокады Ленинграда руководство города голодало, как и остальные жители, а все рассказы про пирожные, колбасу и икру для коммуняк - вранье и клевета? Ну так прочтите что из себя представляли питерские деятели, ……… Оценка: отлично!
Синявский про Николай Егорович Дронников
28 01 На 95-м году жизни скончался Николай Дронников - советский и французский художник, график, скульптор, прозаик и издатель авторских книг, "летописец русской эмиграции".
ve51 про Чейз: Плоть орхидеи [The Flesh of the Orchid ru] (Крутой детектив)
27 01 Книга не входит в цикл "Дэйв Фэннер
Skyns71 про Гузман: Тропой священного козерога, или В поисках абсолютного центра (Современная проза, Биографии и Мемуары)
27 01 Господи... Жизнеописание наркомана.
sigor2000 про Бакман: Вторая жизнь Уве [En Man Som Heter Ove ru] (Современная проза)
27 01 Книга просто шикарна. По моему мнению в книге нет повесточки. Персонажи геи, мигранты это по факту то, что осталось от Швеции. Вместе со смерьтю ГГ умерла и та Швеция, которую мы знали, вот о чем пишет автор. Самое смешное, ……… Оценка: отлично!
mysevra про Лэнган: Рыбак [The Fisherman ru] (Ужасы)
27 01 Хороший язык. Но, во-первых, рассказ выжившего - а как же интрига? А во-вторых - и это самое главное - к середине книги до жути я так и не добралась, зато узнала подробно о жене, алкоголизме и рыбалке. Подробно, многословно ……… Оценка: плохо
Gilean про Бесноватый цесаревич
26 01 Тяжело читается, бросил на второй книге. Приехал в столицу - нагрубил, сослали. На придумывал ништяков позвали в столицу - нагрубил, сослали. Так и хочется вспомнить фразу - "украл, выпил в тюрьму" и так по кругу. Раньше ……… |
Комментарии
Отв: Горе оцифровщики или проблема соурсов
Здравая мысль. Я за. Вопрос где выкладывать?
Отв: Горе оцифровщики или проблема соурсов
Вот так, например?
Хотя... а поможет? ИМХО "правильный" OCR'щик сам проверит на ляпы, а ленивый и скан не выложит. :(
Отв: Горе оцифровщики или проблема соурсов
А что мешает в данном случае (Зыков) обратиться непосредственно к автору оцифровки? http://huge-library.ru/user/Hornet/
Отв: Горе оцифровщики или проблема соурсов
Тем что Зыков это только последний пример, а на такое натыкаешься постоянно.
Отв: Горе оцифровщики или проблема соурсов
Действительно, проще спросить-попросить (на форумах, в либах) скинуть сканы отдельных страниц, чем каждую книгу в виде сканов в сеть тащить.
Отв: Горе оцифровщики или проблема соурсов
Если честно то от тебя я такого не ожидал.
Скажи какие именно ты будешь страницы просить и как? - Номера то не сохраняются. Ну предположим куски текста будешь давать -ты считаешь это "не сложно"?
И это если таких страниц штук пять еще можно, а если их много?
Не говоря уже про то что это поможет только исправить ошибки и недостающие слова, а как форматирование проверять?
Плюс, на каких таких форумах? Особенно если книга редкая так вообще...
Отв: Горе оцифровщики или проблема соурсов
Ага, так и делал, когда надо было.
Сколько надо, столько и просил. Или доставал книгу и правил по ней.
На разных. Зависит от книги.
Но обычно на околокнижных, как ни странно )
На альде, на фикшене, на ебуках, тут...
По своей тематике - на собачьих форумах...
Т.е. когда это надо не для каждой книги, а для некоторых, да еще и не раритетных (которые легко купить на том же алибе), проще найти источник и сверить с ним.
А совсем редкости, конечно, надо в дежавю, тут без вопросов.
А учитывая, что сабжевая книга стоит 100+ р и свободно доступна для заказа (http://www.findbook.ru/search/d1?title=%C2%EB%E0%E4%FB%EA%E0+%D1%E0%F0%E4%F3%EE%F0%E0&r=0&s=1&viewsize=15&startidx=0) - вообще проблемы не вижу.
Как раз сейчас делаю книгу, которой в продаже нет. (Нигде не нашел за пару лет.) А у меня был исходник без иллюстраций.
Поднял задницу, пошел в ленинку, заплатил и переснял все, что было нужно.
А что делать, охота пуще неволи ))
Отв: Горе оцифровщики или проблема соурсов
Делается книга Djvu. Заливается в качестве дубля. Обьединяется с fb2. Все. В базе есть, в новинках\книгах не видна. При необходимости можно скачать и свериться. Механизм для этого уже есть, ничего нового придумывать не надо. Как вариант(предпочтительный) заливается на файлообменник и ссылка поститься в комментах или аннотации.
Отв: Горе оцифровщики или проблема соурсов
В принципе да, но в результате "пухнет" база, ежедневные дополнения и т.д., да и если честно при отсутствии "кнопочки" на которую человек посмотрев сможет подумать "а это что такое и для чего?" большинство сканеровщиков/оцифровщиков просто не подумают что нужно залить, тем более когда еще с ФТП "мучатся" и коменты писать ...
Психология она такая штука... ну как с кнопкой "donate" - всегда можно было перевести деньги но в месяц всего несколько сотен набиралось а последнее время и того поменьше, а как повесили на главной и с описанием "на что" то сразу за 3 дня $900 накидали.
А с файлообменника кстати файлы имеет склонность исчезать.
Сомнительно
Идея-то полезная... Но, это надо: чтобы сканировал, распознавал, и вычитывал один человек; чтобы заливал он изначально именно на либрусек (а не, к примеру, на БСЧ:)); чтобы он умел собирать "правильные" djvu. Со всеми можно договориться и всему научиться, но ты ж сам писал: "Психология она такая штука..." В результате, функция будет если и реализована, то очень мало востребована - овчинка выделки не стоит.
Отв: Сомнительно
Угу, но если функция не будет реализована то вообще никто делать не будет - святых и трудоголиков втоде TaKir-а ;) не так то много.
А так может хоть что то будет.
Отв: Сомнительно
Боюсь, что не поможет. Тут верно говорили: добросовестный оцифровщик проверит свою работу, недобросовестный - никакого ДежавВю ни делать ни заливать не станет.
Хотя, если у того же "недобросовестного" целенаправленно попросить исходники конкретного файла, то он скорее всего их пришлет.
Так что, ИМХО, не сильно поможет в вычитке добавление такой функции, не стоит овчинка выделки. А жаль.:(
Отв: Сомнительно
К сожалению, БСЧ по функционалу к Либрусеку не приблизится (а вот чисто визуально мне там приятнее), но опять-таки таких случаев как с Зыковым и Беккером там точно не будет (по крайней мере пока новинки проходят через меня). Соответственно, сканов там не будет (и неважно, что функционала под это нет, (смеётся)), однако в принципе, всё что я сам сканировал, у меня на винте и при желании может быть залито на либрусек.
Но в целом скажу так: 1) идея неплохая б) халтурщики могут и забить на это, как забивают на вычитку в) качественно вычитанные книги в "мелком" дажавю смысла имеют мало, если только действительно проверить оформление г) заливка больших сканов вызывает вопрос места, так как использование файлообменников не выдерживает никакой критики, так как встаёт большущая проблема с умиранием ссылок.
Где-то так.
P.S. Я бы всё-таки первоочередной необходимой идеей назвал перекрёстную базу "кто чего сканирует/планирует". Хотя бы в виде ссылок на форумы различных библиотек. И желательно без флуда в соответствующих темах.
Отв: Горе оцифровщики или проблема соурсов
Отв: Горе оцифровщики или проблема соурсов
Что-то не пойму - а зачем все эти костыли?
Зачем исправлять кривизну чужих рук? Если сделал кто-то криворукий кривую книжку, можно считать что ее просто нет.
Отв: Горе оцифровщики или проблема соурсов
Тебе очень хочется делать двойную работу? То есть вместо того чтобы просто вычитать еще и лишний раз купить, отсканировать и т.д.
Отв: Горе оцифровщики или проблема соурсов
Да не делай, вычитай то, что у тебя есть под рукой или свои сканы.
А то, чего у тебя нет, сделает кто-то другой )
Отв: Горе оцифровщики или проблема соурсов
Да. Я лучше сам сделаю работу с нуля, чем буду за кем-то разгребать
Отв: Горе оцифровщики или проблема соурсов
Вычитал. В одном месте, где была действительно непонятка, просто зашёл в соседний книжный магазин. Единственный повторяющийся кусок убрал. Возможно где-то не смог полностью восстановить изначальный книжный формат, но на удобство прочтения это никак повлиять не должно.
Отв: Горе оцифровщики или проблема соурсов
Отв: Горе оцифровщики или проблема соурсов
http://lib.rus.ec/b/76475
Отв: Горе оцифровщики или проблема соурсов
Отв: Горе оцифровщики или проблема соурсов
http://www.libex.ru/detail/book299242.html
160р. всего
Отв: Горе оцифровщики или проблема соурсов
Кстати, а почему только одно предложение? Я как-то летом на алибе искал - было больше десятка. Ну, я честно каждому продавцу выслал письмо с просьбой эти страницы отсканить или хоть сфоткать. Все честно признались, что нечем / не умеют / не получилось, и только один - что сканы не рассылает в принципе. :)
Отв: Горе оцифровщики или проблема соурсов
В порядке справки. Летом доставка книги из Донецка в Россию (несколько дальше Москвы) ценной бандеролью обошлась всего в 70-80 рублей. Книга дошла в пункт назначения дней за 10 (может меньше, точно не помню).
Не так уж все и страшно :)
Отв: Горе оцифровщики или проблема соурсов
Отв: Горе оцифровщики или проблема соурсов
:)) и чтоб каждая книга в двух экземплярах, один из них - контрольный в несгораемом сейфе. А храниться они будут в Эквадоре, в книжном кафе у Ильи, книги для которого он просил присылать.
Кстати, да. Вся проблема в том, что из процесса оцифровки никак не исключить злополучный человеческий фактор. Остается решать вопрос с каждой книгой в индивидуальном порядке.
Отв: Горе оцифровщики или проблема соурсов
Короче как всегда вместо обсуждения о том как решать имеющуюся проблему получил два варианта стандартных ответов: 1.А я такой герой что и без этого обхожусь. 2.Все равно большинство пользоваться не будет а я ...(дальше см 1).
Дело ваше конечно, но насчет первого флаг вам в руки, дальше комментировать не буду, а насчет второго... ну и вычитывают то единицы, большинство не вычитывает, так можем и загрузку новых версий отменим, все равно мало кто вычитывает, а кому надо могут и библиотекарям на мыло послать - это по этой же логике.
Короче как хотите, я предложение высказал, его как всегда обосрали, ну и... собственно мне оно тоже не сильно надо, хотелось как лучше...
Отв: Горе оцифровщики или проблема соурсов
Отв: Горе оцифровщики или проблема соурсов
Что касается тебя так это вообще не к тебе тема :), после твоих вычитываний ошибок почти не остается а если и попадаются то совсем не такие что требуют сорсы.
Отв: Горе оцифровщики или проблема соурсов
Отв: Горе оцифровщики или проблема соурсов
Да понятно всем, что ты хотел как лучше. Никто и не собирался твоё предложение обсирать, идея-то хорошая, особенно если тексты сюда приходили бы только через OCR. Просто тут даже при наличии такой опции, которую ты предлагаешь, перед OCR-щиком встаёт психологическая проблема о признании собственной работы некачественной (требующей ещё и PDF/DJVU-дополнения), а на это не у каждого хватит духа. В итоге получим, что добросовестные OCR-щики будут кроме своего качественного FB2 выкладывать ещё и PDF/DJVU (просто на всякий случай - а вдруг они где-нибудь ошиблись), а недобросовестные продолжать лепить корявые FB2 и считать, что так правильно.
А ещё не надо забывать, что тексты сюда приносят не только оцифровщики - такие пользователи при всём желании не смогут воспользоваться этим сервисом, зато потом имеют шанс получить от ревнителей чистоты наезд типа: "А почему выложили невычитанный текст, а скан к нему не приложили?"
Отв: Горе оцифровщики или проблема соурсов
У Вас взгляд на вопрос не правильный :) не надо думать что "работа не качественная" надо думать:
а. Добавление скана повышает "коллаборацию" - ну не было у оцифровщика сил вычитывать вот он и дает другим "отполировать" :)
б. Это еще и сохранение источника, на будущее, вдруг кого заинтересует не только текст а именно сама книга, ее оформление скажем, фонты и т.д.
Отв: Горе оцифровщики или проблема соурсов
Интересно, насколько это востребовано.
Всегда делаю djvu со своих сканов. С удовольствием бы их куда-нибудь вывалил. В основном для таких любителей. Как бы понять, стоит ли.
Отв: Горе оцифровщики или проблема соурсов
Вроде логично... может стоит такое завести?
Отв: Горе оцифровщики или проблема соурсов
Понимаю о чём речь,но... Последнее время читаю новинки исключительно в редакторе и попутно исправляю найденные ошибки. Хотя бы для собственной библиотеки. Зыкова почти закончил и не встретил особых трудностей. А уж дубль-текст убрать ума особо не надо. Единственная проблема с некоторыми словами написанными курсивом. Я его убрал, как не имеющего смысловой нагрузки. Проблему вычитки можно решить проще. Достаточно в примечаниях писать: вычитано - не вычитано.
Отв: Горе оцифровщики или проблема соурсов
"Вычитано" тоже разной степени бывает ;)
Отв: Горе оцифровщики или проблема соурсов
Согласен. Но всё же это лучше, чем ничего и значительно проще сделать, чем сканы выкладывать. Либо надо отменять принцип "вики", чтобы выкладывали только библиотекари. А это противоречит политике либрусека.
Отв: Горе оцифровщики или проблема соурсов
Тут, кстати о сканах, с "Башней шутов" http://lib.rus.ec/node/157773 проблема образовалась.
Отв: Горе оцифровщики или проблема соурсов
Я вот что хочу сказать: Качество вычитки напрямую зависит от качества ОКР, а качество ОКР зависит... правильно,от качества сканирования.
А происходит это потому, что сканируют люди пользуясь установками по умолчанию. А здесь и разрешение 200 дпи, и полноцвет, который файнридеру и на фиг не нужен, и лезущий везде, где только сумеет, фон.
Отсюда и...
Давно хотел поговорить на эту тему.
Могу поделиться опытом получения качественных сканов со сложных оригиналов. Это кому-нибудь надо?
Отв: Горе оцифровщики или проблема соурсов
Ну конечно надо. Всегда полезно узнать что-то новое.
Для хорошего сканирования, кроме разрешения и проч. ещё важно хорошо открывать и прижимать книгу. Книгу надо предварительно "поломать". Сначала открыть на максимум на середине (слышится приятный хруст). Потом на середине от середины - в ту и другую сторону, и т. д. раз десять. Ну вот, книга уже выглядит непрезентабельно, а значит к сканированию готова.
Отв: Горе оцифровщики или проблема соурсов
Ну, за недельку-другую напишу. Сейчас просто дома сканер недоступен.
А куда выложить? Рассылать во все стороны не смогу.
Ау! Библиотекари! Это, наверное, относится к ЧаВо?
Отв: Горе оцифровщики или проблема соурсов
Можно в ЧаВо, можно в своём блоге сделать тему, а библиотекари внесут в ЧаВо. Как Вам удобнее.
Лишь бы написали. ;)
Отв: Горе оцифровщики или проблема соурсов
Отв: Горе оцифровщики или проблема соурсов
Боюсь не соглашусь с вами, точнее да, но качество "ленивой" вычитки когда быстренько так набегом просматривают. При нормальной вычитке, когда читают все, а затем еще и сверяют форматирование - такой проблемы нет.
Хотя хорошие сканы это всегда хорошо конечно, экономит кучу времени и облегчает работу.
Отв: Горе оцифровщики или проблема соурсов
Если строго подойти к вопросу, то звучать это должно так:
Чем выше качество сканирования, тем меньше ошибок распознавания, тем меньше придется вычитывающему вносить исправлений. Вычитка будет достаточно быстрой и комфортной, то есть, ошибок будет пропущено меньше.
А в случае выкладывания невычитанного текста, тем более!
Отв: Горе оцифровщики или проблема соурсов
Lord KiRon а нельзя в следующий раз сканировать, что-бы тире отображались?
Я об Академии вампиров. Осталось страниц 50.
А! Я понял это нарочно, что-бы я читал каждое слово.:(
Отв: Горе оцифровщики или проблема соурсов
Академия вампиров будет на Старом Чародее ( http://bomanuar.com/forum/index.php?topic=231.0 ) .
Сюда выложил очень поганого качества Dejavu для тех кому не терпится а так же для верификации ошибок в будущем. FB2 с него делать точно не надо.
Отв: Горе оцифровщики или проблема соурсов
Lord KiRon это называется подлянка. Я сижу второй день и почти доделал, сверяю каждую букву.
А оказывается есть скан лучше. Очень нехорошо. Не по товарищески. Я даже не знаю как это назвать!
Отв: Горе оцифровщики или проблема соурсов
Это называется что нужно организовываться о чем я давно говорю. Тогда бы я не покупал те книги которые к тому моменту когда они приходят уже появляются в сети, никто бы не делал одну и ту же книгу два раза и т.д.
Но народ поднял крик в стиле "зачем это нужно" , "те кому надо и так знают" , "есть топик на форуме" , вот да кстати есть топик на форуме - кто вам виноват что вы на форум старого чародея не заглядываете ?;)
А серьёзно - это очень раздражает, да.
Страницы