B147858 Рубрикатор как инструмент информационной навигации
Опубликовано пт, 15/05/2009 - 12:27 пользователем oldvagrant
Forums: Рубрикатор как инструмент информационной навигации to Ulenspiegel
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Леди Стервa RE:Подайте бедному копеечку на книжку с литреса... 5 часов
Саша из Киева RE:Сказки далёких островов 1 день babajga RE:Лопоухий бес 2 дня SparkySpirit RE:Жорж Санд - переводы 19 века 2 дня SparkySpirit RE:Прошу переформатировать, распознать, etc... 2 дня kopak RE:Таинственная личность админа Флибусты 3 дня babajga RE:Ежик покидает дом 4 дня babajga RE:Сказки бабушки Черепахи 4 дня babajga RE:Свист диких крыльев 4 дня Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 5 дней Саша из Киева RE:Турецкие мусорщики в Анкаре открыли библиотеку, полную... 1 неделя Isais RE:Не тот автор 2 недели xieergai60 RE:Продление подписки 2 недели TaKir RE:Валерия Сергеевна Черепенчук А. Н. Николаева - Мифы... 3 недели Isais RE:Древняя Греция. Читаем... 3 недели laurentina1 RE:Ирина Александровна Велембовская - Немцы 3 недели Саша из Киева RE:Избранное 1 месяц Alligatoreader RE:Багрепорт - 2 1 месяц Впечатления о книгах
lorealke про Матвеев: Ниочёма-3 [СИ] (Юмор: прочее, Городское фэнтези, Попаданцы, Самиздат, сетевая литература)
24 12 Автор постоянно долбит про злобную Европу и обижаемую Империю, да царя-батюшку. Читаешь и прямо физически ощущаешь, как тебе промывают мозги. Короче, вместо нормальной бояръаниме получилась какая-то полу-пропагандистская херня. Оценка: плохо
дядя_Андрей про Костин: О чём молчал Атос (Критика, Литературоведение, Самиздат, сетевая литература)
23 12 Karl-Ieronim, конечно же "Последний кольценосец" Еськова
Олег Макаров. про Николай Владимирович Беляев (самиздат)
23 12 Серия «Серебряная осень» Качественно, интересно
Саша из Киева про Краминов: В орбите войны [записки советского корреспондента за рубежом, 1939-1945 годы] (Биографии и Мемуары)
23 12 Огромное спасибо всем, кто сделал и добавил эту книгу!
Лысенко Владимир Андреевич про Емельянов: Японская война 1904. Книга 2 (Альтернативная история, Попаданцы, Самиздат, сетевая литература)
23 12 Серия очень понравилась, прочитал не отрываясь. Буду ждать продолжения. Оценка: отлично!
Саша из Киева про Даниил Фёдорович Краминов
23 12 На Флибусте есть книга Даниила Краминова "В орбите войны. Записки советского корреспондента за рубежом. 1939-1945 годы". Надо бы добавить её сюда. Я попробовал добавить - почему-то не получилось. А книга интересная. Я читал ………
miri.ness_ про Забелин: Домашний быт русских цариц в XVI и XVII столетиях [Литрес] (История)
22 12 Книга отличная, только один минус - издано в 1869 г. в серии Non-Fiction. Большие книги
alexk про Флинн: В стране слепых [litres] [In the Country of the Blind ru] (Социальная фантастика, Научная фантастика)
22 12 На первый взгляд, литресный перевод похуже перевода 95-го года.
Fori про Панов: Пре(восход)ство [СИ litres] (Киберпанк, Социальная фантастика, Самиздат, сетевая литература)
22 12 Зачем выкладывать ознакомительные огрызки Литреса?
Лысенко Владимир Андреевич про Трапезников: Вагнер – в пламени войны [litres] (О войне)
22 12 Как лучше убивать за деньги, ничего личного только деньги. Оценка: нечитаемо
Лысенко Владимир Андреевич про Лисьев: За каждый метр [litres] (О войне)
22 12 Только русские всегда решают, кто враг, а кто может еще пожить. Оценка: нечитаемо |
Отв: B147858 Рубрикатор как инструмент информационной навигации
Легко. Тезис первый, он же главный - "хоть чучелом, хоть тушкой, но ехать надо".
Stager - отмалчивается, как девушка в ответ на вопрос "Ты меня любишь?", а найти что-либо техническое, не зная заранее названия, в библиотеке ... сложновато.
Отв: B147858 Рубрикатор как инструмент информационной навигации
Отв: B147858 Рубрикатор как инструмент информационной навигации
Ну хорошо. Предположим, случилось страшное, и Вас заинтересовало программирование PIC-контроллеров. Поиск по "PIC" в библиотеке результатов не даст, поиск по "контроллеры" - даст набор книг на "Генезисе", но - если искомая книга называлась "Программирование средств промышленной автоматизации" - этот бесценный труд пролетит мимо Вас.
Найти библиографию по теме где-нибудь в и-нете, безусловно, можно, но хотелось бы, чтобы Либрусек был в этом смысле вещью самодостаточной.
Отв: B147858 Рубрикатор как инструмент информационной навигации
А чё я, чё я-то? Я ваще завсегда за.
Мой тезис таков:
Отличие информационной организации от склада - в наличии тематического поиска. Любая библиотека - что электрическая, что бумажная - это в первую очередь склад (с более или менее развитой логистикой). А библиотекой, т.е., храмом знаний, этот склад делают средства тематического поиска.
Раньше в бумажных библиотеках такие средства были - тематический каталог, библиографические издания плюс собственно библиографы. Теперь всё умерло, и этот механизм погребён под завалами информации. С альтернативами, в общем, плохо.
Отв: B147858 Рубрикатор как инструмент информационной навигации
Я бы, честно говоря, к поиску добавил еще и навигацию по классификационному дереву. Что-то типа "А что у нас тут по программированию есть ? А для Web ? А чтоб еще и PHP присутствовало ?"
При любом раскладе - то, что "всё плохо", мы уже поняли. Теперь хотелось бы узнать, что надо сделать, чтобы всё опять стало хорошо :)
Отв: B147858 Рубрикатор как инструмент информационной навигации
Ну это и есть оно.
Правильно в наше время это оно должно выглядеть так:
Юзер в свободной форме даёт запрос.
В ответ он получает список понятий, соответствующих запросу.
Кликнув по понятию, юзер переходит в ту или иную классификационную систему, в то место, где это понятие находится.
И видит там книжки - по теме, по теме уже, по теме шире, по теме сбоку.
А если не понравилось - то выбрать список понятий, которым требуемое должно удовлетворять.
Тогда и будет -
Такое "оно" называется - "сужать запрос по тезаурусу". Но в современной программистской мысли почему-то модно расширять...
Как минимум - не класть книжки в картинках....
Отв: B147858 Рубрикатор как инструмент информационной навигации
Это невозможно.
Миссия pdf, кстати, была в частности в том, чтобы совместить текстовое представление с обеспечением сохранности содержания. Иначе научные статьи публиковали бы в rtf, скажем. Хорошо, если djvu или pdf файл имеет текстовый слой. В том случае, если он получен из авторского текста. Если из OCR - то такая естественнонаучная книжка годится только на шпаргалки студентам.
Отв: B147858 Рубрикатор как инструмент информационной навигации
Книжка в картинках - это всё равно, что ничего.
Господа! Сказать файнридеру "распознать всё" - это один клик. Второй - создать pdf с текстовым слоем. И не обязательно класть текстовый слой поверх картинки - можно и наоборот.
Даже если результат будет содержать массу дефектов распознавания, в нём исчезнут формулы и картинки - всё равно его будет достаточно для более-менее адекватного автоматического индексирования. А альтернативы автоматическому индексированию нет.
Любая самая крутая классификация требует, чтобы кто-то соотнёс книгу с этой самой классификацией. Проиндексировал, типа. В процессе систематизации или предметизации. Три четверти книг в этой стране систематизируются примерно двадцатью сотрудниками Ленинской библиотеки. По ББК. Их не будет больше, и работать лучше они тоже не будут - работа эта низкооплачиваемая, однако требует наличия ума и образования.
Очевидно, тексты, книгами не являющиеся, никто никогда не проиндексирует. И какого тематического поиска вы хотите? Особенно, если курочите заглавия - лишая себя возможности воспользоваться плодами труда профессиональных систематизаторов?
Альтернатива - автоматическое индексирование. А для художественной литературы - вообще единственная возможность, ибо её никто не систематизирует. Да и классификаторов для неё нет.
Автоматическое индексирование даёт посредственный результат, требует специально заточенных классификационных систем - но это единственный путь. Но что-то вы не пылаете энтузиазмом...
Резюме: нет волшебного рецепта. Вот я скажу - и всё будет. Нет. Чтобы было - нужно делать. Нужно составить и поддерживать рубркатор. Нужно иметь текстовые книги. Нужно поддерживать в правильности их реквизиты. Нужно как-то соотнести книги с рубрикатором. И только потом - воспользоваться плодами.
А я вообще полагаю, что большинство народу тайно глубоко убеждено, что компьютер умеет думать, и если подождать -он всё придумает. Сам.
Отв: B147858 Рубрикатор как инструмент информационной навигации
Вы хотите сказать, что в документе djvu или pdf могут параллельно существовать распознанный текстовый слой (пусть коряво распознанный, но невидимый для читающего и видимый для инструмента индексирования) и тот же текст в виде обычной картинки?
Если так, то ситуация кардинально меняется...
Отв: B147858 Рубрикатор как инструмент информационной навигации
В DJVU - однозначно может. И, более того, там даже может существовать оглавление, распознаваемое djvulibre (по крайней мере).
Более того, есть даже инструмент, позволяющий автоматизировать процесс (DjvuOCR), хоть и не "в один клик". И если суровый Stager предлагает сделать стандартом для добавления технической литературы DJVU с текстовым слоем и оглавлением (как минимальное требование), я, наверное, подчинюсь :)
Отв: B147858 Рубрикатор как инструмент информационной навигации
Я бы предложил - толку что?
Отв: B147858 Рубрикатор как инструмент информационной навигации
Нууу... Мне самому такая мысль уже приходила в голову. О том, чтобы нераспознанную книжку - сперва в морилку, потом в распрямилку, распознать и сделать оглавление. Проблема в том, что с технологией всего процесса я еще только разбираюсь, получается медленно - а залить что-нибудь свеженькое иногда свербит, и сильно. Скажем так - буду стремиться к окультуриванию. Но - проблемы классификации это автоматом не решает :)
Отв: B147858 Рубрикатор как инструмент информационной навигации
Не знаю за djvu, но длля pdf -
Отв: B147858 Рубрикатор как инструмент информационной навигации
Ну почему же... я - пылаю. Точнее, тлею. Пока что на этапе думания, да и то - с продолжительными остановками (реал, знаете ли, заедает...). Но вот уже, в дополнение к предыдущему разговору, додумался до того, что neural network для автораспознавания жанров художки таки придётся использовать. И до того, что не так neural network страшен, как его малюют - есть вполне пригодные готовые библиотеки, я остановился на FANN. Теперь вот думаю, нельзя ли всё-таки и подбор кивордов (ага, лошадей с мечами) тоже автоматизировать. Пока, правда - тупик...
Отв: B147858 Рубрикатор как инструмент информационной навигации
Звездолет на дикой планете. Звездолет упоминается раз пять, лошади с мечами - раз 100. К какому жанру причислит такую книгу ИскИн?
Отв: B147858 Рубрикатор как инструмент информационной навигации
К фентези. And rightly so.
Отв: B147858 Рубрикатор как инструмент информационной навигации
А как? Я совсем не понимаю в нейроных сетях, но, вроде, обучающая последовательность должна иметь однозначные критерии соответствия определённому результату, причём - одному. Как найти (составить?) текст, стопудово соответствующий одному делению классификации из (хотя бы) двух сотен, и стопудово не соответствующий никакому другому - я не представляю.
Ну тут правда тупик :-) Этот вопрос исследовался и многие пытались. Для отдельного текста - можно. Общие для двух - ну, где-то как-то... Для трёх - уже только местоимения :-)
Отв: B147858 Рубрикатор как инструмент информационной навигации
Не хотелось бы поднимать старый флейм на тему, "что лучше - книга в плохом формате или вообще никакой".
Скажем так - скорость конвертации и вычитки мною книг существенно ниже скорости появления в и-нете любопытной литературы, и с этим я мало что могу поделать.
Но это - что касается программы минимум. А мне, честно говоря, хотелось большего - услышать от Вас, как профессионала, конкретные рекомендации. На уровне "копать здесь, кидать сюда, пока летит - отдыхать" :)
Отв: B147858 Рубрикатор как инструмент информационной навигации
Чисто технически: имя файла отданной книги - горбатое, и сам файл - классический пример того, как не надо использовать djvu. Я полагаю, распознать и закатать в .txt изготовителю помешали исключительно религиозные соображения.