Указываем качество книги правильно

Страницы:  1
Ответить
 

Cucumis

VIP (Заслуженный)

Стаж: 17 лет 5 месяцев

Сообщений: 12018

Cucumis · 23-Авг-12 11:05 (12 лет 4 месяца назад, ред. 23-Авг-12 11:11)

Участились случаи выбора качества "от фонаря", поэтому решил написать маленький FAQ по качеству книг.

Соответственно, в таких случаях выбираем качество "Отсканированные страницы". Если присутствует также текстовый слой - "Отсканированные страницы + слой распознанного текста". Не "OCR с ошибками", не "OCR без ошибок" и не "Издательский макет или текст" (Изначально компьютерное (eBook).
Качество "OCR" или "Издательский макет или текст" (Изначально компьютерное (eBook) может быть только в том случае, если текст выглядит "как в Word-е", то есть при увеличении масштаба не вылазят артефакты.
Последнее: как отличить OCR от изначально компьютерного качества. Старые книги (до начала 90-х годов) в изначально компьютерном качестве существовать не могут за редкими исключениями. Изначально компьютерное качество характерно в основном для современных зарубежных книг (они доступны для покупки в таком качестве, в том числе как приложение к бумажной книге). Характерные признаки: оригинальная верстка, нумерация, очень высокое качество иллюстраций, текст выглядит "как в word-е", то есть при увеличении масштаба не вылазят артефакты. Еще такие книги обычно имеют отдельный ISBN для электронной версии. Наиболее типичный формат - PDF.
В случае OCR обычно бывает заметно, что иллюстрации отсканированы, нумерация страниц в файле зачастую не совпадает с оригинальной, нарушено выравнивание, могут быть ошибки. Кроме того, в самом файле может быть информация о том, что сканирование, OCR и вычитка сделаны тем-то и тем-то (ник либо реальное имя и фамилия). Наиболее типичны текстовые форматы, затем PDF, DjVu - реже всего.
[Профиль]  [ЛС] 

DjVu-Master

Стаж: 14 лет 11 месяцев

Сообщений: 6125

DjVu-Master · 30-Авг-12 23:21 (спустя 7 дней)

Cucumis писал(а):
54828450Участились случаи выбора качества "от фонаря", поэтому решил написать маленький FAQ по качеству книг.
Ага. Даже среди наших колег.
[Профиль]  [ЛС] 

rioter11

Top Seed 04* 320r

Стаж: 17 лет 5 месяцев

Сообщений: 1654

rioter11 · 24-Сен-12 00:30 (спустя 24 дня)

в какую категорию следует отнести PDF обработанный инструментом ClearScan ocr в АдобАкробате?
"Отсканированные страницы + слой распознанного текста"?
[Профиль]  [ЛС] 

DjVu-Master

Стаж: 14 лет 11 месяцев

Сообщений: 6125

DjVu-Master · 24-Сен-12 00:47 (спустя 16 мин.)

rioter11 писал(а):
55377663"Отсканированные страницы + слой распознанного текста"?
Это картинка (скан) а под ним текст. Как тут.
Пример дайте.
[Профиль]  [ЛС] 

rioter11

Top Seed 04* 320r

Стаж: 17 лет 5 месяцев

Сообщений: 1654

rioter11 · 24-Сен-12 07:51 (спустя 7 часов)

Цитата:
Пример дайте.
пример для kuzya-puzya в другом топике
или
вот с этой моей раздачи
[Профиль]  [ЛС] 

DjVu-Master

Стаж: 14 лет 11 месяцев

Сообщений: 6125

DjVu-Master · 24-Сен-12 11:43 (спустя 3 часа, ред. 24-Сен-12 11:43)

rioter11 писал(а):
55377663в какую категорию следует отнести PDF обработанный инструментом ClearScan ocr в АдобАкробате?
"Отсканированные страницы + слой распознанного текста"?
Здесь - да.
rioter11 писал(а):
55377663ClearScan ocr в АдобАкробате
Я не знаю принцып работы этих програм и метод сохранения ими в файл.
Если у вас картинка а под ней текст - это "Отсканированные страницы + слой распознанного текста"?
Вот здесь например есть чисто картинки и есть распознанный текст.
[Профиль]  [ЛС] 

bagatur80

Top Seed 01* 40r

Стаж: 13 лет 6 месяцев

Сообщений: 1231

bagatur80 · 15-Апр-14 19:03 (спустя 1 год 6 месяцев)

Cucumis писал(а):
54828450Участились случаи выбора качества "от фонаря", поэтому решил написать маленький FAQ по качеству книг.
По правде, я в первый раз в обозначение качества просто наугад тыкал, буквально пальцем в небо.. да и счас не всё понятно....
OCR с ошибками - это что? С какими ошибками, орфографическими штоль?..
[Профиль]  [ЛС] 

DjVu-Master

Стаж: 14 лет 11 месяцев

Сообщений: 6125

DjVu-Master · 15-Апр-14 19:20 (спустя 17 мин.)

bagatur80 писал(а):
63615655OCR с ошибками - это что? С какими ошибками, орфографическими штоль?..
[Профиль]  [ЛС] 

Mercury13

Стаж: 15 лет 10 месяцев

Сообщений: 10


Mercury13 · 07-Май-14 05:44 (спустя 21 день, ред. 07-Май-14 05:44)

Ещё раз, для особо не понимающих.
РАСТРОВЫЕ ФОРМАТЫ
Отсканированные страницы — это когда страницы отсканированы как растровое изображение. Сохранена вёрстка оригинала; возможна грязь; когда сильно увеличишь, будут видны пиксели. Форматы: все графические, DjVu, иногда PDF.
Сфотографированные страницы — аналогично сканированным, но есть следы непрофессиональной фотосъёмки: виньетка от вспышки (если переведено в 1-битное, буквы по краям толще), расфокусировка, блики, неровные страницы. Самое поганое качество.
Отсканированные страницы со слоем OCR — это значит, что текст можно выделить и скопировать. Поскольку в первую очередь слой OCR важен для поиска и цитирования (читать мы будем скан), Рутрекер не различает, есть там ошибки или нет. Главное, чтобы их не было так много, как в предыдущем посте. Формат обычно DjVu (не уверен, что это есть в PDF). Я много раз видел PDF’ы, где поверх скана наложен ВИДИМЫЙ текстовый слой, в 90% случаев получалось нечитабельно.
ТЕКСТОВЫЕ ФОРМАТЫ (FB2, ePub, PDF, DOC/DOCX, RTF, TXT и многие другие…)
«Изначально компьютерное» — это значит, что книга вообще никогда не была бумажной (или как минимум прошла профессиональную подготовку и редактуру, прежде чем стать компьютерной). Как она, «изначально компьютерная», могла к нам попасть? Либо от автора, либо куплена в электронном виде. Признаки: текст набран векторным шрифтом (т.е. «как в Word’е», сколько ни увеличивай — пикселей не видно), нет присущих OCR’у ошибок, высококачественные иллюстрации, верная нумерация страниц без пропусков, правильное оглавление, свёрстанное в одном стиле с книгой. Книги 80-х годов и ранее, когда компьютерного книгоиздательства не было, в принципе не могут быть изначально компьютерными!
«OCR без ошибок» — источником является бумажная книга, однако редактор хорошо поработал и каждое слово электронной книги сверено с бумажным источником. Красивый безошибочный текст, как в Word’е, на иллюстрациях следы сканирования, сбита нумерация страниц. Редактор, который отсканировал, распознал и вычитал (обычно непрофессионал) где-то записывает своё имя или ник.
«OCR с ошибками» — то же самое, однако ошибки распознания бросаются в глаза и такую книгу ты сыну точно не распечатаешь.
[Профиль]  [ЛС] 

DjVu-Master

Стаж: 14 лет 11 месяцев

Сообщений: 6125

DjVu-Master · 07-Май-14 09:22 (спустя 3 часа)

Mercury13 писал(а):
63848841«OCR без ошибок» — .... сбита нумерация страниц.
У меня никогда не сбивается. ФР же распознает страницами и сохраняет страницами. Word, PDF, DjVu.
Mercury13 писал(а):
63848841Редактор, который отсканировал, распознал и вычитал (обычно непрофессионал) где-то записывает своё имя или ник.
Ясен пень. На шару отсканил и распознал. Конечно подпишу.
[Профиль]  [ЛС] 

bagatur80

Top Seed 01* 40r

Стаж: 13 лет 6 месяцев

Сообщений: 1231

bagatur80 · 07-Май-14 09:59 (спустя 37 мин.)

А я ещё заметил, что OCR от сканов можно различить и по весу файлов - последние в разы (десятки раз) тяжелее...
Интересно, а нет такой тестовой программки типа MediaInfo для видеофайлов, чтобы прозвонить книжку и... нужную инфу получить?..
[Профиль]  [ЛС] 

DjVu-Master

Стаж: 14 лет 11 месяцев

Сообщений: 6125

DjVu-Master · 07-Май-14 10:03 (спустя 4 мин.)

bagatur80 писал(а):
63850069нужную инфу получить?..
Какую именно?
[Профиль]  [ЛС] 

bagatur80

Top Seed 01* 40r

Стаж: 13 лет 6 месяцев

Сообщений: 1231

bagatur80 · 07-Май-14 10:58 (спустя 55 мин., ред. 07-Май-14 10:58)

DjVu-Master ну вот чтобы качество не на глазок определять, а раз! OCR раз! eBook..))
Кста на флибусте все книги в основном FB2, и старые издания (не только зарубежные) - тоже почему-то
[Профиль]  [ЛС] 

Loexa

Стаж: 15 лет 1 месяц

Сообщений: 566

Loexa · 09-Май-14 22:54 (спустя 2 дня 11 часов, ред. 10-Май-14 01:21)

bagatur80 писал(а):
63850527качество не на глазок определять, а раз!
Намётаный глаз и так сразу определяет:)
А на флибусте целый конвейер работает — одни сканируют, другие обрабатывают, третьи вычитывают. Здесь же постольку-поскольку. Потому что осилить такую работу в одиночку — это нужен человек-оркестр.
[Профиль]  [ЛС] 

NICO12

Стаж: 15 лет 1 месяц

Сообщений: 20


NICO12 · 29-Июн-14 13:51 (спустя 1 месяц 19 дней)

Скажите, а какое качество указать для книги, ВРУЧНУЮ перепечатанной в формат word?
[Профиль]  [ЛС] 

DjVu-Master

Стаж: 14 лет 11 месяцев

Сообщений: 6125

DjVu-Master · 29-Июн-14 16:09 (спустя 2 часа 17 мин., ред. 29-Июн-14 16:09)

NICO12 писал(а):
64402145Скажите, а какое качество указать для книги, ВРУЧНУЮ перепечатанной в формат word?
Цитата:
Качество: Распознанный текст без ошибок (OCR)
[Профиль]  [ЛС] 

Cucumis

VIP (Заслуженный)

Стаж: 17 лет 5 месяцев

Сообщений: 12018

Cucumis · 29-Июн-14 16:46 (спустя 37 мин.)

DjVu-Master писал(а):
64403340Качество: Распознанный текст без ошибок (OCR)
изначально компьютерное это будет. Потому как оптического распознавания символов тут как такого нет, сканером работает сам человек
[Профиль]  [ЛС] 

Belomorus-2

Top Seed 05* 640r

Стаж: 8 лет 3 месяца

Сообщений: 3158

Belomorus-2 · 15-Июн-20 23:36 (спустя 5 лет 11 месяцев)

Помогите разобраться, пожалуйста. В Сети возник спор насчет этой книги. Я думаю, что издательский макет, коллега утверждает, что OCR без ошибок. Кто прав?
[Профиль]  [ЛС] 

rioter11

Top Seed 04* 320r

Стаж: 17 лет 5 месяцев

Сообщений: 1654

rioter11 · 16-Июн-20 14:18 (спустя 14 часов)

а какие аргументы против того что это издательский макет ?
[Профиль]  [ЛС] 

Belomorus-2

Top Seed 05* 640r

Стаж: 8 лет 3 месяца

Сообщений: 3158

Belomorus-2 · 16-Июн-20 14:45 (спустя 26 мин.)

rioter11
Один из его аргументов: в издательском макете обязательно должно быть интерактивное оглавление. По-моему, чушь.
[Профиль]  [ЛС] 

rioter11

Top Seed 04* 320r

Стаж: 17 лет 5 месяцев

Сообщений: 1654

rioter11 · 16-Июн-20 15:16 (спустя 30 мин., ред. 16-Июн-20 15:16)

Цитата:
в издательском макете обязательно должно быть интерактивное оглавление.
Имхо, в идеальной e-book должно быть и интерактивное оглавление и букмарки и сноски и ссылки + прописаны все теги, но "издательский макет" - на то и "издательский" -он не для распространения книги в электронном виде - он прежде всего для обработки файла издательствами и типографиями т.е. для качественной печати, а фичи именно e-book для него не обязательны. Особенно учитывая, что многие "издательские макеты" нынче делаются не в шрифтах а в кривых (т.е. без текстового слоя). "Издательский макет" ≠ "e-book", предназначение первого - максимальное качество печати (иногда даже в виде конских размеров), а предназначение второго - максимальное удобство использования на е-устройствах (т.е. появляются требования к текстовому слою, к компактности файла и к комфортности в виде букмарков).
[Профиль]  [ЛС] 

Arens

Старожил

Стаж: 17 лет 3 месяца

Сообщений: 1956

Arens · 23-Авг-22 17:21 (спустя 2 года 2 месяца)

Mercury13 писал(а):
63848841ТЕКСТОВЫЕ ФОРМАТЫ (FB2, ePub, PDF, DOC/DOCX, RTF, TXT и многие другие…)
Так какое качество надо указывать? FB2 это какое качество конкретно? Нигде не нашел.
[Профиль]  [ЛС] 

mpv777

Admin gray

Стаж: 16 лет 8 месяцев

Сообщений: 32077

mpv777 · 23-Авг-22 17:29 (спустя 8 мин.)

Arens писал(а):
83533294FB2 это какое качество конкретно?
основные варианты:
- издательский текст (купленные файлы с Литреса и т.п.)
- распознанный текст (файлы после Файнридера и т.п.)
[Профиль]  [ЛС] 

Arens

Старожил

Стаж: 17 лет 3 месяца

Сообщений: 1956

Arens · 23-Авг-22 17:53 (спустя 23 мин.)

mpv777
Как их различать? По мне так все Фб2 одинаковые. Есть несколько книг в этом формате, что именно указывать в шаблоне? Вообще не понимаю.
[Профиль]  [ЛС] 

mpv777

Admin gray

Стаж: 16 лет 8 месяцев

Сообщений: 32077

mpv777 · 23-Авг-22 17:59 (спустя 6 мин.)

Arens
Что-то по тегам понять можно, где-то интуиция подскажет
[Профиль]  [ЛС] 

Arens

Старожил

Стаж: 17 лет 3 месяца

Сообщений: 1956

Arens · 18-Дек-22 00:34 (спустя 3 месяца 25 дней)

mpv777
Вопрос по правилам. Если на сайте уже есть книга в формате дежавю, могу ли я выложить ту же в формате фб2? Или это считается как повтор?
[Профиль]  [ЛС] 

mpv777

Admin gray

Стаж: 16 лет 8 месяцев

Сообщений: 32077

mpv777 · 18-Дек-22 02:39 (спустя 2 часа 4 мин.)

Arens
Можете
[Профиль]  [ЛС] 

ПрекрасноеДалёко

Стаж: 13 лет 10 месяцев

Сообщений: 11


ПрекрасноеДалёко · 12-Сен-24 00:27 (спустя 1 год 8 месяцев)

Belomorus-2 писал(а):
79627477Помогите разобраться, пожалуйста. В Сети возник спор насчет этой книги. Я думаю, что издательский макет, коллега утверждает, что OCR без ошибок. Кто прав?
100% издательский e-book, это сразу видно по качеству, даже в потроха документа лезть не надо. Сканов таких идеальных не бывает.
[Профиль]  [ЛС] 
 
Ответить
Loading...
Error