|
Cucumis
Стаж: 17 лет 5 месяцев Сообщений: 12018
|
Cucumis ·
23-Авг-12 11:05
(12 лет 4 месяца назад, ред. 23-Авг-12 11:11)
Участились случаи выбора качества "от фонаря", поэтому решил написать маленький FAQ по качеству книг.
Соответственно, в таких случаях выбираем качество "Отсканированные страницы". Если присутствует также текстовый слой - "Отсканированные страницы + слой распознанного текста". Не "OCR с ошибками", не "OCR без ошибок" и не "Издательский макет или текст" (Изначально компьютерное (eBook).
Качество "OCR" или "Издательский макет или текст" (Изначально компьютерное (eBook) может быть только в том случае, если текст выглядит "как в Word-е", то есть при увеличении масштаба не вылазят артефакты.
Последнее: как отличить OCR от изначально компьютерного качества. Старые книги (до начала 90-х годов) в изначально компьютерном качестве существовать не могут за редкими исключениями. Изначально компьютерное качество характерно в основном для современных зарубежных книг (они доступны для покупки в таком качестве, в том числе как приложение к бумажной книге). Характерные признаки: оригинальная верстка, нумерация, очень высокое качество иллюстраций, текст выглядит "как в word-е", то есть при увеличении масштаба не вылазят артефакты. Еще такие книги обычно имеют отдельный ISBN для электронной версии. Наиболее типичный формат - PDF.
В случае OCR обычно бывает заметно, что иллюстрации отсканированы, нумерация страниц в файле зачастую не совпадает с оригинальной, нарушено выравнивание, могут быть ошибки. Кроме того, в самом файле может быть информация о том, что сканирование, OCR и вычитка сделаны тем-то и тем-то (ник либо реальное имя и фамилия). Наиболее типичны текстовые форматы, затем PDF, DjVu - реже всего.
|
|
DjVu-Master
Стаж: 14 лет 11 месяцев Сообщений: 6125
|
DjVu-Master ·
30-Авг-12 23:21
(спустя 7 дней)
Cucumis писал(а):
54828450Участились случаи выбора качества "от фонаря", поэтому решил написать маленький FAQ по качеству книг.
Ага. Даже среди наших колег.
|
|
rioter11
Стаж: 17 лет 5 месяцев Сообщений: 1654
|
rioter11 ·
24-Сен-12 00:30
(спустя 24 дня)
в какую категорию следует отнести PDF обработанный инструментом ClearScan ocr в АдобАкробате?
"Отсканированные страницы + слой распознанного текста"?
|
|
DjVu-Master
Стаж: 14 лет 11 месяцев Сообщений: 6125
|
DjVu-Master ·
24-Сен-12 00:47
(спустя 16 мин.)
rioter11 писал(а):
55377663"Отсканированные страницы + слой распознанного текста"?
Это картинка (скан) а под ним текст. Как тут.
Пример дайте.
|
|
rioter11
Стаж: 17 лет 5 месяцев Сообщений: 1654
|
rioter11 ·
24-Сен-12 07:51
(спустя 7 часов)
|
|
DjVu-Master
Стаж: 14 лет 11 месяцев Сообщений: 6125
|
DjVu-Master ·
24-Сен-12 11:43
(спустя 3 часа, ред. 24-Сен-12 11:43)
rioter11 писал(а):
55377663в какую категорию следует отнести PDF обработанный инструментом ClearScan ocr в АдобАкробате?
"Отсканированные страницы + слой распознанного текста"?
Здесь - да.
rioter11 писал(а):
55377663ClearScan ocr в АдобАкробате
Я не знаю принцып работы этих програм и метод сохранения ими в файл.
Если у вас картинка а под ней текст - это "Отсканированные страницы + слой распознанного текста"?
Вот здесь например есть чисто картинки и есть распознанный текст.
|
|
bagatur80
Стаж: 13 лет 6 месяцев Сообщений: 1231
|
bagatur80 ·
15-Апр-14 19:03
(спустя 1 год 6 месяцев)
Cucumis писал(а):
54828450Участились случаи выбора качества "от фонаря", поэтому решил написать маленький FAQ по качеству книг.
По правде, я в первый раз в обозначение качества просто наугад тыкал, буквально пальцем в небо.. да и счас не всё понятно....
OCR с ошибками - это что? С какими ошибками, орфографическими штоль?..
|
|
DjVu-Master
Стаж: 14 лет 11 месяцев Сообщений: 6125
|
DjVu-Master ·
15-Апр-14 19:20
(спустя 17 мин.)
bagatur80 писал(а):
63615655OCR с ошибками - это что? С какими ошибками, орфографическими штоль?..
|
|
Mercury13
Стаж: 15 лет 10 месяцев Сообщений: 10
|
Mercury13 ·
07-Май-14 05:44
(спустя 21 день, ред. 07-Май-14 05:44)
Ещё раз, для особо не понимающих. РАСТРОВЫЕ ФОРМАТЫ Отсканированные страницы — это когда страницы отсканированы как растровое изображение. Сохранена вёрстка оригинала; возможна грязь; когда сильно увеличишь, будут видны пиксели. Форматы: все графические, DjVu, иногда PDF. Сфотографированные страницы — аналогично сканированным, но есть следы непрофессиональной фотосъёмки: виньетка от вспышки (если переведено в 1-битное, буквы по краям толще), расфокусировка, блики, неровные страницы. Самое поганое качество. Отсканированные страницы со слоем OCR — это значит, что текст можно выделить и скопировать. Поскольку в первую очередь слой OCR важен для поиска и цитирования (читать мы будем скан), Рутрекер не различает, есть там ошибки или нет. Главное, чтобы их не было так много, как в предыдущем посте. Формат обычно DjVu (не уверен, что это есть в PDF). Я много раз видел PDF’ы, где поверх скана наложен ВИДИМЫЙ текстовый слой, в 90% случаев получалось нечитабельно. ТЕКСТОВЫЕ ФОРМАТЫ (FB2, ePub, PDF, DOC/DOCX, RTF, TXT и многие другие…) «Изначально компьютерное» — это значит, что книга вообще никогда не была бумажной (или как минимум прошла профессиональную подготовку и редактуру, прежде чем стать компьютерной). Как она, «изначально компьютерная», могла к нам попасть? Либо от автора, либо куплена в электронном виде. Признаки: текст набран векторным шрифтом (т.е. «как в Word’е», сколько ни увеличивай — пикселей не видно), нет присущих OCR’у ошибок, высококачественные иллюстрации, верная нумерация страниц без пропусков, правильное оглавление, свёрстанное в одном стиле с книгой. Книги 80-х годов и ранее, когда компьютерного книгоиздательства не было, в принципе не могут быть изначально компьютерными! «OCR без ошибок» — источником является бумажная книга, однако редактор хорошо поработал и каждое слово электронной книги сверено с бумажным источником. Красивый безошибочный текст, как в Word’е, на иллюстрациях следы сканирования, сбита нумерация страниц. Редактор, который отсканировал, распознал и вычитал (обычно непрофессионал) где-то записывает своё имя или ник. «OCR с ошибками» — то же самое, однако ошибки распознания бросаются в глаза и такую книгу ты сыну точно не распечатаешь.
|
|
DjVu-Master
Стаж: 14 лет 11 месяцев Сообщений: 6125
|
DjVu-Master ·
07-Май-14 09:22
(спустя 3 часа)
Mercury13 писал(а):
63848841«OCR без ошибок» — .... сбита нумерация страниц.
У меня никогда не сбивается. ФР же распознает страницами и сохраняет страницами. Word, PDF, DjVu.
Mercury13 писал(а):
63848841Редактор, который отсканировал, распознал и вычитал (обычно непрофессионал) где-то записывает своё имя или ник.
Ясен пень. На шару отсканил и распознал. Конечно подпишу.
|
|
bagatur80
Стаж: 13 лет 6 месяцев Сообщений: 1231
|
bagatur80 ·
07-Май-14 09:59
(спустя 37 мин.)
А я ещё заметил, что OCR от сканов можно различить и по весу файлов - последние в разы (десятки раз) тяжелее... Интересно, а нет такой тестовой программки типа MediaInfo для видеофайлов, чтобы прозвонить книжку и... нужную инфу получить?..
|
|
DjVu-Master
Стаж: 14 лет 11 месяцев Сообщений: 6125
|
DjVu-Master ·
07-Май-14 10:03
(спустя 4 мин.)
bagatur80 писал(а):
63850069нужную инфу получить?..
Какую именно?
|
|
bagatur80
Стаж: 13 лет 6 месяцев Сообщений: 1231
|
bagatur80 ·
07-Май-14 10:58
(спустя 55 мин., ред. 07-Май-14 10:58)
DjVu-Master ну вот чтобы качество не на глазок определять, а раз! OCR раз! eBook..))
Кста на флибусте все книги в основном FB2, и старые издания (не только зарубежные) - тоже почему-то
|
|
Loexa
Стаж: 15 лет 1 месяц Сообщений: 566
|
Loexa ·
09-Май-14 22:54
(спустя 2 дня 11 часов, ред. 10-Май-14 01:21)
bagatur80 писал(а):
63850527качество не на глазок определять, а раз!
Намётаный глаз и так сразу определяет:)
А на флибусте целый конвейер работает — одни сканируют, другие обрабатывают, третьи вычитывают. Здесь же постольку-поскольку. Потому что осилить такую работу в одиночку — это нужен человек-оркестр.
|
|
NICO12
Стаж: 15 лет 1 месяц Сообщений: 20
|
NICO12 ·
29-Июн-14 13:51
(спустя 1 месяц 19 дней)
Скажите, а какое качество указать для книги, ВРУЧНУЮ перепечатанной в формат word?
|
|
DjVu-Master
Стаж: 14 лет 11 месяцев Сообщений: 6125
|
DjVu-Master ·
29-Июн-14 16:09
(спустя 2 часа 17 мин., ред. 29-Июн-14 16:09)
NICO12 писал(а):
64402145Скажите, а какое качество указать для книги, ВРУЧНУЮ перепечатанной в формат word?
Цитата:
Качество: Распознанный текст без ошибок (OCR)
|
|
Cucumis
Стаж: 17 лет 5 месяцев Сообщений: 12018
|
Cucumis ·
29-Июн-14 16:46
(спустя 37 мин.)
DjVu-Master писал(а):
64403340Качество: Распознанный текст без ошибок (OCR)
изначально компьютерное это будет. Потому как оптического распознавания символов тут как такого нет, сканером работает сам человек
|
|
Belomorus-2
Стаж: 8 лет 3 месяца Сообщений: 3158
|
Belomorus-2 ·
15-Июн-20 23:36
(спустя 5 лет 11 месяцев)
Помогите разобраться, пожалуйста. В Сети возник спор насчет этой книги. Я думаю, что издательский макет, коллега утверждает, что OCR без ошибок. Кто прав?
|
|
rioter11
Стаж: 17 лет 5 месяцев Сообщений: 1654
|
rioter11 ·
16-Июн-20 14:18
(спустя 14 часов)
а какие аргументы против того что это издательский макет ?
|
|
Belomorus-2
Стаж: 8 лет 3 месяца Сообщений: 3158
|
Belomorus-2 ·
16-Июн-20 14:45
(спустя 26 мин.)
rioter11
Один из его аргументов: в издательском макете обязательно должно быть интерактивное оглавление. По-моему, чушь.
|
|
rioter11
Стаж: 17 лет 5 месяцев Сообщений: 1654
|
rioter11 ·
16-Июн-20 15:16
(спустя 30 мин., ред. 16-Июн-20 15:16)
Цитата:
в издательском макете обязательно должно быть интерактивное оглавление.
Имхо, в идеальной e-book должно быть и интерактивное оглавление и букмарки и сноски и ссылки + прописаны все теги, но "издательский макет" - на то и "издательский" -он не для распространения книги в электронном виде - он прежде всего для обработки файла издательствами и типографиями т.е. для качественной печати, а фичи именно e-book для него не обязательны. Особенно учитывая, что многие "издательские макеты" нынче делаются не в шрифтах а в кривых (т.е. без текстового слоя). "Издательский макет" ≠ "e-book", предназначение первого - максимальное качество печати (иногда даже в виде конских размеров), а предназначение второго - максимальное удобство использования на е-устройствах (т.е. появляются требования к текстовому слою, к компактности файла и к комфортности в виде букмарков).
|
|
Arens
Стаж: 17 лет 3 месяца Сообщений: 1956
|
Arens ·
23-Авг-22 17:21
(спустя 2 года 2 месяца)
Mercury13 писал(а):
63848841ТЕКСТОВЫЕ ФОРМАТЫ (FB2, ePub, PDF, DOC/DOCX, RTF, TXT и многие другие…)
Так какое качество надо указывать? FB2 это какое качество конкретно? Нигде не нашел.
|
|
mpv777
Стаж: 16 лет 8 месяцев Сообщений: 32077
|
mpv777 ·
23-Авг-22 17:29
(спустя 8 мин.)
Arens писал(а):
83533294FB2 это какое качество конкретно?
основные варианты:
- издательский текст (купленные файлы с Литреса и т.п.)
- распознанный текст (файлы после Файнридера и т.п.)
|
|
Arens
Стаж: 17 лет 3 месяца Сообщений: 1956
|
Arens ·
23-Авг-22 17:53
(спустя 23 мин.)
mpv777
Как их различать? По мне так все Фб2 одинаковые. Есть несколько книг в этом формате, что именно указывать в шаблоне? Вообще не понимаю.
|
|
mpv777
Стаж: 16 лет 8 месяцев Сообщений: 32077
|
mpv777 ·
23-Авг-22 17:59
(спустя 6 мин.)
Arens
Что-то по тегам понять можно, где-то интуиция подскажет
|
|
Arens
Стаж: 17 лет 3 месяца Сообщений: 1956
|
Arens ·
18-Дек-22 00:34
(спустя 3 месяца 25 дней)
mpv777
Вопрос по правилам. Если на сайте уже есть книга в формате дежавю, могу ли я выложить ту же в формате фб2? Или это считается как повтор?
|
|
mpv777
Стаж: 16 лет 8 месяцев Сообщений: 32077
|
mpv777 ·
18-Дек-22 02:39
(спустя 2 часа 4 мин.)
|
|
ПрекрасноеДалёко
Стаж: 13 лет 10 месяцев Сообщений: 11
|
ПрекрасноеДалёко ·
12-Сен-24 00:27
(спустя 1 год 8 месяцев)
Belomorus-2 писал(а):
79627477Помогите разобраться, пожалуйста. В Сети возник спор насчет этой книги. Я думаю, что издательский макет, коллега утверждает, что OCR без ошибок. Кто прав?
100% издательский e-book, это сразу видно по качеству, даже в потроха документа лезть не надо. Сканов таких идеальных не бывает.
|
|
|