Параллельный Корпус

Страницы:  1
Ответить
 

LifeXacker

Стаж: 15 лет 4 месяца

Сообщений: 40


LifeXacker · 15-Янв-17 16:13 (7 лет 11 месяцев назад, ред. 21-Апр-18 14:31)

Добрый вечер!
Всех с прошедшими праздниками!
Хочу предложить новый тип раздач – книги и их переводы. Ее можно разместить в разделе "Коллекции книг и библиотеки".
Кому это нужно:
- переводчикам
- изучающим иностранные языки
- всем, кто время от времени имеет дело с переводами по своей специальности (например, ученые, собирающие информацию на английском языке для написания научной статьи).
Пожелания: отличное качество оцифровки + распознанный текст, прошедший вычитку (он может быть добавлен в книжки формата PDF и DjVu в виде текстового слоя или сохранен в формате Microsoft Word).
Для “выравнивания” (создания параллельного корпуса, где слева – оригинал, а справа – перевод) текстов используйте следующие программы:
- ABBYY Aligner – зарегистрируйтесь и заполните свой профиль на сайте https://ru.smartcat.ai, после чего отправьте запрос в службу поддержки с просьбой выслать вам эту программу. В ответ придет ссылка на ее скачивание и серийный номер.
- LF Aligner 4.1 – утилита одного венгерского программиста – https://sourceforge.net/projects/aligner
Все программы абсолютно бесплатны.
Как этот корпус может помочь Вам?
Перед началом перевода (будь-то большой проект или всего лишь одна небольшая научная статья):
- скачайте книги нужной вам тематики
- создайте на их основе корпус текстов в формате Microsoft Word (в виде двухколоночной таблицы, где слева будет оригинал, а справа – перевод) или TMX (файл памяти перевода – https://ru.wikipedia.org/wiki/Translation_Memory_eXchange)
- выполняйте поиск эквивалентов переводов в программе Microsoft Word или программе автоматизированного перевода (SDL Trados, MemoQ и другие)
- создайте пользовательский словарь под конкретный проект, чтобы не выполнять поиск одних и тех же эквивалентов дважды. Это можно сделать вручную (долго), либо с помощью модулей для извлечения терминов, встроенных в популярные программы для переводчиков - SDL MultiTerm Extract, PROMT Terminoloy Manager и др. Полученные словари можно добавить, например, в словарь Мультитран под своим ником, чтобы помочь развитию общедоступных онлайн словарей.
Возможно, этот проект даст импульс коллективной работе по созданию большого параллельного корпуса текстов. На сайте https://www.lingvolive.com/ru-ru уже давно существует такая база переводов, но по словам моего знакомого, который списывался с компанией ABBYY, добавление новых текстов не ведется уже долгое время, хотя ситуация уже могла измениться. К тому же, они не смогут включить в свой онлайн корпус все имеющиеся в мире книги и их переводы. Еще один замечательный многоязычный корпус переводов расположен здесь - http://context.reverso.net/translation. Готовые базы переводов можно будет включать в сами эти раздачи или специальные раздачи, где будут собраны одни только базы переводов.
Чтобы уменьшить размер будущей раздачи, ее можно будет разделить на несколько раздач по разным тематикам. Если найдутся желающие, то можно распределить разделы форума между добровольцами, задача которых – находить по всему Интернету оригиналы книг, переведенных на русский язык и выложенных на местном форуме. Для ускорения поиска выкладывайте в этой ветке ссылки на большие книгохранилища литературы на разных языках мира.
На данный момент у меня скопилось несколько десятков книг на тему финансовые рынки (технический и фундаментальный анализы рынков, стратегии трейдинга, Форекс, акции, опционы, инвестиции, IPO) и экономика. Если проект стартует, я могу сразу же предоставить их для раздачи, но для начала нужно будет правильно оформить названия книг.
Надеюсь, что эта идея многим покажется интересной.
Удачи!
[Профиль]  [ЛС] 

LifeXacker

Стаж: 15 лет 4 месяца

Сообщений: 40


LifeXacker · 21-Янв-17 21:50 (спустя 6 дней, ред. 19-Дек-17 14:14)

Если сканирование, оцифровка и вычитка книг, а также компиляция словарей в формат Лингво, стали очень популярными занятиями, то почему бы нам вместе не открыть такое очень нужное направление, как создание корпуса переводов? Рано или поздно это точно свершится.


Сообщения из этой темы [1 шт.] были перенесены в [Ищу | Предлагаю] Другие восточные языки (арабский, турецкий, корейский и др.)
mpv777
[Профиль]  [ЛС] 

LifeXacker

Стаж: 15 лет 4 месяца

Сообщений: 40


LifeXacker · 20-Янв-19 13:43 (спустя 1 год 11 месяцев)

Кстати, в Сети есть уже готовые параллельные тексты художественных произведений -
Серия параллельных переводов книг
[Профиль]  [ЛС] 

LifeXacker

Стаж: 15 лет 4 месяца

Сообщений: 40


LifeXacker · 17-Мар-19 11:23 (спустя 1 месяц 27 дней, ред. 27-Ноя-19 15:42)

Здесь находится огромная база параллельных текстов художественных произведений, а здесь реализован поиск по ней.
[Профиль]  [ЛС] 

romulus_z

Стаж: 12 лет 3 месяца

Сообщений: 227


romulus_z · 19-Май-22 11:37 (спустя 3 года 2 месяца, ред. 19-Май-22 11:37)

Полностью за параллельные тексты и софт для них:
Это и надо больше имхо развивать. Но именно и только в индивидуалистическом плане. - Никаких коллективных разработок и глобальных проектов категорически! )))))))))
ВСЕ МОНЕТИЗИРУЕТСЯ!
Вы кому эти базы данных создавать собрались?
Семьям Лаврова, Пескова, Володина, Мизулиной, Родниной, Терешковой, etc.?
У них и так вилл на Западе уже больше, чем достаточно.
Переводчики счас просто oбcлуга, типа полового в трактире, не элита, как в совке было. Не надо путать!
Разве программы CAT, SDL служат переводчикам?
Вам платят, допустим, $0,1 за перевод слова в первый раз, а далее только 1/3, пробелы НЕ оплачиваются, но ведь даже машинистке 90-х они оплачивались, не говоря о переводчиках. Матрица А4 это 1800 знаков с пробелами- все этим сказано. Поэтому не надо безумных проектов по эксплуатации переводчиков, рабов CAT & SDL, эти программы требование заказчика, а не желание переводчика!
[Профиль]  [ЛС] 

A13156

Стаж: 2 года 8 месяцев

Сообщений: 22


A13156 · 20-Май-22 21:19 (спустя 1 день 9 часов)

А еще Надежда Константиновна с Владимиром Ильичем любили параллельными переводами языки изучать, они много были в эмиграции.
[Профиль]  [ЛС] 
 
Ответить
Loading...
Error