На днях появилась необходимость перевести пару статей с сохранением форматирования оригинала. Для себя сделал несколько маленьких открытий и вот решил описать результат, может еще кому пригодится, а может меня поправят/дополнят.
Коммерческое платное ПО не рассматривал т.к. для меня это разовая затея и тратить деньги на эти ценли я пока не намерен.
Для перевода текстов с сохранением форматирования существуют программы, поддерживающие технологию памяти перевода (
http://goo.gl/24IiG). Эти программы на основе ранее переведенных фрагментов текста предлагаю перевод последующих. Для использования в linux подойдут
Написана на java. Поддерживаемые форматы файлов документов: XHTML и HTML, Microsoft Office 2007 XML, OpenOffice.org/StarOffice, XLIFF (Okapi), MediaWiki (Wikipedia), неформатированный текст.
Online. Поддерживаемые форматы: txml, txt, doc, docx, rtf, xls, xlsx, ppt, pptx, pdf, htm, html, mif, FrameMaker file, inx, odt, ods, tif, tiff. Внешне функционал WF и OmegaT в основном одинаковы. Необходимость постоянно быть on-line для работы с WF не очень мне подходит и я им не пользовался толком.
Машинный перевод для специализированных текстов пока не всегда хорош, но когда речь идет о большом количестве текста, то заранее переведенные простые фразы очень экономят время. Из систем машинного перевода есть:
Имеет ограничение в 3k символов.
Имеет ограничение в 10k символов.
Упоминаний об ограничениях нет. Есть также возможность использовать его в google docs.
В упомянутых выше системах TM можно при переводах использовать файлы TMX с переведенными сегментами от других документов. Если вы изначально пользовались OmegaT то их без труда можно взять в каталоге проекта, а если нет, то aligner'ы вам в помощь. Вы им подсовываете оригинал и перевод, а они сегментируют тексты и составляют пары сегментов оригинал-перевод в виде tmx файлов, которые можно потом дальше использовать.
Эта программа имеет варварское ограничение в 50 строк. У меня не влез в это ограничение ни один текст. Размер каждого файла не должен превышать 1Мб. Допустимый формат документов: doc, docx, rtf, txt (только в unicode кодировке), htm, html, ppt, pptx, pps, ppsx, xls, xlsx, pdf.
Этот сервис оставил положительное впечатление. Из ограничение - размер файла в 1мб., что для plain text очень много. Поддерживаемые форматы: Microsoft Word, Excel and PowerPoint, Adobe PDF, HTML, XML, Corel WordPerfect, RTF, Lotus WordPro and plain text. Умеет убирать дубликаты и пустые строки. Сопоставленные сегменты не вызывали нареканий.
Имеет GUI. Написан на java. Из поддерживаемых форматов только txt. Можно редактировать сегментацию. С сопоставлением оригинал-перевод были трудности, в основном из-за сокращений типа mr., dr. Из-за того, что в переводе эти слова были написаны полностью а в оригинале шли с точкой они получались разными сегментами. Весь текст на перекосяк и вроде можно все отредактировать (join - alt+j; split - alt+s), да только вот функции "отменить изменения" я не нашел и одна маленькая ошибка в большом тексте заставляет править сегментацию заново.
Имеет как-бы GUI (от него есть только диалог выбора файла). Из поддерживаемых форматов только txt. Брыкается, если в оригинале и переводе не совпадает количество параграфов. С задачей справился хорошо.
Поддерживаемые форматы: txt, doc, docx, rtf, pdf, html. Умеет убирать дубликаты, пустые строки. Есть проблемы с русскими буквами в названиях файлов и каталогов. Результат можно посмотреть в виде электронной таблицы. Справился с задачей хорошо.
Это часть функционала wordfast. Поддерживает форматы: doc, docx, rtf, xls, ppt, inx, mif. Результат высылает на почту, ждал результата долго, пришла ошибка и второй раз не пробовал.
Т.е. в итоге берем оригинал, делаем машинный перевод. Выравниваем оригинал-перевод, полученный tmx файл подсовываем к примеру omegat и дальше уже занимаемся переводом.
Ну и конечно словари: Stardict, Goldendict.