Книга Информационные технологии и лингвистика XXI века - Алла Викторовна Гуслякова
Шрифт:
Интервал:
Закладка:
Вместо термина «машинный» в компьютерной лингвистике иногда употребляется слово «автоматический», что не влияет на смысл. Однако термин автоматизированный перевод имеет совсем другое значение, так как при нём программа просто помогает человеку переводить тексты.[7]
Автоматизированный перевод предполагает такие формы взаимодействия, как частично автоматизированный перевод (например, использование переводчиком-человеком компьютерных словарей) и систему с разделением труда, то есть компьютер обучен переводить только фразы жёстко заданной структуры (но делает это так, чтобы исправлять за ним не требовалось), а всё не уложившееся в схему отдает человеку.
Принимая во внимание тот факт, что машинный перевод различной текстовой информации становится все более и более востребованным не только в среде профессионального перевода, но в других сферах общественной жизнедеятельности, осуществим небольшой экскурс в историю создания машинного перевода в России и за рубежом.
Мысль использовать ЭВМ для перевода была высказана в 1946 году в США, сразу же после появления первых электронно-вычислительных машин. Первая публичная демонстрация машинного перевода (так называемый Джорджтаунский эксперимент) состоялась в 1954 году. Несмотря на примитивность той системы (словарь в 150 слов, грамматика из 6 правил, перевод нескольких простых фраз), этот эксперимент получил широкий резонанс: начались исследования в Великобритании, Болгарии, ГДР, Италии, Китае, Франции, ФРГ, Японии и других странах; в том же 1954 году и в СССР.
К середине 1960-х в США для практического использования были предоставлены две системы русско-английского перевода:
• MARK (в Департаменте иностранной техники ВВС США);
• GAT (разработка Джорджтаунского университета, использовалась в Национальной лаборатории атомной энергии в Окридже и в центре Евратома в г. Испра, Италия).
Однако созданная для оценки подобных систем комиссия ALPAC пришла к выводу, что в силу низкого качества машинного перевода текстов эта деятельность в условиях США нерентабельна. Хотя комиссия рекомендовала продолжать и углублять теоретические разработки, в целом её выводы привели к росту пессимизма, снижению финансирования, а иногда и к полному прекращению работ по этой тематике.
Тем не менее, в ряде стран исследования продолжались, чему способствовал постоянный прогресс вычислительной техники. Особенно существенным фактором стало появление персональных компьютеров, а с ними всё более сложных словарных, поисковых систем, ориентированных на работу с данными на естественных языках. Росла и необходимость в переводе как таковом ввиду роста международных связей. Все это привело к новому подъёму этой области, наступившему примерно с середины 70-х годов прошлого столетия. В 1980-е наступило время широкого практического использования переводческих систем, сложился рынок коммерческих разработок по этой теме.
В настоящее время также существует множество коммерческих проектов машинного перевода. Одним из пионеров в области машинного перевода была компания 8у81хап. В России большой вклад в развитие машинного перевода внесла группа под руководством профессора Р.Г. Пиотровского (Российский государственный педагогический университет им. Герцена, г. Санкт-Петербург).
Впрочем, мечты, с которыми российские и зарубежные ученые взялись полвека назад за задачу машинного перевода, в значительной мере остаются по-прежнему мечтами, поскольку высококачественный перевод текстов широкой тематики по-прежнему недостижим. Однако несомненным является ускорение работы переводчика при использовании систем машинного перевода (по оценкам конца 1980-х) приблизительно до пяти раз.
Качество же перевода зависит от тематики и стиля исходного текста. Машинный перевод художественных текстов практически всегда оказывается неудовлетворительного качества. Тем не менее для технических документов при наличии специализированных машинных словарей и некоторой настройке системы на особенности того или иного типа текстов возможно получение качественного перевода, который нуждается лишь в небольшой редакторской корректировке. Чем более формализован стиль исходного документа, тем большего качества перевода можно ожидать. Самых лучших результатов при использовании машинного перевода можно достичь для текстов, написанных в техническом (различные описания и руководства) и официально-деловом стиле.
Применение машинного перевода без настройки на тематику (или с намеренно неверной настройкой) служит предметом многочисленных шуток, особенно в профессиональной среде переводчиков. Например, программа ПРОМТ переводит предложение «Му cat has given birth to four kittens, two yellow; one white and one black» на русский язык следующим образом: «Мой кот родил четырёх котят, два жёлтых цвета, одно белое и одного афроамериканца».
Профессиональная работа невозможна без надежных инструментов. Перевод и локализация[8] как область профессиональной активности в этом смысле не являются исключением. Любой переводчик сталкивается с проблемой согласованного применения терминологического глоссария в ходе длительного проекта или быстрого повторного использования ранее переведенного текста. По своей природе подобные рутинные задачи сравнительно легко (в отличие от машинного перевода) формализуются и программируются, поэтому оснащение рабочего места (локализатора) автоматизированными средствами является нормой в отрасли, постепенно трансформируясь в отраслевые стандарты.
Большинство таких средств построены на основе концепции памяти перевода (translation memory) – простой базы данных, каждая запись которой представляет собой единицу (предложение или абзац) параллельных текстов (как правило, на двух языках). Такая база данных хранит предыдущие переводы с целью их возможного повторного использования и решения задач быстрого поиска по содержимому. Несмотря на то, что программы, оснащенные памятью перевода, называются системами автоматизированного перевода (CAT, или computer-aided/ assisted translation), их не следует путать с программами машинного перевода (machine translation) – память перевода ничего не переводит сама по себе, в то время как машинный перевод основан на генерации переводов по результатам грамматического разбора исходного текста.
Как правило, запись памяти перевода состоит из двух сегментов: на исходном (source) и конечном (target) языках. Если идентичный (или похожий) сегмент на исходном языке встречается в тексте, сегмент на конечном языке будет найден в памяти перевода и предложен переводчику в качестве основы для нового перевода. Автоматически найденный текст может быть задействован как есть, отредактирован или полностью отклонен. Большинство программ используют алгоритм нечеткого соответствия (fuzzy matching), существенно улучшающий их функциональные