eLIBRARY ID: 8377
ISSN: 2074-1588
В статье рассматриваются возможности таких современных информационных ресурсов, как надкорпусные базы данных, для многоаспектного изучения пунктуации. С одной стороны, в разных естественных языках при общем совпадении репертуара знаков препинания и их письменного обозначения могут обнаруживаться зоны функционального расхождения, в следствие чего правила расстановки одного и того же знака будут разниться от языка к языку. Знание этих межъязыковых расхождений принципиально важно для человека-переводчика и для обучения систем машинного перевода, в противном случае перевод может существенно нарушить смысловое содержание исходного текста. Некоторые такие различия зафиксированы в докорпусную эпоху. Еще больше межъязыковых пунктуационных дифференциаций позволяют выявить надкорпусные базы данных — информационные инструменты, возникшие благодаря к онсолидированным усилиям информатики, компьютерной лингвистики и корпусного переводоведения: они помогают верифицировать уже имеющиеся знания на больших текстовых массивах и дополнять их. С другой стороны, пунктуация традиционно считается областью языка, достаточно хорошо изученной, жестко регламентированной и потому наименее подверженной изменениям и инновациям. Однако надкорпусные базы данных предоставляют возможность выявить новые (еще не закрепленные в нормирующей литературе) функционально-семантические особенности употребления отдельно взятых знаков препинания. Всестороннее изучение функционально-семантической нагрузки пунктуационных знаков приобретает сейчас особое значение в связи с развитием информационных технологий на базе искусственного интеллекта, а именно: голосовых ассистентов. В статье на примере восклицательного знака в русском и французском языках показано, какие возможности надкорпусные базы данных открывают для изучения пунктуации.
В статье представлено исследование функционального потенциала двоеточия на основе корпусных данных в языковой паре русский-французский. Контрастивный анализ двоеточия выполнен в соответствии со специально разработанной структурной схемой. При этом решены следующие задачи: рассчитана частотность двоеточия в сопоставляемых языках, уточнена его функциональная нагрузка, выявлены зоны функциональной симметрии и асимметрии. Основной корпусный информационный инструмент — база данных, функционирующая на основе параллельных корпусов Национального корпуса русского языка. Она предусматривает возможность формирования необходимых поисковых запросов для обработки пунктуационного компонента параллельных текстов. Корпусно-ориентированные контрастивные исследования пунктуации непосредственно связаны с актуальными задачами информатики. Они необходимы для проектирования ряда современных информационных продуктов на основе искусственного интеллекта, в частности, голосовых ассистентов нового поколения. Также их результаты позволят усовершенствовать существующие технологии машинного перевода. Они помогут настроить и отладить обучение систем машинного перевода так, чтобы учитывались пунктуационные характеристики, не совпадающие в контактирующих при переводе языках. Кроме того, эти результаты будут востребованы при развитии технологий субтитрирования на основе искусственного интеллекта.