Поступила: 29.03.2024
Принята к публикации: 28.06.2024
Дата публикации в журнале: 25.11.2024
Ключевые слова: корпусные информационные ресурсы; аннотирование; пунктуация; контрастивные исследования; перевод; межъязыковая асимметрия; корпусное переводоведение; база данных
DOI Number: 10.55959/MSU-2074-1588-19-27-4-11
Доступно в on-line версии с: 25.11.2024
Нуриев В.А., Игнатова С.Д. Надкорпусная база данных как инструмент изучения пунктуации. // Вестник Московского Университета. Серия 19. Лингвистика и межкультурная коммуникация. 2024. № 4. c.147-158
В статье рассматриваются возможности таких современных информационных ресурсов, как надкорпусные базы данных, для многоаспектного изучения пунктуации. С одной стороны, в разных естественных языках при общем совпадении репертуара знаков препинания и их письменного обозначения могут обнаруживаться зоны функционального расхождения, в следствие чего правила расстановки одного и того же знака будут разниться от языка к языку. Знание этих межъязыковых расхождений принципиально важно для человека-переводчика и для обучения систем машинного перевода, в противном случае перевод может существенно нарушить смысловое содержание исходного текста. Некоторые такие различия зафиксированы в докорпусную эпоху. Еще больше межъязыковых пунктуационных дифференциаций позволяют выявить надкорпусные базы данных — информационные инструменты, возникшие благодаря к онсолидированным усилиям информатики, компьютерной лингвистики и корпусного переводоведения: они помогают верифицировать уже имеющиеся знания на больших текстовых массивах и дополнять их. С другой стороны, пунктуация традиционно считается областью языка, достаточно хорошо изученной, жестко регламентированной и потому наименее подверженной изменениям и инновациям. Однако надкорпусные базы данных предоставляют возможность выявить новые (еще не закрепленные в нормирующей литературе) функционально-семантические особенности употребления отдельно взятых знаков препинания. Всестороннее изучение функционально-семантической нагрузки пунктуационных знаков приобретает сейчас особое значение в связи с развитием информационных технологий на базе искусственного интеллекта, а именно: голосовых ассистентов. В статье на примере восклицательного знака в русском и французском языках показано, какие возможности надкорпусные базы данных открывают для изучения пунктуации.
Валгина Н.С. Русская пунктуация: принципы и назначение. М., 1979.
Валгина Н.С., Светлышева В.Н. Русский язык: орфография и пунктуация. Правила и упражнения. М., 2000.
Гончаров А.А., Инькова О.Ю., Кружков М.Г. Методология аннотирования в надкорпусных базах данных // Системы и средства информатики. 2019. Т. 29. Вып. 2. С. 148–160.
Нуриев В.А., Карпов В.И. Методология корпусно-ориентированного исследования в области контрастивной пунктуации // Информатика и ее применения. 2023. Т. 17. № 2. С. 90–95.
Нуриев В.А., Кружков М.Г. Корпусные данные при контрастивном изучении пунктуации. Системы и средства информатики. 2023. Т. 33. Вып. 1. С. 14–23.
Падучева Е.В. Семантические исследования: Семантика времени и вида в русском языке; Семантика нарратива. 2-е изд., испр. и доп. М., 2010.
Рубинштейн С.Л. Основы общей психологии. СПб., 2009.
Столяров М. Искусство перевода художественной прозы // Литературный критик. 1937. № 5–6. С. 242–254.
Чуковский К. Переводы прозаические // Принципы художественного перевода. СПб., 1919. С. 7–24.
Шапиро А.Б. Современный русский язык. Пунктуация. М., 1974.
Barrault L. et al. SeamlessM4T-Massively Multilingual & Multimodal Machine Translation // arxiv preprint arxiv:2308.11596. 2023. URL: https://arxiv.org/abs/2308.11596 (accessed: 05.03.2024).
Bystrova-McIntyre T. Looking at the Overlooked: A Corpora Study of Punctuation Use in Russian and English // TIS. 2007. Vol. 2. Iss. 1. P. 137–162.
Catach N. La ponctuation. Histoire et systè me. P., 1996.
Drillon F. Traité de la ponctuation française. P., 1991.
Dugas A. Guide de la ponctuation. Montreal, 2004.
Malmkjær K. Punctuation in Hans Christian Andersen’s stories and in their translations into English // Nonverbal communication and translation: New perspectives and challenges in literature, interpretation and the media / Ed. by F. Poyatos. Amsterdam; Philadelphia, 1997. P. 151–162.
May R. The Translator in the Text: On Reading Russian Literature in English. Evanston, 1994.
Nádvorníková O. The use of English, Czech and French punctuation marks in reference, parallel and comparable web corpora: a question of methodology // Linguistica Pragensia. 2020. Vol. 30. Iss. 2. P. 30–50.
Nguyen B. et al. Fast and accurate capitalization and punctuation for automatic speech recognition using transformer and chunk merging // 2019 22nd conference of the oriental COCOSDA international committee for the co-ordination and standardization of speech databases and assessment techniques (O-COCOSDA). Cebu, 2019. P. 1–5.
Nozaki J. et al. End-to-end Speech-to-Punctuated-Text Recognition // arXiv preprintarXiv:2207.03169. 2022. URL: https://arxiv.org/abs/2207.03169 (accessed: 02.03.2024).
Riegel M., Pellat J.-Ch., Rioul R. Grammaire méthodique du français. 5e éd. P., 2014.
Rubenstein P.K. et al. AudioPaLM: A Large Language Model That Can Speak and Listen // arXiv preprint arXiv:2306.12925. 2023. URL: https://arxiv.org/abs/2306.12925 (accessed: 05.03.2024).
Wollin L. Punctuation: Providing the Setting for Translation? // Studia Neophilologica. 2018. Vol. 90. № S1. P. 37–49.
Youdale R. Using computers in the translation of literary style: Challenges and opportunities. N.Y.; L., 2020.
Zhou Z., Tan T., Qian Y. Punctuation Prediction for Streaming On-Device Speech Recognition // ICASSP 2022–2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Singapor, 2022. P. 7277–7281.