Особенности использования ключевых терминов в интеллектуальном реферате и научной статье в процессе сжатия текста (на материале английских текстов предметной области "Судостроение")
Дубинина Екатерина Юрьевна
Санкт-Петербургский государственный университет аэрокосмического приборостроения
Дата поступления рукописи в редакцию: 23.03.2021
Аннотация. Статья посвящена проблеме сжатия текстовой информации. Цель исследования заключается в уточнении принципов, лежащих в основе операций сжатия текста. Для этого проводится эксперимент, в ходе которого был создан специализированный корпус интеллектуальных рефератов и научных статей, написанных на английском языке и относящихся к предметной области "Судостроение". Научная новизна работы заключается в том, что впервые были обнаружены устойчивые закономерности употребления ключевых терминов. В результате проведения статистического анализа было установлено, что сжатие текста в интеллектуальных рефератах происходит за счет использования многокомпонентных ключевых терминов, имеющих сложные номинативные конструкции. В научной статье эти термины представлены в "усеченном" виде, то есть как двухэлементные или трехэлементные комбинации.
Ключевые слова и фразы: автоматическое реферирование, интеллектуальный реферат, ключевые термины, научная статья, сжатие текста, automatic abstracting, scientific review, key terms, scientific article, text compression
Открыть полный текст статьи в формате PDF. Бесплатный просмотрщик PDF-файлов можно скачать здесь.
Список литературы:
Баранов А. Н. Введение в прикладную лингвистику. М.: Едиториал УРСС, 2009. 360 с.
Батура Т. В., Бакиева А. М. Методы и системы автоматического реферирования текстов. Новосибирск: ИПЦ НГУ, 2019. 110 с.
Блюменау Д. И. Информационный анализ/синтез для формирования вторичного потока документов. СПб.: Профессия, 2002. 240 с.
Блюменау Д. И., Гендина Н. И., Добронравов И. С., Лахути Д. Г., Леонов В. П., Федоров Е. Б. Формализованное реферирование с использованием словесных клише (маркеров) // Научно-техническая информация. Серия 2. Информационные процессы и системы. 1981. № 2. С. 16-20.
Горькова В. И., Борохов Э. А. Реферат в системе научной коммуникации. Направления совершенствования лингвистических и структурных характеристик. М.: ВИНИТИ, 1987. 323 с.
Гращенко Л. А. О модельном стоп-словаре // Известия Академии наук Республики Таджикистан. Отделение физико-математических, химических, геологических и технических наук. 2013. № 1 (150). С. 40-46.
Домнина Т. Н., Хачко О. А. Научные журналы: количество, темпы роста // Информационное обеспечение науки: новые технологии: сб. науч. тр. М.: БЕН РАН, 2015. C. 83-96.
Захаров В. П., Богданова С. Ю. Корпусная лингвистика. СПб.: Изд-во С.-Петерб. ун-та, 2020. 234 с.
Леонов В. П. Реферирование и аннотирование научно-технической литературы. Новосибирск: Наука, 1986. 175 с.
Лукашевич Н. В. Представление знаний в системе автоматической обработки текстов // Научно-техническая информация. Серия 2. Информационные процессы и системы. 1997. № 3. С. 27-33.
Новиков А. И., Сунцова Н. Л. Концептуальная модель порождения вторичного текста // Обработка текста и когнитивные технологии. 1999. № 3. С. 158-166.
Откупщикова М. И., Кремнева Н. Д., Кириченко Н. Л. Функционально-семантическая информация в словарных процедурах для анализа текстов узкой предметной области // Структурная и прикладная лингвистика. 1993. № 4. С. 181-196.
Тарасов С. Д. Современные методы автоматического реферирования // Научно-технические ведомости Санкт-Петербургского государственного политехнического университета. Информатика. Телекоммуникации. Управление. 2010. № 6 (113). С. 59-74.
Andonov F., Slavova V., Petrov G. On the Open Text Summarizer // Information Content and Processing. 2016. Vol. 3. P. 278-287.
Babar S., Pallavi D. Improving Performance of Text Summarization // Procedia Computer Science. 2015. Vol. 46. P. 354-363.
Cremmins E. The Art of Abstracting. 2nd ed. Arlington, VA: Information Resources Press, 1994. 230 p.
Elhadi M. Extractive Summarization Using Structural Syntax, Term Expansion and Refinement // International Journal of Intelligence Science. 2017. Vol. 7. P. 55-71.
Goldstein A., Shahar Y. An automated knowledge-based textual summarization system for longitudinal, multivariate clinical data // Journal of Biomedical Informatics. 2016. Vol. 61. P. 159-175.
Hahn U. Knowledge-Based Text Summarization: Salience and Generalization Operators for Knowledge Based Abstraction // Advances in Automatic Text Summarization. The MIT Press, 1999. P. 215-232.
Luhn H. P. A Statistical Approach to Mechanized Encoding and Searching of Literary Information // IBM Journal of Research and Development. 1957. Vol. 1. P. 309-317.
Marcu D. The automatic construction of large-scale corpora for summarization research // Proceedings of the 22nd International Conference on Research and Development in Information Retrieval. 1999. August. P. 137-144.
Nation P., Anthony L. Measuring vocabulary size // Handbook of Research in Second Language Teaching and Learning: in 3 vols. / ed. by E. Hinkel. N. Y.: Routledge, 2016. Vol. III. P. 355-368.
Sahoo D., Bhoi A., Balabantaray R. Hybrid Approach to Abstractive Summarization // Procedia Computer Science. 2018. Vol. 132. P. 1228-1237.