Настройка зачисления на курс
- Преподаватель: Абраменкова Анжелика Тамерлановна
Цифровые методы работы с текстами
Факультет "Медиакоммуникации и мультимедийные технологии"
кафедра "Медиапроизводство"
Для студентов направления 42.03.05 Медиакоммуникации, групп МКМ34, МКМ35
Курс носит практико-методологический характер и базируется на ряде ключевых понятий, связанных с обработкой текстовой информации на компьютере. Данные понятия условно подразделяются на «объекты текста» и «операции над объектами текста». В первую группу входят термины «символ», «буква», «сочетание символов», «слово», «предложение», «текст»; во вторую — «поиск символов», «формирование текста», «вырезка», «удаление», «вставка», «замена», «подсчет», «кодирование».
Минимальной единицей текста является символ — любой используемый знак. Символ определенного алфавита называется буквой, а последовательность рядом стоящих символов —сочетанием символов. Более сложны термины «слово» и «предложение»: слово — последовательность символов, слева и справа отделяемая разграничителями (справа — любым знаком препинания или пробелом, слева — пробелом); предложение — группа символов, начинающаяся с заглавной буквы и оканчивающаяся знаками препинания «.», «...», «!», «?». Максимальная единица текста — собственно текст, представляющий любой набор символов.
Суть понятий второй группы:
поиск символов — нахождение нужного символа по заданному шаблону из исходного набора символов;
формирование текста — группировка символов в последовательность символов по определенным условиям;
вырезка — извлечение из исходной строки части данных для дальнейшего их использования в качестве самостоятельного объекта;
удаление — извлечение из исходной строки части данных для дальнейшего использования оставшейся части строки в качестве самостоятельного объекта;
вставка — добавление заданного набора символов в определенную позицию;
замена — нахождение заданных символов и подстановка вместо них других символов;
подсчет — определение количества вхождений заданного символа или последовательность символов в исходном тексте:
кодирование — замена одних символов другими.