Свойства объекта
Дескриптор | |
название | графематический анализ |
язык | русский |
релятор | |
определение 1 | Один из этапов обработки текстовых данных, предполагающий проведение следующих операций: разделение входного текста на элементы (слова, разделители и т.д.), удаление нетекстовых элементов, выделение и оформление нестандартных (нелексических) элементов, обработка специальных текстовых элементов (имен (имя, отчество), написанных инициалами, иностранных лексем, записанных латиницей, названий рисунков, примечаний, страниц форзаца, зачеркиваний, титульных листов, списков литературы и т.д.). |
определение 2 | Графематический анализ (графематика) - достаточно простая программа, выполняющая первые предварительные действия над текстом. На вход графематике подается текст в кодировке Windows, на выходе строится графематическая таблица, в которой на каждой строке стоит слово или разделитель из входного текста. Программа выделяет некоторые аббревиатуры, имена с инициалами, даты и пр. Кроме деления текста на слова, графематика разбивает текст на абзацы и предложения (макросинтаксический анализ). |
автор словарной статьи | Хохлова М.В. |
Связи объекта |
|
Ассоциируется с (RelatedTerm) | |
Дескриптор | |
корпус | |
лемматизация | |
токен (корпусная лингвистика) | |
Встречается дескриптор в (SourceDescriptor) | |
Источник | частота |
Коллекция текстов Диалог 2000-2010 | 8 |
Дается определение в (SourceDef) | |
Источник | определение |
Сайт проекта АОТ | 2 |
Учебник Захарова В.П., Богдановой С.Ю. | 1 |
Подобласть знаний(SubArea) | |
Подобласть знаний | |
2.1.1. Сегментация текста – Text Segmentation | |
2.1.2. Морфологический анализ/синтез - Morphological analysis/synthesis | |
Синоним (Syn) | |
Аскриптор | |
токенизация | |
Эквивалент на другом языке (Trans) | |
Дескриптор | |
tokenization | |