 Датасет сегментации корпуса текстов несколькими способами

Корпус текстов расположен в папке texts. В конце имени каждого файла в квадратных скобках указан ID текста.

В папке spacy_seg — сегментация с помощью библиотеки spaCy (https://spacy.io). Формат JSON, ключ — ID текста, значение — набор интервалов для текста.

В папке rst_2.1_seg — сегментация с помощью библиотеки IsaNLP RST Parser 2.1 (https://github.com/tchewik/isanlp_rst). Формат такой же, что и выше.

В папке indicator_seg — сегментация с помощью индикаторов. Формат CSV, описание колонок:
pattern — имя шаблона
left_context — текст левого контекста (от начала предложения до первого слова индикатора)
main_context — текст основного утверждения (от первого слова индикатора до конца предложения)
text — название текста с путем от корня папки
SentenceNumber — номер предложения в тексте
markerStart — индекс начала индикатора в полном тексте
markerEnd — индекс конца индикатора в полном тексте
leftStart — индекс начала левого контекста
leftEnd — индекс конца левого контекста
mainStart — индекс начала основного утверждения
mainEnd — индекс конца основного утверждения
Примечание: индексы могут немного не совпадать с текстом, потому что для работы программы кодировка текстов переводилась из UTF-8 в CP1251.

При использовании датасета ссылаться на статью:
Сидорова Е.А., Ахмадеева И.Р., Загорулько Ю.А., Кононенко И.С., Серый А.С., Чагина П.М., Шестаков В.К. Комплексный подход к анализу аргументативных отношений в текстах научной коммуникации // Онтология проектирования. 2023. Т. 13, №4(50). С. 562–579. DOI: 10.18287/2223-9537-2023-13-4-562-579.
