Index of /arg_files/datasets
Датасеты
L-data-clauses-paraphrased.zip — датасет содержит информацию о клаузах и аргументативных связях между ними в корпусе, полученном из корпуса "Научная коммуникация" путем перефразирования клауз
L-data-clauses.zip — датасет содержит информацию о клаузах и аргументативных связях между ними в корпусе "Научная коммуникация"
L-data-sentences.zip — датасет содержит информацию о предложениях и аргументативных связях между ними в корпусе "Научная коммуникация"
S-data.zip — датасет содержит информацию о предложениях и аргументативных связях между ними в корпусе "Научные тексты"
argnet-classification.tar.gz — датсет для классификации аргументов
argnet-generation.tar.gz — датасет для генерации аргументации по тексту
rst_trees_dataset.zip — датасет RST-деревьев корпуса текстов
saiga-lora-dataset.tar.gz — данные для дообучения модели Saiga методом низкоранговой адаптации
segmentation_dataset.zip — датасет сегментации корпуса текстов несколькими способами
Корпуса
corpora/Научный корпус_Модифицированный_markup_6746afc19a5dc6b7a325800e_2025-12-10_03-19-36.zip — корпус "Научный корпус". Разметка из корпуса "Оригинальная" модифицирована по правилам автоматически.
corpora/Научный корпус_Оригинальный_markup_6746afb9f8285b0f200973ad_2025-12-10_03-53-26.zip — корпус "Научный корпус". Разметка из корпуса "Рабочая версия" откорректирована аннотаторами "вручную" с целью унификации аннотаций.
corpora/Научный корпус_Рабочая версия_markup_6746afe353eb6f8746ad64eb_2025-12-10_04-19-02.zip — корпус "Научный корпус". Разметка сохраняет все стилистические особенности аннотаторов.
corpora/corpus_Научная коммуникация_markup_64ad19f2d19c90e7ef6a25f8_2025-12-09_19-44-13 filtered.zip — корпус "Научная коммуникация"
corpora/corpus_Научная коммуникация_markup_64ad19f2d19c90e7ef6a25f8_2025-12-09_19-44-13 filtered add align.zip — корпус "Научная коммуникация", модифицированный путем добавления уникальных листовых вершин
corpora/corpus_Научная коммуникация_markup_64ad19f2d19c90e7ef6a25f8_2025-12-09_19-44-13 filtered del align.zip — корпус "Научная коммуникация", модифицированный путем удаления уникальных листовых вершин