Данные для дообучения модели Saiga методом низкоранговой адаптации.
Датасет включает следующие файлы в формате jsonl:
- train.jsonl: обучающая выборка;
- val.jsonl  : валидационная выборка;
- test.jsonl : тестовая выборка.

Каждый пример - это объект следующего вида:

source  : служебное поле, указывает на источник примера (на случай, если источников было несколько).
messages: массив из двух элементов; содержит входную инструкцию и реакция, ожидаемая от модели в ответ на инструкцию.

Пример значния поля messages:

[
    {"role": "user",
     "content": "Дан текст: \"Вуз представляет собой огромный механизм с отлаженными алгоритмами взаимодействия: образовательный процесс тесно переплетен с процессами обеспечения бухгалтерского учета, учета персонала, договорными отношениями.\"\n\nОтветь на вопрос по тексту \"да\", \"нет\" или \"может быть\": В заключение - использование облачных технологий в высшем образовании служит повышению качества образования?"},
    {"role": "bot",
     "content": "нет"}]
}

Здесь первый элемент - это инструкция, где значение поля role указывает на то, что в данном диалоге это "реплика" пользователя модели.
Второй элемент - ожидаемый ответ. Поле role имеет значение bot, указывающее на то, что это ответная реплика, ожидаемая от модели.

При использовании датасета ссылаться на статью:
Сидорова Е.А., Ахмадеева И.Р., Загорулько Ю.А., Кононенко И.С., Серый А.С., Чагина П.М., Шестаков В.К. Комплексный подход к анализу аргументативных отношений в текстах научной коммуникации /
/ Онтология проектирования. 2023. Т. 13, №4(50). С. 562–579. DOI: 10.18287/2223-9537-2023-13-4-562-579.