Транскриптомика одиночных клеток

Биологический факультет МГУ / Магистратура «Геномика и здоровье человека» / Осень 2025

Программа курса

Курс состоит из 8 занятий. Все материалы будут выкладываться на этом сайте по ходу прохождения материала.

Дата Тема Слайды Код Видео
1.10 NGS и экспериментальная процедура RNA-Seq Ссылка   Ссылка (Я.Диск)
8.10 Экспериментальная процедура scRNA-Seq Ссылка   Ссылка (Я.Диск)
15.10 Подсчёт экспрессий Ссылка   Ссылка (Я.Диск)
22.10 Контроль качества клеток Ссылка Ссылка Ссылка (Я.Диск)
29.10 Эмбеддинги (I) Ссылка   Ссылка (Я.Диск)
5.11 Эмбеддинги (II) Ссылка Ссылка Ссылка (Я.Диск)
12.11 Коррекция батч-эффекта Ссылка Ссылка Ссылка (Я.Диск)
19.11 Аннотация типов клеток Ссылка Ссылка Ссылка (Я.Диск)


Условия зачёта

Зачёт заключается в защите одного из восьми предложенных ниже проектов, а также устном опросе после него. Проекты не подразумевают одного «правильного» ответа, но подразумевают вдумчивую работу над поставленным вопросом, а также использование дополнительных открытых источников в ходе работы. За две недели до зачёта (дата будет оглашена на занятии) необходимо будет прислать мне на почту список соответствия студента и проекта. Каждый студент выполняет свой собственный проект.

Каждый проект состоит из трёх важных частей:

  1. Выбор датасета из базы данных CellxGene (вы должны уметь обосновать, почему именно вы выбрали тот или иной датасет — например, рационализируя это вашими научными интересами или целесообразностью для инструмента, который вы будете исследовать);
  2. Препроцессинг датасета (от сырой матрицы каунтов до эмбеддинга с аннотацией по типам клеток);
  3. Дополнительный анализ датасета — в зависимости от выбранного проекта. Каждый из проектов устроен как “сравнить X и Y”. Вам необходимо будет придумать разумную метрику, как именно оценивать, какой из подходов работает лучше, и обосновать выбор метрики.

Инструменты для дополнительного анализа на выбор:

  1. Анализ траекторий: scFates (principal tree fitting) vs. PAGA (graph-based approach),
  2. Анализ межклеточных взаимодействий: на выбор сравнить 2-3 разных подхода из liana-py,
  3. Анализ архетипов vs. обычная кластеризация,
  4. Спектральный эмбеддинг vs. PCA,
  5. Дифференциальная экспрессия: Negative Binomial models vs. t-test vs. Mann-Whitney U-test (обратите внимание, что дифференциальная экспрессия может быть для двух сценариев: поиска маркеров и сравнения экспрессии между разными условиями внутри одного типа клеток!),
  6. Перенос аннотации vs. de-novo батч коррекция,
  7. Филогенетические деревья, построенные на основании транскрипционных сходств между типами клеток: Neighbor-Joining (см. Extended Data Fig. 10) vs. Maximal Parsimony на наборе из экспрессирующихся транскрипционных факторов,
  8. scCODA vs. t-test для композиционного анализа.

Отчёт по выполненному проекту — это (а) открытый GitHub-репозиторий с кодом и Jupyter-блокнотами (они должны быть читаемыми!) и (б) презентация с результатами проекта. Будьте готовы отвечать на дополнительные вопросы как по вашему проекту, так и по курсу в целом.

Вот тут есть небольшая шпаргалка с некоторыми шагами из анализа датасетов.