Транскриптомика одиночных клеток

Биологический факультет МГУ / Магистратура «Геномика и здоровье человека» / Осень 2024

Программа курса

Курс состоит из 10 занятий. Все материалы будут выкладываться на этом сайте по ходу прохождения материала.

Дата Тема Слайды Код Видео
1.10 NGS и экспериментальная процедура RNA-Seq Ссылка   Ссылка
8.10 Экспериментальная процедура scRNA-Seq Ссылка   Ссылка
15.10 Подсчёт экспрессии Ссылка   Ссылка
22.10 Контроль качества Ссылка Ссылка Ссылка
29.10 Эмбеддинги (I) Ссылка   Ссылка
5.11 Эмбеддинги (II) Ссылка Ссылка Ссылка
12.11 Коррекция батч-эффекта Ссылка   Ссылка
19.11 Кластеризация и аннотация типов клеток Ссылка Ссылка Ссылка
26.11 Автоматическая аннотация типов клеток Ссылка Ссылка Ссылка
3.12 Анализ траекторий дифференцировки Ссылка Ссылка Ссылка


Условия зачёта

Зачёт заключается в защите одного из восьми предложенных ниже проектов, а также устном опросе после него. Проекты не подразумевают одного «правильного» ответа, но подразумевают вдумчивую работу над поставленным вопросом, а также использование дополнительных открытых источников в ходе работы. За две недели до зачёта (дата будет оглашена на занятии) необходимо будет прислать мне в Telegram или на почту список соответствия студента и проекта. Каждый студент выполняет свой собственный проект.

Форма отчёта по проекту — это GitHub-репозиторий с презентацией и всем необходимым для проверки выполнения проекта кодом.

Список проектов:

  1. Начиная с версии 7, CellRanger автоматически включает в матрицу каунтов интроны. Вашей задачей будет выяснить, как наличие / отсутствие интронов влияет на профиль экспрессии в клетках — меняется ли экспрессия равномерно по всем генам, или же есть какие-то гены, которые выделяются? Есть ли что-то общее между этими генами?
  2. Строго говоря, дифференциальная экспрессия в scRNA-Seq используется глобально для двух задач: (а) определения маркерных генов и (б) определения разницы между условиями (например, опухоль \ норма). Для задачи (а) обычно используется Mann-Whitney U-test на уровне одиночных клеток, для задачи (б) — подход с использованием псевдо-балков и DESeq2. Попробуйте использовать оба этих подхода для задачи б и сравнить результаты (FC / p-values и прочее).
  3. Можно ли объяснить батч-эффект разницей в сэмплировании? Вашей задачей будет взять один датасет с хорошей глубиной секвенирования, просемплировать его несколько раз (например, 10-25-50-75% от оригинального датасета) и посмотреть, есть ли батч эффект после нормаизации (и каким способом лучше всего его устранять). Интересно будет посмотреть на результаты дифференциальной экспрессии внутри одного типа клеток, но между батчами — как вы их сможете объяснить?
  4. Попробуйте определить траекторию дифференцировки (с использованием scFates) на эмбеддинге Palantir на подмножестве CD4 и CD8 Т клеток из PBMC. Согласуется ли результат с биологическими ожиданиями?
  5. Попробуйте провести анализ траектории дифференцировки в нормобластах (на эмбеддинге это выглядит как некоторое кольцо, что может соответствовать некоторым циклическим процессам). Что жто за биологический процесс?
  6. Внимательно прочитайте статью из Cancer Cell. Известно, что один из результатов в данной статье может объясняться наличием в полученном датасете контаминации из мышиных иммунных клеток (а точнее, дублетов с ними). Попробуйте найти конкретные выводы, которые могут этим объясняться, и покажите, что это действительно контаминация.
  7. Искуственно создайте два батча, состоящие из (а) абсолютно разных и (б) частично перекрывающихся типов клеток и выполните батч-коррекцию как минимум тремя методами (Harmony, bbknn и третий по выбору) — охарактеризуйте стабильность каждого из рассмотренных вами методов к овер-коррекции батч-эффекта.
  8. Охарактеризуйте характеристическое распределение расстояний внутри разных типов клеток на разных эмбеддингах: на экспрессиях (только на высоко вариабельных генах, отшкалированных и лог-трансформированных), на PCA, на UMAP, и на Palantir.
  9. Попробуйте провести автоматическую аннотацию датасета с похожим, но не идентичным по происхождению референсом (например, при аннотации BMMC датасета при помощи PBMC референса). Какие проблемы возникают в ходе аннотации и можете ли вы всё равно использовать этот способ для того, чтобы помочь себе в определении типов клеток?
  10. Проведите дифференциальную экспрессию между экспрессиями, полученными при помощи секвенирования библиотеки при помощи Illumina и при помощи Oxford Nanopore (данные можно взять отсюда). Наблюдаете ли вы какую-либо систематическую разницу? Если да, то как вы можете её объяснить?
  11. Правда ли в Smart-seq2 присутствует length bias (длиннее ген — больше прочтений)? Спланируйте и проведите вычислительный эксперимент, который позволит это выяснить.