Транскриптомика одиночных клеток
Биологический факультет МГУ / Магистратура «Геномика и здоровье человека» / Осень 2024
Программа курса
Курс состоит из 10 занятий. Все материалы будут выкладываться на этом сайте по ходу прохождения материала.
Условия зачёта
Зачёт заключается в защите одного из восьми предложенных ниже проектов, а также устном опросе после него.
Проекты не подразумевают одного «правильного» ответа, но подразумевают вдумчивую работу над поставленным вопросом,
а также использование дополнительных открытых источников в ходе работы. За две недели до зачёта (дата будет оглашена на занятии)
необходимо будет прислать мне в Telegram или на почту список соответствия студента и проекта. Каждый студент выполняет свой собственный проект.
Форма отчёта по проекту — это GitHub-репозиторий с презентацией и всем необходимым для проверки выполнения проекта кодом.
Список проектов:
- Начиная с версии 7, CellRanger автоматически включает в матрицу каунтов интроны. Вашей задачей будет выяснить, как наличие / отсутствие интронов влияет на профиль экспрессии в клетках — меняется ли экспрессия равномерно по всем генам, или же есть какие-то гены, которые выделяются? Есть ли что-то общее между этими генами?
- Строго говоря, дифференциальная экспрессия в scRNA-Seq используется глобально для двух задач: (а) определения маркерных генов и (б) определения разницы между условиями (например, опухоль \ норма). Для задачи (а) обычно используется Mann-Whitney U-test на уровне одиночных клеток, для задачи (б) — подход с использованием псевдо-балков и DESeq2. Попробуйте использовать оба этих подхода для задачи б и сравнить результаты (FC / p-values и прочее).
- Можно ли объяснить батч-эффект разницей в сэмплировании? Вашей задачей будет взять один датасет с хорошей глубиной секвенирования, просемплировать его несколько раз (например, 10-25-50-75% от оригинального датасета) и посмотреть, есть ли батч эффект после нормаизации (и каким способом лучше всего его устранять). Интересно будет посмотреть на результаты дифференциальной экспрессии внутри одного типа клеток, но между батчами — как вы их сможете объяснить?
- Попробуйте определить траекторию дифференцировки (с использованием scFates) на эмбеддинге Palantir на подмножестве CD4 и CD8 Т клеток из PBMC. Согласуется ли результат с биологическими ожиданиями?
- Попробуйте провести анализ траектории дифференцировки в нормобластах (на эмбеддинге это выглядит как некоторое кольцо, что может соответствовать некоторым циклическим процессам). Что жто за биологический процесс?
- Внимательно прочитайте статью из Cancer Cell. Известно, что один из результатов в данной статье может объясняться наличием в полученном датасете контаминации из мышиных иммунных клеток (а точнее, дублетов с ними). Попробуйте найти конкретные выводы, которые могут этим объясняться, и покажите, что это действительно контаминация.
- Искуственно создайте два батча, состоящие из (а) абсолютно разных и (б) частично перекрывающихся типов клеток и выполните батч-коррекцию как минимум тремя методами (Harmony, bbknn и третий по выбору) — охарактеризуйте стабильность каждого из рассмотренных вами методов к овер-коррекции батч-эффекта.
- Охарактеризуйте характеристическое распределение расстояний внутри разных типов клеток на разных эмбеддингах: на экспрессиях (только на высоко вариабельных генах, отшкалированных и лог-трансформированных), на PCA, на UMAP, и на Palantir.
- Попробуйте провести автоматическую аннотацию датасета с похожим, но не идентичным по происхождению референсом (например, при аннотации BMMC датасета при помощи PBMC референса). Какие проблемы возникают в ходе аннотации и можете ли вы всё равно использовать этот способ для того, чтобы помочь себе в определении типов клеток?
- Проведите дифференциальную экспрессию между экспрессиями, полученными при помощи секвенирования библиотеки при помощи Illumina и при помощи Oxford Nanopore (данные можно взять отсюда). Наблюдаете ли вы какую-либо систематическую разницу? Если да, то как вы можете её объяснить?
- Правда ли в Smart-seq2 присутствует length bias (длиннее ген — больше прочтений)? Спланируйте и проведите вычислительный эксперимент, который позволит это выяснить.