Блок «Транскриптомика»

Факультет биологии и биотехнологии ВШЭ / Факультет компьютерных наук ВШЭ / Осень 2023

Программа курса

Моя часть курса состоит из 6 занятий. Все материалы будут выкладываться на этом сайте по ходу прохождения материала.

Дата Тема Слайды Код Видео
18.09 Экспериментальная процедура RNA-Seq и подсчёт экспрессий Ссылка   Ссылка
25.09 Распределения в омиксных данных и дифференциальная экспрессия Ссылка   Ссылка
02.10 Функциональный анализ RNA-Seq. Практикум Ссылка Ссылка Ссылка
09.10 Экспериментальная процедура и анализ scRNA-Seq Ссылка   Ссылка
16.10 Практикум по анализу scRNA-Seq Ссылка Ссылка Ссылка
23.10 Ribo-seq / Бисульфитное секвенирование РНК / CLIP-Seq Ссылка   Ссылка


Условия зачёта

Зачёт по курсу ставится как среднее арифметическое домашних заданий. По моему блоку будут три домашних задания, каждое из которых оценивается максимально в 10 баллов. При сдаче домашнего задания до 1 декабря есть возможность получить фидбэк и повысить собственную оценку при условия исправления. Жёсткий дедлайн по домашним заданиям — 15 декабря. Разбалловка для студентов магистратуры ФКН ВШЭ и бакалавров ФББ ВШЭ разная! В скобках первая оценка указана для бакалавров, а вторая — для магистров. Суммарный балл за задание — это min(10, ваш_балл).

Любое обнаружение плагиата в работе — это 0 за домашнее задание (без права переделывания даже если задание было сдано до мягкого дедлайна) и тому, кто списал, и тому, кто дал списать. Форма отчёта — это заполненная форма со ссылкой на Google Drive с вашей домашкой. Одно задание — одна заполненная форма.

Задание по блоку «Bulk RNA-Seq»

  1. (2 / 1) Загрузите прочтения по ссылкам, указанным в конце задания. Запустите контроль качества прочтений на каждом образце индивидуально. При помощи программы MultiQC аггрегируйте результаты по всем образцам и словесно опишите качество данных, с которыми вам предстоит работать.
  2. (2 / 1) Подготовьте референсный транскриптом для kallisto (с геномом человека) и проведите подсчёт экспрессии на уровень транскриптов. Откуда вы взяли референсный транскриптом? Не забудьте, что для следующих шагов вам потребуется таблица с соответствием генов транскриптам, также вам пригодится понимание того, какие конкретно гены являются белок-кодирующими (дифференциальную экспрессию будем выполнять именно на них).
  3. (6 / 5) Попробуйте самостоятельно реализовать EM-алгоритм для подсчёта экспрессий (в упрощённом виде). Транскрипты имеют вид ABC, ABCD, ABDG, BFQZ и так далее. Гарантируется, что каждый из транскриптов имеет длину более пяти букв. Каждое прочтение состоит только из двух букв, гарантируется, что существует хотя бы одно вхождение сочетания из этих двух букв в какой-либо из транскриптов. Вероятность порождения транскриптом рида прямо пропорциональна длине транскрипта - 1. Напишите функцию, которая будет на вход принимать (а) лист из транскриптов и (б) лист из ридов и которая будет возвращать оценённые пропорции транскриптов. Сравните результаты получившейся функции с kallisto (для этого придумайте, как можно сгенерировать прочтения так, чтобы это было максимально похоже на то, с чем вы работаете по условию задачи). Сходятся ли результаты в вашем примере?
  4. (1 / 0.5) С использованием tximport загрузите в DESeq2 результат обсчёта экспрессий из пункта (2) и проведите дифференциальную экспрессию между образцами из групп A и B на уровне генов.
  5. (6 / 5) Попробуйте реализовать альтернативу tximport для библиотеки PyDESeq2. Покажите, что результаты сходятся с аналогичными в R.
  6. (2 / 1) Проведите анализ самосогласованности данных при помощи PCA. Выбросите ненужные образцы и проведите анализ дифференциальной ещё раз. Влияет ли наличие аутлаеров на результат дифференциальной экспрессии? Выводы подкрепите графически.
  7. (2 / 1.5) Проведите функциональный анализ полученных данных (feel free в выборе инструментов). Какую основную разницу между образцами вы видите?
  8. (1 / 1) Воспроизводятся ли выводы, которые вы сделали в результате шага (7), если вместо загрузки через tximport просто просуммировать каунты kallisto на ген и округлить значения?
Образец Группа Прямые прочтения Обратные прочтения
B1 B ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR641/003/SRR6410613/SRR6410613_1.fastq.gz ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR641/003/SRR6410613/SRR6410613_2.fastq.gz
B2 B ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR641/004/SRR6410614/SRR6410614_1.fastq.gz ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR641/004/SRR6410614/SRR6410614_2.fastq.gz
B3 B ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR641/001/SRR6410611/SRR6410611_1.fastq.gz ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR641/001/SRR6410611/SRR6410611_2.fastq.gz
B4 B ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR641/002/SRR6410612/SRR6410612_1.fastq.gz ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR641/002/SRR6410612/SRR6410612_2.fastq.gz
B5 B ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR641/005/SRR6410615/SRR6410615_1.fastq.gz ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR641/005/SRR6410615/SRR6410615_2.fastq.gz
A1 A ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR641/005/SRR6410605/SRR6410605_1.fastq.gz ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR641/005/SRR6410605/SRR6410605_2.fastq.gz
A2 A ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR641/006/SRR6410606/SRR6410606_1.fastq.gz ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR641/006/SRR6410606/SRR6410606_2.fastq.gz
A3 A ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR641/003/SRR6410603/SRR6410603_1.fastq.gz ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR641/003/SRR6410603/SRR6410603_2.fastq.gz
A4 A ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR641/004/SRR6410604/SRR6410604_1.fastq.gz ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR641/004/SRR6410604/SRR6410604_2.fastq.gz
A5 A ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR641/009/SRR6410609/SRR6410609_1.fastq.gz ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR641/009/SRR6410609/SRR6410609_2.fastq.gz

Задание по блоку «scRNA-Seq»

  1. (2 / 2) Завершите анализ датасета с семинара. В результате вы должны иметь несколько представлений сниженной размерности (PCA / t-SNE / UMAP / ForceAtlas2 / … — на ваш выбор), которая будет сопровождаться окраской по кластерам.
  2. (4 / 3) Попробуйте реализовать NMF / VAE (без использования пакета scvi-tools) / LDA или иные «нетривиальные» способы снижения размерности. Сравните кластеризацию, которая у вас получилась, с той, что была получена при помощи графа, построенного на PCA. Какая разница? Как можно её количественно оценить?
  3. (3 / 2) Есть ли у вас кластера, которые выбиваются по чисто техническим характеристикам: числу UMI на клетку, числу генов на клетку, проценту митохондриальной экспрессии? Есть ли кластера с высоким значением doublet score? Если есть, то как лучше с ними поступить? Достоверны ли различия между кластером, который вы выбрали, и остальными кластерами?
  4. (3 / 2) Проаннотируйте датасет при помощи Azimuth и Symphony. Сравните полученные аннотации и выберите ту, которая, на ваш взгляд, получилась самой разумной. В обоих случаях используйте публично доступные референсы.
  5. (2 / 1) Попробуйте получить экспрессионные подписи для каждого из типов клеток — для этого выберите (с использованием порогов по FDR и logFC) топ маркерных генов, а после этого проверьте специфичность на этом жа датасете при помощи функции sc.tl.score_genes().

Задание по блоку «Ribo-seq»

Загрузите файл (Google Drive ID: 1iqYLFVKySREVm5Kn5NagMeHaDi-dVLcj, файл 01. RiboSeq_RNASeq_HCC_counts.tsv), в котором содержится матрица каунтов результатов Ribo-Seq и RNA-Seq экспериментов больных гепатоцеллюлярной карциномой. Матрица каунтов была получена стандартным воркфлоу STAR. На каждого пациента приходится 4 столбца в таблице (RNA-Seq нормы и опухоли, Ribo-Seq нормы и опухоли), записанные в виде sample_number-tissue_type-experiment.

  1. (2 / 2) Для каждого гена найдите коэффициент корреляции числа каунтов между экспериментами RNA-Seq и Ribo-Seq. Какую корреляцию вы выберете — Пирсона или Спирмена? Обратите внимание, что перед вами не нормированные на глубину библиотеки каунты, учтите это при анализе.
  2. (2 / 2) Постройте гистограмму распределения этих коэффициентов корреляции. Для каких генов корреляция самая высокая, а для каких — самая низкая? Как вы можете это объяснить?
  3. (3 / 3) Проанализируйте распределение каунтов Ribo-seq: постройте зависимость дисперсии от среднего. Похоже ли это на NB-распределение? Если нет, то на какое похоже? Если да, то какие статистические тесты можно использовать для подтверждения того, что перед вами NB-распределение? Проведите такую оценку.
  4. (3 / 3) Найдите дифференциально экспрессированные гены по RNA-Seq между нормой и опухолью. Для этого можете использовать DESeq2 или edgeR. Постройте volcano plot. То же самое сделайте и для Ribo-Seq эксперимента. Совпадают ли результаты дифференциальной экспрессии? Какие гены оказались значимо различны по экспрессии в одном случае, а какие — в другом? Проведите похожий анализ, только с поиском генов с разницей в эффективности трансляции (~ method + condition + method:condition). Что вы скажете о наборе генов, который вы получили этим методом? Выводы подкрепите графиками.