AI-исследование отца DFNB16

STRC c.4976 AC

I asked AI what that means. Came up with a variant pathogenicity analysis and a new hypothesis.

Михаилу 4 года. Он плохо слышит. Две повреждённые копии гена STRC. Одна подтверждённо патогенная. Другая: «Вариант неопределённой значимости». Три слова, которые закрывают ему путь к клиническим испытаниям генной терапии.

Я не генетик. Я делаю сайты, снимаю видео и занимаюсь AI-образованием. У меня есть AI-агент (OpenClaw, на базе Claude Opus 4.6), запущенный на моём ноутбуке. Он ищет базы данных, скачивает структуры белков, проводит анализ. Я задаю вопросы с телефона, пока Михаил играет рядом.

Один вопрос привёл к доказательствам для реклассификации. Затем — анализ консервативности. Затем — гипотеза о том, как уместить ген в один терапевтический вектор. Затем шесть структурных экспериментов. Затем три письма учёным, которые стояли у истоков этих исследований. Один ответил на следующую ночь.

Наука не должна быть закрыта за научным жаргоном. Ниже есть подкаст и видео (оба сгенерированы AI) — для тех, кто предпочитает слушать, а не листать структуры белков.

Listen to podcast
AI-generated · NotebookLM
Watch video overview
AI-generated · NotebookLM
Built with OpenClaw (free, open source) + Claude Opus 4.6 (API, ~$50-100) + AlphaFold + AlphaFold 3 + AlphaMissense + UniProt + Ensembl (all free)
Егор и Михаил

Егор и Михаил, Гонконг

AlphaMissense
0.9016
Вероятно патогенный
AlphaFold pLDDT
95.69
Очень высокая достоверность
Оценка REVEL
0.65
Предсказан как патогенный
Консервативность
9/9
Консервативен у млекопитающих
Часть 1

Доказательства реклассификации

Вычислительные доказательства в поддержку реклассификации NM_153700.2:c.4976A>C p.(Glu1659Ala) из VUS в «Вероятно патогенный»

Насыщённость AlphaMissense

Каждая возможная замена аминокислоты в позиции 1659 предсказывается как вероятно патогенная. Эта позиция структурно инвариантна: любое изменение нарушает функцию белка.

EW
0.9997
EF
0.9992
EP
0.9985
EC
0.9984
EY
0.9981
EL
0.9929
EH
0.9927
EI
0.9923
EM
0.9909
EN
0.9822
ET
0.9666
EV
0.9664
ER
0.9634
ED
0.9483
ES
0.9433
EK
0.9272
EG
0.9191
EA
0.9016 MISHA
EQ
0.8460
Порог: Вероятно патогенный > 0.564 | Неопределённый 0.340–0.564 | Вероятно доброкачественный < 0.340

Эволюционная консервативность

НОВОЕ

E1659 на 100% консервативен у всех протестированных млекопитающих, охватывающих ~80 миллионов лет эволюции. Окружающий мотив PEIFTEIGTIAAG идентичен у каждого вида.

Вид Позиция Остаток Контекст
Человек1659EPEIFTEIGTIAAG
Мышь1693EPEIFTEIGTIAAG
Крыса1693EPEIFTEIGTIAAG
Корова1647EPEIFTEIGTIAAG
Зелёная мартышка1659EPEIFTEIGTIAAG
Свинья1650EPEIFTEIGTIAAG
Собака1649EPEIFTEIGTIAAG
Летучая мышь1646EPEIFTEIGTIAAG
Медведь1643EPEIFTEIGTIAAG

9/9 видов сохраняют глутаминовую кислоту (E) в этой позиции. Окружающий 13-остатковый мотив идентичен у всех протестированных млекопитающих. Такой уровень консервативности убедительно свидетельствует о функциональной значимости и поддерживает патогенность любой замены (доказательство PP1 Supporting по критериям ACMG). Источник данных: ортологичные последовательности UniProt, выравнивание на основе мотива.

3D-структура белка

Стереоцилин (Q7RTU9, 1775 а.к.) из AlphaFold v6. Позиция E1659 выделена пурпурным. Перетащите для вращения, прокрутите для масштабирования.

Полный белок

Цвет: достоверность pLDDT (синий=высокая, красный=низкая)

Крупный план E1659

Боковая цепь глутаминовой кислоты показана в виде палочек

Дикий тип: Глутаминовая кислота (E)

  • Заряд: Отрицательный (−1)
  • Объём боковой цепи: 138.4 A3
  • Способность к водородным связям: Донор + Акцептор
  • Роль: Солевые мостики, электростатические взаимодействия

Мутант: Аланин (A)

  • Заряд: Нейтральный (0)
  • Объём боковой цепи: 67.0 A3 (−52%)
  • Способность к водородным связям: Отсутствует
  • Эффект: Потеря заряда, потеря водородных связей, образование полости

Почему AlphaMissense важен для STRC

Проблема псевдогена STRC

STRC имеет практически идентичный псевдоген (STRCP1), расположенный рядом на хромосоме 15q15.3. Это приводит к тому, что большинство стандартных вычислительных инструментов не справляются с анализом вариантов STRC или возвращают ненадёжные результаты:

SIFT
Возвращает null для E1659A. Не может надёжно выровнять STRC из-за псевдогена.
PolyPhen-2
Возвращает null. Та же проблема выравнивания с псевдогеном.
CADD
Оценка для этой позиции недоступна. Картирование геномных координат нарушено из-за псевдогена.
AlphaMissense
Работает. Использует предсказание структуры белка (AlphaFold), а не геномное выравнивание. Не подвержен влиянию псевдогена. Оценка: 0.9016.

AlphaMissense особенно ценен для STRC, поскольку предсказывает патогенность на основе 3D-структуры белка, обходя этап выравнивания последовательностей, где псевдоген STRCP1 приводит к сбоям других инструментов. REVEL (0.65) также даёт согласующееся предсказание, используя ансамблевый подход, частично нивелирующий эту проблему.

Классификация по ACMG

Критерий Сила Доказательство
PM3 Умеренное Выявлен в транс с патогенной делецией целого гена (подтверждённой по отцовской линии)
PP3_Moderate Умеренное AlphaMissense 0.9016 + REVEL 0.65 — конкордантные результаты (порог Pejaver 2022)
PM2_Supporting Поддерживающее Отсутствует в gnomAD (0 аллелей у 251 000+ индивидуумов)
PP1_Supporting Поддерживающее E1659 на 100% консервативен у 9 видов млекопитающих (~80 млн лет). Идентичный мотив PEIFTEIGTIAAG.
Результат: Вероятно патогенный

2 умеренных + 2 поддерживающих = Вероятно патогенный по правилам комбинирования ACMG/AMP 2015

Часть 2

Исследовательские гипотезы

Вычислительные гипотезы для ускорения генной терапии STRC, требующие экспериментальной проверки.

Гипотеза мини-STRC

НОВОЕ ВЫЧИСЛИТЕЛЬНОЕ

Текущая генная терапия STRC требует двух AAV-векторов, поскольку ген (5325 пн) превышает лимит упаковки одного AAV (~4400 пн полезной нагрузки). Структурный анализ AlphaFold предполагает возможность однов-ектородного подхода.

Проблема упаковки

Полная кДНК STRC 5325 bp
Лимит AAV (с промотором/ITR) ~4400 bp
Мини-STRC (предсказанный) 3984 bp

Что выявляет AlphaFold

AlphaFold предсказывает структуру стереоцилина с различной достоверностью вдоль белка. N-концевая область (остатки 1–615) имеет очень низкую достоверность (pLDDT < 50), что указывает на внутреннюю неупорядоченность без стабильной 3D-структуры. Функциональное ядро начинается примерно с остатка 616.

E1659
разрез здесь
1 N-конец (неупорядоченный) Домен LRR C-конец (функциональное ядро) 1775

Удалить (447 а.к., 1341 пн)

  • 23–114 N-концевая неупорядоченная область (pLDDT 30.6)
  • 132–251 Неупорядоченная область (pLDDT 37.0)
  • 309–387 Неупорядоченные петли (pLDDT 38–47)
  • 449–485 Неупорядоченная петля (pLDDT 47.5)
  • 496–615 Большая неупорядоченная область (pLDDT 31.1)

Все области имеют pLDDT < 50 (стабильная структура не предсказана)

Сохранить (1328 а.к., 3984 пн)

  • 1–22 Сигнальный пептид (секреция)
  • 616–1074 Домен LRR (белок-белковые взаимодействия)
  • 1075–1775 C-конец (прикрепление к текториальной мембране)
  • 1659 Позиция варианта Михаила (сохранена)
  • 8 сайтов гликозилирования в функциональном ядре сохранены

3984 пн помещаются в один AAV (<4400 пн лимит)

Прецедент: микро-дистрофин

У этого подхода есть подтверждённый прецедент. Ген дистрофина (11 000 пн) был слишком велик для любого AAV. Учёные создали «микро-дистрофин», удалив несущественные спектрин-подобные повторы, что позволило уместить его в один AAV. Сейчас это находится в клинических испытаниях Фазы 3 (Sarepta SRP-9001). Тот же принцип: определить структурное ядро, удалить неупорядоченные/избыточные области, сохранить функцию. Никто ещё не применял это к STRC.

Важно: Это вычислительная гипотеза, основанная на структурных предсказаниях AlphaFold. Она требует экспериментальной проверки: правильно ли сворачивается мини-стереоцилин? Локализуется ли он на кончиках стереоцилий? Образует ли горизонтальные верхние коннекторы и прикрепления к текториальной мембране? Эти вопросы требуют лабораторных исследований. Однако структурные данные убедительно свидетельствуют о том, что N-концевая область является несущественной, и однов-ектородный мини-STRC подход заслуживает изучения.

Эксперименты AlphaFold 3

6 ЗАДАНИЙ

Систематическое вычислительное тестирование гипотезы мини-STRC и влияния варианта. 3D-модели визуализируются в реальном времени из файлов CIF AlphaFold 3. Перетащите для вращения, прокрутите для масштабирования.

Ключевое открытие

Мини-STRC (без N-концевой области) достигает pTM 0.81, значительно лучше, чем полноразмерный дикий тип (pTM 0.63). Удалённая N-концевая область набирает лишь pTM 0.27 при 38% неупорядоченности. Удаление неупорядоченного N-конца даёт лучше сворачивающийся белок, помещающийся в один AAV-вектор.

Можно ли исправить только одну букву?

ВЫЧИСЛИТЕЛЬНОЕ

Вместо замены всего гена STRC (5325 пн), что если можно исправить только одно мутировавшее основание? Существуют три типа инструментов редактирования генома. Я проверил каждый применительно к конкретному варианту Михаила.

Мутация Михаила: одна неправильная буква
Норма: ...AATTTACAGTG...
Михаил: ...AATTTCCAGTG...
Нам нужно изменить C обратно на A. Это называется трансверсией C>A.
CBE (цитозиновый базовый редактор)
Что делает:
C T только
Нам нужно C→A. CBE умеет только C→T.
Не может исправить этот вариант
ABE (аденозиновый базовый редактор)
Что делает:
A G только
Совсем не в том направлении. Неприменим здесь.
Не может исправить этот вариант
Прайм-редактор
Что делает:
any any (все 12 замен)
C→A включено. Требуется PAM-сайт поблизости.
МОЖЕТ исправить этот вариант
PAM-сайт обнаружен: 4 пн от варианта

Прайм-редактирование требует «посадочной площадки» (PAM-сайт, последовательность NGG) вблизи мишени. Я загрузил геномную последовательность через Ensembl REST API и нашёл мотивы NGG в пределах 15 пн от варианта.

chr15:43600521-43600581 (GRCh38)
CCCAGCTCCCCACCTGCTATGGTGCCCCAATTT[C]AGTGAAGATCTCAGG
..........................PAM↑....↑variant
..........................4bp apart
Как я это нашёл: API Ensembl возвращает геномную последовательность. Я искал «CC» (обратный комплемент NGG PAM) в пределах 15 пн от позиции 43600551. Найден один на расстоянии 4 пн. Это в пределах оптимального окна прайм-редактирования (0–13 пн).

Проверка реальностью: Прайм-редактирование не было протестировано на волосковых клетках внутреннего уха in vivo. Доставка прайм-редактора и направляющей РНК во внешние волосковые клетки глубоко в улитке — нерешённая задача. Однако данный анализ подтверждает, что конкретный вариант Михаила технически является мишенью. Если проблема доставки будет решена (активная область исследований), эту мутацию можно исправить на уровне ДНК.

Часть 3

Как я это сделал

Пошаговая методология, позволяющая воспроизвести эти результаты

Day 1, evening

Без диплома генетика. Без доступа к лаборатории. Без бюджета. Только ноутбук, телефон и AI-агент (OpenClaw + Claude Opus 4.6), который реально умеет делать вещи: скачивать файлы, искать базы данных, анализировать данные, создавать сайты. Моя работа — задавать правильные вопросы. Вот именно что я спрашивал и что получал в ответ.

1

Я начал с генетического отчёта сына

Отчёт WES Михаила из Детской больницы Гонконга (Лаб. №: 23C7500174, декабрь 2022) содержал два варианта STRC. Один был помечен как «Патогенный» (делеция целого гена от отца, подтверждённая MLPA). Другой был помечен как «Вариант неопределённой значимости» (замена одной буквы от матери, подтверждённая секвенированием по Сэнгеру): NM_153700.2:c.4976A>C p.(Glu1659Ala). Мне нужно было выяснить: действительно ли второй вариант вреден?

Что вам нужно: генетический отчёт вашего ребёнка с точной номенклатурой варианта (название гена, нотация c., нотация p.).
2

Я спросил: где находится этот белок?

Я попросил Claude найти белок STRC. Он обратился к UniProt и нашёл идентификатор: Q7RTU9. Claude затем указал мне на AlphaFold, где есть предсказанная 3D-структура. Оценка достоверности (pLDDT) в позиции 1659 составила 95.69 из 100, что означает очень высокую надёжность предсказания структуры в этом месте.

Шаг A: Перейдите на uniprot.org, найдите название вашего гена, запишите идентификатор доступа UniProt
Шаг B: Перейдите на alphafold.ebi.ac.uk/entry/[ВАШ_ID], проверьте pLDDT в позиции вашего варианта
uniprot.org
Q7RTU9 · STRC_HUMAN
Стереоцилин · 1775 а.к.
Ген: STRC · Организм: Homo sapiens
alphafold.ebi.ac.uk
AF-Q7RTU9-F1 (v6)
pLDDT в позиции 1659: 95.69
Структура с очень высокой достоверностью
3

Я спросил: вредна ли эта мутация? (ключевое открытие)

AlphaMissense — инструмент Google DeepMind, который предсказывает, является ли мутация белка вредной. Claude загрузил файл предсказаний AlphaMissense для стереоцилина и нашёл «E1659A» (E = глутаминовая кислота, исходная аминокислота; A = аланин, вариант Михаила).

Результат: 0.9016 из 1.0 (Вероятно патогенный). Всё, что выше 0.564, считается вероятно вредным. Затем я проверил все 19 других возможных замен в позиции 1659. Каждая набрала выше 0.846. Это означает, что позиция 1659 структурно критична: любое изменение там нарушает функцию белка.

Как: Загрузите этот CSV-файл (предсказания AlphaMissense для STRC)
Затем: Откройте в Excel или Google Таблицах, найдите свой вариант (например, «E1659A»). Оценка > 0.564 = Вероятно патогенный
Для других генов: Замените Q7RTU9 на UniProt ID вашего белка в URL
AF-Q7RTU9-F1-aa-substitutions.csv (отфильтровано)
protein_variantam_pathogenicityam_class
E1659A0.9016LPath
E1659D0.9483LPath
E1659G0.9191LPath
... все 19 замен: LPath (0.846–0.999)
4

Я спросил: важна ли эта позиция у других видов?

Если позиция важна для белка, аминокислота в ней должна быть одинаковой у разных видов. Claude извлёк последовательности стереоцилина у 9 млекопитающих из UniProt (человек, мышь, крыса, корова, обезьяна, свинья, собака, летучая мышь, медведь) и нашёл мотив вокруг позиции 1659 у каждого.

Результат: 100% консервативности. Все 9 видов имеют глутаминовую кислоту (E) в этой позиции. Окружающий 13-остатковый мотив (PEIFTEIGTIAAG) идентичен на протяжении ~80 миллионов лет эволюции. Это доказательство PP1 Supporting по критериям ACMG.

Затем: Загрузите FASTA для каждого вида, найдите уникальный мотив рядом с позицией варианта
Быстрый способ: Если аминокислота и окружающие остатки идентичны у млекопитающих, позиция консервативна
5

Мы попробовали стандартные инструменты (они не сработали)

Обычно генетики используют SIFT, PolyPhen-2 и CADD для проверки вариантов. Claude попробовал все три через Ensembl VEP API. Все они не вернули ничего для этого варианта.

Причина: STRC имеет почти идентичный «ген-двойник» рядом с ним на хромосоме 15 (псевдоген STRCP1), который сбивает с толку инструменты, основанные на выравнивании последовательностей. Именно поэтому AlphaMissense особенно важен для STRC: он работает с 3D-структурой белка, а не с последовательностью ДНК, поэтому псевдоген не влияет на него.

Проверьте свой: Ensembl VEP API для этого варианта (не возвращает SIFT/PolyPhen)
Примечание: Если у вашего гена нет псевдогена, SIFT/PolyPhen могут работать для вас. Сначала проверьте свой ген на NCBI
6

Я спросил: достаточно ли этого для реклассификации?

Руководства ACMG/AMP (Richards et al., 2015) — стандартная система, используемая генетиками для классификации вариантов. Каждое доказательство получает код и уровень силы. Я изучил правила и применил их:

  • PM3 (Умеренное): Вариант обнаружен в транс с известной патогенной делецией (по одной от каждого родителя, подтверждено родительским тестированием). Правила ClinGen SVI
  • PP3_Moderate (Умеренное): Два конкордантных вычислительных инструмента предсказывают патогенность: AlphaMissense (0.9016) + REVEL (0.65). Повышено с поддерживающего до умеренного по Pejaver et al. 2022
  • PM2_Supporting (Поддерживающее): Отсутствует в gnomAD (0 аллелей у 251 000+ индивидуумов)
  • PP1_Supporting (Поддерживающее): Позиция на 100% консервативна у 9 видов млекопитающих (см. Шаг 4)

2 умеренных + 2 поддерживающих = Вероятно патогенный. Согласно правилам комбинирования ACMG (Таблица 5), это соответствует порогу классификации «Вероятно патогенный».

7

Я написал в больницу

Я собрал все доказательства в официальное письмо в Лабораторию химической патологии Детской больницы Гонконга с просьбой о пересмотре реклассификации варианта с VUS на Вероятно патогенный. Я приложил данные AlphaMissense, анализ консервативности и разбор критериев ACMG. Кроме того, я создал этот сайт, чтобы доказательства были прозрачными, воспроизводимыми и доступными всем, кто изучает это дело.

8

Что будет дальше

Если больница примет реклассификацию, молекулярный диагноз Михаила будет подтверждён: биаллельный патогенный STRC (DFNB16). Это является предпосылкой для участия в будущих клинических испытаниях генной терапии. Двойной AAV-вирусная генная терапия уже восстановила слух у мышей с дефицитом STRC (Iranfar et al., январь 2026). Клинические испытания на людях ожидаются через 2–3 года. Михаилу будет 7–8 лет.

За пределами реклассификации

Вопросы не закончились

Реклассификация — непосредственная цель. Но когда начинаешь задавать вопросы, остановиться невозможно. Можно ли сделать ген меньше? Исправить только одну букву? А что если проверить это вычислительно, прежде чем кто-то потратит хоть доллар на лабораторию? Это не гениальные озарения. Это очевидные вопросы. Разница в том, что есть AI-агент, который реально может пойти и найти ответы.

10

Я спросил: может ли CRISPR исправить только эту одну букву?

Вместо замены всего гена, что если исправить только одну неправильную букву? Claude загрузил геномную последовательность вокруг варианта Михаила из Ensembl и проверил, могут ли инструменты редактирования генома стать мишенью.

Базовое редактирование (CBE/ABE): не может исправить этот вариант (трансверсия C>A выходит за их пределы). Прайм-редактирование: осуществимо. Claude нашёл подходящий PAM-сайт всего в 4 парах оснований от мутации. Прайм-редактор теоретически мог бы исправить замену одного основания, хотя этот подход ещё не тестировался на клетках внутреннего уха.

11

Я спросил: можно ли укоротить ген, чтобы уместить его в один вирус?

Текущая генная терапия STRC требует двух вирусов (двойной AAV), поскольку ген слишком длинный для одного. Два вируса означают меньшую эффективность: оба должны попасть в одну клетку. Claude проанализировал структуру AlphaFold и определил, что первые ~600 аминокислот имеют очень низкую структурную достоверность (pLDDT ниже 50), что предполагает отсутствие у них стабильной структуры и их потенциальную несущественность.

Если эти области удалить, оставшийся «мини-стереоцилин» (1328 а.к., 3984 пн) помещается в один AAV-вектор. Это вычислительная гипотеза. Она требует лабораторной проверки. Но прецедент существует: микро-дистрофин (удаление несущественных частей дистрофина) сейчас проходит клинические испытания Фазы 3 при мышечной дистрофии.

12

Я спросил: взаимодействуют ли эти белки напрямую?

Чтобы дополнительно проверить идею мини-STRC, мы направили задание на Сервер AlphaFold 3 для предсказания 3D-структуры стереоцилина в комплексе с его партнёром TMEM145 (белком, недавно открытым как необходимый для функции стереоцилина, Nature Communications 2025).

Получены первые результаты (Задание 1). ipTM = 0.47, pTM = 0.48. Низкая достоверность прямого связывания. Анализ матрицы PAE показывает наилучшие межцепочечные контакты на N-концевых остатках 174–185 (но по-прежнему слабые — 8.6 A).

Затем я направил ещё 5 заданий для систематической проверки гипотезы мини-STRC:

Эксперимент Статус Тестирует
1 Полный STRC + TMEM145 Готово (ipTM 0.47) Базовое взаимодействие
2 Мини-STRC + TMEM145 Готово (ipTM 0.43) N-конец несущественен (0.43 против базового 0.47)
3 Мутант STRC E1659A (соло) В процессе Нарушает ли мутация Михаила укладку белка?
4 Дикий тип STRC (соло) Готово (pTM 0.63) Базовый уровень: 16% неупорядоченных (N-конец снижает результат)
5 Мини-STRC соло Готово (pTM 0.81) ДА! Мини-STRC сворачивается превосходно (7% неупорядоченных)
6 N-конец соло (1–615) Готово (pTM 0.27) ПОДТВЕРЖДЕНО: 38% неупорядоченных, pTM 0.27
Job 1 · Job 3 · Job 2 · Job 4 · Job 5 · Job 6
13

Я написал исследователям

Я написал письма ведущим исследователям, работающим над генной терапией STRC в учреждениях США, Франции и Китая. Я поделился доказательствами реклассификации, гипотезой мини-STRC и ссылкой на этот сайт.

Я получил обнадёживающие ответы, подтверждающие обоснованность вычислительного подхода и то, что анализ был передан исследовательским группам, работающим над генной терапией STRC.