Введение
За последние годы в России удалось значительно снизить уровень сердечно-сосудистых заболеваний (ССЗ), однако эта патология по-прежнему остается ведущей причиной смертности в стране [1]. В основе здравоохранения в РФ лежат методы профилактической медицины, которые помогают предотвратить развитие заболеваний на ранних стадиях или до их развития [2, 3]. Это позволяет минимизировать прямой и косвенный экономический ущерб, который государство несет в связи с утратой трудоспособного населения из-за хронических неинфекционных заболеваний, включая ССЗ [4].
В последнее время все большую популярность набирает мобильная медицина (mHealth). В частности, это относится к мобильным приложениям, позволяющим отслеживать состояние здоровья (wellness-приложения). Их использование помогает врачу получить предварительные результаты о состоянии пациента до того, как он придет на осмотр в медицинское учреждение [5].
С увеличением доступности смартфонов и мобильного Интернета технологии mHealth открывают новые горизонты в области профилактической медицины. Они позволяют проводить массовые скрининги без необходимости использования специального оборудования, что значительно повышает вероятность выявления групп людей с факторами риска на ранних стадиях. Кроме того, предварительная оценка рисков позволяет оптимизировать затраты на здравоохранение [6].
Таким образом, для создания организационной технологии предварительной оценки уровня риска среди широких слоев населения целесообразно рассмотреть возможность применения технологий определения сердечно-сосудистого риска, не требующих инвазивной диагностики. Кроме того, актуальность этой темы обусловлена стремительным развитием технологии искусственного интеллекта (ИИ) в области здравоохранения и растущей популярностью носимых электронных устройств, позволяющих в реальном времени отслеживать состояние организма [7].
Цель данной работы – изучить и сравнить точность оценки сердечно-сосудистого риска с использованием и без использования факторов риска, определяемых инвазивными методами обследования, на популяции регионов РФ и Кыргызстана с использованием одной из моделей ИИ.
Материал и методы
Работа выполнена с использованием данных исследования «ИНТЕРЭПИД», проведенного в 2011–2016 гг. База данных содержала записи о 2392 пациентах из двух когорт – из Самарской области РФ и Кыргызской Республики, – прошедших наблюдение в течение семи лет [8, 9].
Во время исследования были проанализированы факторы риска развития ССЗ (всего 192 переменные), в том числе:
Самарская когорта включала 1050 (43,9%) человек:
Курили 21,2% участников исследования, повышенные цифры артериального давления отмечались у 49,4%, наличие в анамнезе инфаркта миокарда (ИМ) – у 1,3%, инсульта – у 1%, сахарного диабета (СД) 2-го типа – у 2,9%, уровень общего холестерина плазмы крови (ОХС) выше 5,0 ммоль/л – у 36%.
Чуйская когорта составила 1341 (56,1%) человек:
Курили 24,5% участников исследования, повышенное артериальное давление отмечалось у 39,1%, наличие ИМ в анамнезе – у 1,9%, инсульта – у 3,1%, ХСН – у 6,1%, СД 2-го типа – у 3,7%, уровень ОХС выше 5,0 ммоль/л – у 40,8%.
Всего по двум когортам:
Курили 24,5% участников, повышенное артериальное давление (АД) отмечалось у 39,1%, наличие ИМ в анамнезе – у 1,9%, инсульта – у 3,1%, ХСН – у 6,1%, СД 2-го типа – у 3,7%, уровень ОХС выше 5,0 ммоль/л – у 40,8%.
В рамках проспективного этапа наблюдения продолжительностью семь лет были зафиксированы следующие конечные точки:
Для формирования датасета для обучения ИИ базу данных исследования «ИНТЕРЭПИД» разделили на две группы.
Первая группа – пациенты, перенесшие на этапе проспективного наблюдения фатальные и нефатальные сердечно-сосудистые события, включая ишемическую болезнь сердца (ИБС) (МКБ 10: I20–I25); острые нарушения мозгового кровообращения (МКБ 10: I60–I64).
За период наблюдения исследованы 253 (24,1%) человека в Самарской когорте и 280 (20,9%) – в Чуйской когорте, всего 533 (22,5%) человека.
Вторая группа – пациенты без сердечно-сосудистых событий за период наблюдения: 797 (75,9%) в Самарской и 1061 (79,1%) в Чуйской когорте, всего 1858 (77,5%) человек.
Фатальные и нефатальные события, вызванные другими заболеваниями, в исследование не включались.
Для построения модели прогнозов был использован метод ИИ – GradientBoostingClassifier (градиентный бустинг) (рис. 1).
Данный алгоритм был выбран, поскольку градиентный бустинг входил в тройку наиболее часто используемых алгоритмов для создания прогнозов на табличных данных в проведенном систематическом обзоре [10], а также имел наиболее высокую долю результатов с высокими показателями площади под кривой (Area Under the Curve (AUC)) в ранее опубликованных работах [11–13].
Поскольку оба датасета содержали относительно небольшое количество записей, для тестирования модели было решено использовать алгоритм GridSearchCV из пакета sklearn.model_selection, который реализует метод кросс-валидации (cross-validation, CV) на пяти фолдах (5’-fold cross-validation).
Для оценки эффективности моделей использован показатель ROC-AUC. Для оценки показателей мультиколлинеарности использован показатель VIF (Variance Inflation Factor) с помощью statsmodels.stats.outliers_influence.importance.variance_inflation_factor. Для оценки вклада каждого предиктора в формирование прогноза проведено ранжирование факторов риска по степени их влияния на результат с помощью функции feature importance.
Статистическую обработку данных производили с использованием прикладной программы IBM SPSS Statistics 27. Цифровой код написан на языке программирования Python.
Результаты
В ходе исследования с использованием одного из алгоритмов технологии ИИ были выявлены факторы риска, которые наиболее тесно связаны с вероятностью возникновения сердечно-сосудистых заболеваний у здоровых людей. Также были разработаны и протестированы три модели ИИ.
В частности, для Самарской когорты градиентный бустинг показал результаты значения ROC-AUC 0,564, для Чуйской когорты – 0,806, для всей когорты «ИНТЕРЭПИД» – 0,766, р < 0,05 (рис. 2).
Низкие результаты классификации, полученные на Самарской когорте, можно объяснить более высокой несбалансированностью классов в данной выборке и более высокими показателями мультиколлинеарности (VIF > 10 наблюдался у 131 (85%) переменной). Наибольшие значения VIF имели переменные, кодирующие значения АД, а также потребление различных продуктов питания.
Для Кыргызской когорты наиболее весомыми факторами оказались возраст, ответы на утверждение: «Я стал все делать очень медленно» по шкале тревоги и депрессии и частота потребления пациентами колбас, сосисок и субпродуктов. Затем шли параметры значений АД, данных об избыточной массе тела и также об особенностях питания.
В тройку наиболее значимых факторов для Самарской когорты вошли: наличие болезней сердечно-сосудистой системы, уровень креатинина и липопротеидов высокой плотности (ЛПВП) в плазме крови. Значимую ассоциацию продемонстрировали также параметры физической активности, антропометрические показатели, злоупотребление алкоголем и оценка чувства страха и общего состояния дел по шкале тревоги и депрессии.
Наиболее значимым показателем при анализе всей когорты «ИНТЕРЭПИД» оказался возраст. На втором и третьем месте оказались уровень С-реактивного белка и факт потребления животного жира. При этом такие традиционные факторы риска, как пол и статус курения, не попали в первые 30 факторов, а показатель систолического артериального давления (САД) оказался на 24-м месте. 90% факторов риска являлись модифицируемыми и условно модифицируемыми (рис. 3).
Из всех 30 наиболее важных факторов риска, полученных на трех когортах, включая общую выборку, 10% были связаны с показателями АД, 33,3% – с особенностями питания и ассоциированными с ними факторами риска, 10% – с показателями ментального здоровья, 6,6% – с возрастом, 3,3% – с физической активностью, 3,3% – с вредными привычками, 23,3% – с лабораторными показателями, включая показатели липидов плазмы крови, и 10% – с данными анамнеза.
Аналогичный анализ проведен при исключении факторов риска, связанных с инвазивными методами обследования. К таким факторам относятся:
По данным С-статистики, средние значения ROC-AUC для Самарской когорты увеличились на 6,4% и составили 0,6. Для Чуйской когорты показатели возросли на 0,9% и составили 0,813. Для всей когорты значения не изменились и составили 0,767, р < 0,05 (см. рис. 2).
Аномальное повышение показателей ROC-AUC для Самарской когорты можно объяснить большим процентом пропущенных значений среди исключенных переменных (22,3% по сравнению с 0,03% у Чуйской когорты). Таким образом, исключение этих переменных повысило качество обучения, так как переменные с большим количеством пропусков создавали шум в данных.
При этом, несмотря на удовлетворительное качество данных, исключение факторов риска, требующих инвазивных методов обследования, не привело к значительным изменениям в классификационных качествах модели.
Для Самарской когорты в тройку наиболее значимых факторов вошли:
В то время как для Чуйской когорты наиболее важными оказались два фактора:
В целом комбинация факторов риска сохранилась. 77% факторов риска являлись модифицируемыми и условно модифицируемыми (рис. 4). Из всех 30 наиболее важных факторов риска, выявленных в трех когортах, включая общую выборку, 30% были связаны с показателями АД, 10% – с особенностями питания и ассоциированными с ними факторами риска, 3,3% – с показателями ментального здоровья, 6,6% – с возрастом, 10% – с социальным статусом, 6,6% – с вредными привычками и 33,3% – с данными анамнеза.
Чтобы сравнить качество оценки сердечно-сосудистого риска между ИИ (который не учитывает инвазивные факторы) и традиционными шкалами, мы сопоставили их с прогностическими возможностями шкал SCORE и Framingham. Для оценки риска с помощью SCORE и Framingham расчет прозводился на основе пяти предикторов:
Хотя в Самарской когорте значения ROC-AUC для алгоритма GradientBoostingClassifier были в среднем на 18% выше, чем у традиционных шкал, разница не была статистически значимой. В Чуйской когорте наивысший уровень ROC-AUC показала шкала Framingham – 0,828, а градиентный бустинг занял второе место. Для всей когорты «ИНТЕРЭПИД» значения ROC-AUC алгоритма ИИ оказались на 6,4% выше, чем у шкалы Framingham, и на 16,9% выше, чем у шкалы SCORE, при уровне значимости р < 0,05 (см. рис. 2).
Обсуждение
В настоящем исследовании мы достигли высоких результатов в области классификации с использованием одного из алгоритмов ИИ – градиентного бустинга. Результаты были получены как при применении всех доступных предикторов, так и после исключения факторов, связанных с инвазивными методами обследования.
Кроме того, исследование показало, что факторы, ассоциированные с прогнозом ССЗ, могут отличаться в зависимости от конкретной группы пациентов, на которой проводился анализ.
В ранее проведенной нами работе мы также сравнили возможности использования градиентного бустинга в прогнозе риска ССЗ [14]. Изначально в исследовании использовались факторы риска:
На данных предикторах AUC модели составил 0,83–0,84. Затем были исключены лабораторные показатели, и AUC модели вырос до 0,85, что согласуется с результатами текущего исследования. В подобном исследовании 2008 г. авторы использовали оригинальную когорту Фрамингемского исследования для построения двух моделей прогноза сердечно-сосудистого риска с использованием и без использования показателей липидов плазмы крови на основе логистической регрессии [15]. В первую модель были включены возраст, ОХС, ЛПВП, САД, курение, антигипертензивная терапия и наличие СД 2-го типа. Во второй модели был исключен липидный статус.
По данным С-статистики, показатели ROC-AUC для первой модели составили:
Без учета липидных показателей значения ROC-AUC оказались следующими:
Эти показатели в среднем лишь на 2,9% ниже, чем результаты, полученные с использованием липидных значений и нашей безлипидной модели.
В исследовании Stella Aslibekyan и соавт. [16] использовали факторы, связанные с питанием, снижением физической активности, курением, индексом талии и бедер, злоупотреблением алкоголем и низким социально-экономическим статусом, для прогноза риска развития ИМ на основании логистической регрессии. Показатели ROC-AUC составили от 0,63 до 0,67, что на 14,5% ниже, чем у нашей модели без липидов.
По мнению авторов представленных работ, неинвазивные методы оценки риска являются предпочтительными для первичного скрининга, особенно в условиях ограниченных ресурсов, где анализ крови может быть недоступен по различным причинам. Однако анализ, включающий показатели липидов плазмы крови, как правило, обладает более высокой прогностической точностью. Таким образом, выбор шкалы зависит от конкретных клинических условий и доступных данных.
Если рассматривать важность факторов риска, влияющих на прогноз ССЗ, полученных с помощью использования ИИ, то на сегодняшний день существует множество научных исследований, подтверждающих связь между особенностями питания и риском развития ССЗ. Эти связи были выявлены и в нашем исследовании.
Например, исследование, проведенное на выборке из 17 175 человек в России, показало, что ежедневное употребление творога, сыра и красного мяса связано с лучшей выживаемостью до развития ССЗ. С другой стороны, избыточное потребление соли и привычка досаливать пищу увеличивают риск сердечно-сосудистых осложнений [17].
Работа [18] представляет собой обзор различных систем питания, включая средиземноморскую, скандинавскую и диету DASH. Было установлено, что эти диеты, богатые растительными продуктами, снижают факторы риска, связанные с ССЗ, в частности уровень холестерина липопротеинов низкой плотности в крови.
В ноябре 2024 г. в «Российском медицинском журнале» было опубликовано исследование, в котором изучались факторы риска, связанные с нерациональным питанием. Исследование показало, что отношение окружности талии к росту может быть более точным показателем риска ССЗ, чем другие антропометрические параметры. Было установлено, что у участников с индексом талия/рост 0,5 и более вероятность развития ССЗ была в 3,1 раза выше, чем у тех, у кого этот показатель был ниже 0,5 [19].
Также существует значительное количество научных исследований, посвященных изучению связи между психическим здоровьем и риском развития ССЗ.
Исследование [20] выявило, что повышенная тревожность увеличивает вероятность фатального ИМ в 1,9 раза и внезапной смерти в 4,5 раза. Авторы подчеркивают необходимость коррекции психосоциальных факторов, включая тревожную симптоматику, в терапии пациентов с ССЗ.
Метаанализ, объединивший 20 исследований, показал, что тревожные пациенты имеют повышенный риск развития ИБС и смерти от ССЗ независимо от других факторов риска [21].
Обзор [22] посвящен как положительным, так и отрицательным влияниям физической активности на профилактику ССЗ. Авторы анализируют данные многочисленных исследований, демонстрирующие, что регулярная физическая активность способствует снижению общей и сердечно-сосудистой смертности. Однако чрезмерные или неправильно подобранные нагрузки могут иметь негативные последствия для сердечно-сосудистой системы. Статья подчеркивает важность индивидуального подхода к назначению физических упражнений для профилактики ССЗ.
Многочисленные исследования также подтвердили влияние традиционных факторов риска, таких как артериальная гипертензия, коморбидность, отягощенная наследственность и чрезмерное употребление алкоголя [23].
Исходя из полученных нами данных, можно сказать, что прогностические возможности шкал зависят:
Наше исследование и другие подобные работы показали, что добавление или исключение факторов риска, определяемых инвазивными методами диагностики, не оказывает существенного влияния на классификационные качества модели. Эти факторы могут быть полезны только в определенных клинических ситуациях и служат лишь дополнительным инструментом.
Заключение
Результаты исследования показали, что алгоритмы ИИ потенциально могут успешно заменить традиционные шкалы, даже при отсутствии лабораторных данных. Это открывает перспективы для применения ИИ в первичной профилактике ССЗ, особенно в регионах с ограниченным доступом к медицинским услугам.
Финансирование. Авторы заявляют, что исследование проведено без спонсорской поддержки.
Конфликт интересов. Авторы заявляют об отсутствии конфликта интересов.
Уважаемый посетитель uMEDp!
Уведомляем Вас о том, что здесь содержится информация, предназначенная исключительно для специалистов здравоохранения.
Если Вы не являетесь специалистом здравоохранения, администрация не несет ответственности за возможные отрицательные последствия, возникшие в результате самостоятельного использования Вами информации с портала без предварительной консультации с врачом.
Нажимая на кнопку «Войти», Вы подтверждаете, что являетесь врачом или студентом медицинского вуза.