Введение
Маммография остается самым эффективным и широко используемым во всем мире методом скрининга на злокачественные новообразования (ЗНО) молочных желез, а также одним из наиболее эффективных методов снижения смертности от ЗНО молочной железы за счет ранней диагностики [1]. Несмотря на то что высокая плотность тканей молочной железы является менее значимым фактором риска, чем другие факторы, например наследственная предрасположенность, она встречается чаще [2]. При повышении плотности молочной железы снижается диагностическая точность маммографии [3–5], что обусловливает необходимость применения более дорогостоящих методов обследования, таких как МРТ молочных желез. Согласно исследованиям, МРТ признана наиболее эффективным методом дообследования при высокой плотности тканей [6]. Для улучшения ранней выявляемости ЗНО при высокой плотности эффективно дополнительное УЗИ, однако его внедрение ограничено дефицитом квалифицированных специалистов. Цифровой томосинтез, ставший стандартом диагностики, повышает выявляемость ЗНО, но его диагностическая точность также снижается при высокой плотности ткани железы [7]. В свою очередь, низкая плотность может быть маркером повышенного риска сердечно-сосудистых заболеваний (ССЗ). На основании последних исследований, проведенных по всему миру, можно говорить о том, что пониженная плотность молочной железы указывает на вероятность повышенного риска артериальной гипертензии, ишемической болезни сердца, сердечной недостаточности, цереброваскулярной болезни, гиперхолестеринемии, а также сахарного диабета [8].
При проведении диагностики лучевыми методами, как одними из самых массовых, здравоохранение сталкивается со множеством проблем: выгорание врачей, низкая доступность исследований для населения, недостаточный охват, а также дефицит кадров и финансовых ресурсов. Для решения этих вопросов продолжается активное внедрение ИИ-сервисов в лучевую диагностику [9], что обусловливает необходимость независимого определения этих параметров при внедрении ИИ-сервисов в практическое здравоохранение.
Цель
Оценить диагностическую точность и согласованность заключений трех ИИ-сервисов между собой и с мнением врача-эксперта при оценке маммографических исследований по шкале плотности ACR.
Материал и методы
Выполнено смешанное исследование (количественный компонент – ретроспективное диагностическое исследование, качественный компонент – аналитическое исследование).
Данное исследование основано на результатах Эксперимента по использованию инновационных технологий в области компьютерного зрения для анализа медицинских изображений и дальнейшего применения в системе здравоохранения г. Москвы, утвержденного этическим комитетом (выписка из протокола № 2 НЭК МРО РОРР от 20 февраля 2020 г.), также зарегистрированного на ClinicalTrials (NCT04489992).
Набор данных
Из Единого радиологического информационного сервиса Единой медицинской информационно-аналитической системы Москвы (ЕРИС ЕМИАС) случайным образом были отобраны и выгружены 99 маммографических исследований, выполненных за период с 13.11.2020 по 04.10.2021.
Критерии включения: исследования выполнены пациентам женского пола в возрасте старше 18 лет.
Критерии исключения: маммограммы с артефактами на изображениях.
Средний возраст пациенток составил 56,0 года.
Перед выгрузкой все исследования были анонимизированы. Далее для каждого исследования врач-эксперт (рентгенолог с опытом работы не менее 5 лет и ученой степенью/званием по специальности «рентгенология») определил значение плотности по шкале ACR (табл. 1).
Полная шкала ACR включает в себя следующие типы плотности:
Для обеспечения сопоставимости наших результатов с результатами, представленными в научной литературе, мы также перевели полную шкалу ACR в бинарную (табл. 2).
ИИ-сервисы
Подготовленный нами набор данных, состоящий из 396 изображений (99 исследований), был обработан тремя ИИ-сервисами российских коммерческих компаний, которые далее по тексту будут представлены в анонимизированном виде: ИИ-сервис № 1, ИИ-сервис № 2,
ИИ-сервис № 3. ИИ-сервисы определили значение плотности по шкале ACR.
Статистический анализ
Для оценки диагностической точности ИИ-сервисов были рассчитаны следующие параметры с 95%-ными доверительными интервалами (ДИ): ROC AUC, чувствительность, специфичность, точность. В качестве истинных значений (Ground Truth) использовались оценки врача-эксперта. Расчет параметров был выполнен с помощью веб-инструмента, разработанного ГБУЗ «Научно-практический клинический центр диагностики и телемедицинских технологий» (НПКЦ ДиТ) ДЗМ (https://roc-analysis.mosmed.ai). Параметры диагностической точности рассчитывались для бинарной шкалы ACR.
Подготовленный набор данных состоял из 99 маммографических исследований. С обоснованием объема выборки можно ознакомиться в наших предыдущих работах [10].
Для количественной оценки степени согласованности между заключениями различных ИИ-сервисов и мнением врача-эксперта при определении категорий плотности молочной железы по шкале ACR был применен метод внутриклассовой корреляции (Intraclass Correlation Coefficient, ICC) Пирсона. Данный метод представляет собой мощный статистический инструмент, позволяющий оценить не только степень соответствия между измерениями, но и их согласованность в условиях, когда оценивается один и тот же параметр разными методами или наблюдателями. В нашем исследовании использовалась двухсторонняя модель ICC с доверительными интервалами 95%, что соответствует рекомендациям по оценке согласованности между различными методами измерений. Значения ICC интерпретировались согласно классификации Landis и Koch: 0,81–1,00 – практически полная согласованность; 0,61–0,80 – существенная согласованность; 0,41–0,60 – умеренная согласованность; 0,21–0,4 – слабая согласованность; 0–0,20 – очень слабая согласованность.
Результаты
В таблице 3 представлены значения ROC AUC, чувствительности, специфичности и точности с 95%-ными доверительными интервалами для трех ИИ-сервисов при бинарной оценке маммографических исследований.
Анализ данных, приведенных в табл. 3, демонстрирует высокую и сопоставимую общую диагностическую точность всех трех сервисов. Так, значения ROC AUC находятся в диапазоне от 0,866 (ИИ-сервис № 2) до 0,904 (ИИ-сервис № 3). Все ИИ-сервисы показали высокую чувствительность (0,833–0,867) и специфичность (0,899–0,957), что является критически важным для скрининговых инструментов, целью которых является минимизация как ложноотрицательных, так и ложноположительных результатов. Наибольшую специфичность (0,957), а следовательно, и наименьшую частоту ложноположительных результатов продемонстрировал ИИ-сервис № 1 – общая точность алгоритмов находится в диапазоне от 0,879 до 0,919.
В таблице 4 представлены значения параметров диагностической точности ИИ-сервисов для отдельных типов рентгенологической плотности ткани молочной железы (ACR A–D).
Результаты демонстрируют существенную вариабельность диагностической эффективности ИИ-алгоритмов в зависимости от типа плотности ткани. ROC-AUC сохраняет стабильно высокие значения (более 0,8) для всех сервисов во всех категориях плотности, что подтверждает их общую надежность в дифференциальной диагностике. Особого внимания заслуживает прогрессирование метрик в категориях с высокой плотностью (C и D), где ИИ-сервис № 3 достигает исключительных показателей с ROC-AUC 0,995 [0,985–1,005] для категории D. Однако анализ чувствительности выявляет разнонаправленные тенденции между сервисами. ИИ-сервис № 1 показывает наименьшую чувствительность в категориях ACR A (0,714) и ACR C (0,731), но демонстрирует один из лучших результатов для категории ACR D (0,750). ИИ-сервис № 2 сохраняет относительную стабильность показателей в категориях ACR A–C (0,854–0,731) с пиковым значением в категории ACR D (0,762). Наиболее впечатляющие результаты демонстрирует ИИ-сервис № 3, поддерживающий стабильно высокую чувствительность во всех категориях и достигающий идеального значения 1,000 в категориях ACR C и ACR D. Показатель специфичности последовательно улучшается от категорий ACR A к ACR D для всех сервисов: ИИ-сервис № 1 прогрессирует от 0,979 (D) до 0,987 (A), ИИ-сервис № 2 – от 0,804 (B) до 1,000 (D), а ИИ-сервис № 3 – от 0,824 (B) до 0,989 (C) и 0,979 (D). Данная динамика свидетельствует о повышенной точности алгоритмов в работе с плотными тканями, где традиционные методы диагностики сталкиваются с наибольшими сложностями. В категориях с низкой плотностью (ACR A и ACR B) сервисы показывают относительно стабильные показатели ROC AUC в диапазоне 0,829–0,903, при этом специфичность остается высокой для категории ACR A (0,987 у ИИ-сервиса № 1), но заметно снижается для ACR B (0,784–0,804). Для высокоплотных категорий (ACR C и ACR D) наблюдаются различные показания: в категории C некоторые сервисы демонстрируют улучшение показателей (ROC AUC 0,903 – у ИИ-сервиса № 3), а в категории ACR D достигают исключительно высоких значений (AUC 0,995 – у ИИ-сервис № 3). Чувствительность достигает 100% у ИИ-сервис № 3 для категории ACR D, однако эти показатели сопровождаются широкими доверительными интервалами, что указывает на необходимость осторожной интерпретации. Специфичность последовательно возрастает к категории ACR D, достигая значений 0,979–1,000. Полученные данные подчеркивают критическую важность учета плотности ткани молочной железы при валидации и клиническом внедрении ИИ-решений, поскольку их диагностическая эффективность существенно зависит от данного фактора.
В таблице 5 отражены показатели внутриклассовой корреляции, демонстрирующие уровень согласованности оценок между различными парами ИИ-сервисов для правой и левой молочных желез.
Статистический анализ выявил высокую степень согласованности между заключениями ИИ-сервисов в оценке маммографической плотности. Наибольшая согласованность наблюдалась между ИИ-сервисом № 1 и ИИ-сервисом № 2, с ICC = 0,87 для правой молочной железы и 0,843 – для левой, что свидетельствует о практически полном соответствии их оценок. Сравнение согласованности ИИ-сервиса № 1 с ИИ-сервисом № 3 показало ICC в диапазоне 0,751–0,82, а между ИИ-сервисом № 2 и ИИ-сервисом № 3 – 0,797–0,806, что соответствует уровню существенной согласованности.
В таблице 6 представлены значения внутриклассовой корреляции между заключениями трех ИИ-сервисов и мнением врача-эксперта при оценке плотности ткани правой и левой молочных желез.
При сопоставлении ИИ-сервисов с экспертными оценками все системы продемонстрировали высокие параметры диагностической точности. Наилучшие результаты показали ИИ-сервис № 1 (ICC = 0,857) и ИИ-сервис № 2 (ICC = 0,852) при анализе левой молочной железы, в то время как ИИ-сервис № 3 достиг значений 0,833–0,848. Особого внимания заслуживает анализ доверительных интервалов, которые во всех случаях находились в зоне существенной или практически полной согласованности. Например, для пары ИИ-сервис № 1 и ИИ-сервис № 2 при оценке правой молочной железы 95%-ный ДИ составил 0,813–0,911, что исключает возможность умеренной или слабой согласованности и подтверждает высокую воспроизводимость результатов.
Обсуждение
В нашем исследовании параметры диагностической точности ИИ-сервисов, определяющих плотность молочной железы по бинарной шкале ACR, были следующими: ROC AUC – 0,866–0,904, чувствительность – 0,833–0,867, специфичность – 0,899–0,957, точность – 0,879–0,919.
При оценке диагностической точности для отдельных категорий плотности молочных желез по полной шкале ACR были получены следующие значения: ROC AUC – 0,817–0,995, чувствительность – 0,714–1,000, специфичность – 0,784–1,000, точность – 0,828–0,990.
В другой работе H. Ji и соавт. (2024) согласованность заключений трех коммерческих ИИ-сервисов и мнения врача-рентгенолога при оценке плотности молочной железы находилась в диапазоне от 0,500 до 0,673, что соответствует уровню от слабой до умеренной. При этом согласованность между самими ИИ-сервисами варьировалась в еще более широком диапазоне – от 0,486 до 0,684. Наибольшее расхождение наблюдалось у одного из сервисов
(ИИ-сервис № 3), который демонстрировал низкую согласованность оценки как с врачом-экспертом (0,500), так и с другими алгоритмами (0,486–0,494) [11].
В работе B. Rigaud и соавт. (2022) продемонстрировали согласованность оценок ИИ-сервиса и врача-эксперта на уровне 0,33 по полной шкале плотности ACR и 0,54 для бинарной классификации, что соответствует удовлетворительной и умеренной степеням согласованности соответственно. Авторы предложили использовать другие, предварительно обученные модели глубокого обучения, которые продемонстрировали более высокую согласованность с экспертами: значения в диапазонах 0,61–0,66 – для полной шкалы плотности и 0,70–0,75 – для бинарной классификации указывают на умеренную и существенную степени согласованности [12].
Отдельного внимания заслуживает диагностическая точность рентгенологов при оценке плотности молочных желез. Согласно исследованию M. Biros и соавт. (2024), согласованность оценок ИИ-сервиса и врача-рентгенолога составила 0,708 (95% ДИ 0,562–0,841), что свидетельствует о существенной согласованности, точность заключений ИИ-сервиса составила 0,819 (95% ДИ от 0,736 до 0,903) [13].
Проводя параллель между исследованиями, можно говорить о результатах работы российского ПО на основе технологий искусственного интеллекта не только как о сопоставимых с зарубежными аналогами, но и превосходящих их. Наиболее значимое преимущество наблюдается в категориях с высокой плотностью тканей молочной железы (ACR C и ACR D), где российские системы показывают близкие к идеальным значения чувствительности и специфичности. Преимущество в точности обусловлено комплексной методологией разработки, сочетающей масштабные данные и глубокую интеграцию экспертных знаний. Стоит отметить, что российские разработчики при обучении моделей ИИ активно привлекают врачей-рентгенологов, в то время как зарубежные компании зачастую используют информацию из открытых источников [14,15].
Полученные данные убедительно свидетельствуют о том, что современные ИИ-алгоритмы способны воспроизводить экспертные оценки маммографической плотности с точностью, соответствующей критериям «практически полной согласованности». Важно отметить, что различия между показателями ICC для правой и левой молочных желез (в среднем 0,01–0,02) не достигли статистической значимости (p > 0,05), что подтверждает стабильность работы алгоритмов независимо от стороны исследования и отсутствие систематической ошибки, связанной с локализацией. Эти результаты имеют важное клиническое значение, так как демонстрируют потенциал ИИ-технологий для стандартизации оценки маммографической плотности в рутинной практике.
Заключение
Проведенное исследование продемонстрировало высокую диагностическую согласованность заключений российских ИИ-сервисов как между собой, так и с экспертной оценкой врача-рентгенолога при определении маммографической плотности по шкале ACR. Полученные значения внутриклассовой корреляции (ICC 0,751–0,87 между ИИ-сервисами и 0,833–0,857 при сравнении с экспертом) соответствуют уровням существенной и практически полной согласованности согласно критериям Landis и Koch, что не только сопоставимо с зарубежными аналогичными исследованиями, но и превосходит их результаты. Наблюдается высокая согласованность оценок плотности как между ИИ-сервисами, так и между ИИ-сервисами и врачом-экспертом. Параметры диагностической точности по бинарной шкале ACR также находятся на высоком уровне. По полной шкале чувствительность ИИ-сервисов неодинакова к разным категориям: ИИ-сервис № 1 определяет лучше категорию ACR В, ИИ-сервис № 3 – ACR D, ИИ-сервис № 2 – ACR D. Но даже при этом уровни чувствительности – нормальные, а значения специфичности и ROC AUC – высокие, что в совокупности позволяет использовать данные ИИ-сервисы в клинической практике. Их использование может способствовать стандартизации оценки плотности молочной железы. Таким образом, современные российские ИИ-сервисы, использующиеся для оценки маммографической плотности, не только соответствуют экспертному уровню, но и демонстрируют сопоставимость результатов с зарубежными аналогичными исследованиями.
Финансирование. Cтатья подготовлена авторским коллективом в рамках НИОКР «Программные решения на основе технологий искусственного интеллекта для практического здравоохранения».
Благодарности. Авторы выражают благодарность компаниям-разработчикам АО «МЕДИЦИНСКИЕ ТЕХНОЛОГИИ Лтд», ООО «Медицинские Скрининг Системы», ООО «Платформа Третье Мнение»за предоставление своих решений для тестирования в рамках настоящей публикации.
Уважаемый посетитель uMEDp!
Уведомляем Вас о том, что здесь содержится информация, предназначенная исключительно для специалистов здравоохранения.
Если Вы не являетесь специалистом здравоохранения, администрация не несет ответственности за возможные отрицательные последствия, возникшие в результате самостоятельного использования Вами информации с портала без предварительной консультации с врачом.
Нажимая на кнопку «Войти», Вы подтверждаете, что являетесь врачом или студентом медицинского вуза.