Примером другой перспективной технологии обработки и обобщения больших объемов информации для решения задач классификации и прогнозирования является так называемая технология анализа и добычи данных Data Mining. Методы и инструментальные средства анализа и добычи данных представляют собой дальнейшее развитие таких известных статистических инструментов разведочного анализа, как метод главных и метод независимых компонент, факторный анализ, множественная регрессия, редуцирование пространства признаков с использованием метода многомерного шкалирования, кластерного анализа и распознавания образов и др. Программно реализованные и снабженные удобным пользовательским интерфейсом, а также поддержанные гибкими алгоритмами визуализации многомерных данных, средства Data Mining позволяют проводить соответствующие исследования даже начинающему пользователю. В арсенал методов кластерного анализа и распознавания образов систем Data Mining обычно входят метод опорных векторов (Support Vector Machine, или SVM), метод деревьев решений (decision trees), метод «ближайшего соседа» в пространстве признаков, байесовская классификация и др.
Среди указанной группы методов классификации и распознавания наиболее интересным и гибким представляется метод опорных векторов (МОВ).
Метод опорных векторов (МОВ) – это метод первоначальной классификации, который решает данную задачу путем построения гиперплоскостей в многомерном пространстве, разделяющих группы наблюдений, принадлежащих к разным классам. На рис. 3 проиллюстрирована основная идея МОВ. В левой части схемы представлены исходные объекты, которые далее преобразуются (перемещаются, сдвигаются) в пространстве признаков при помощи специального класса математических функций, называемых ядрами. Этот процесс перемещения называют еще преобразованием, или перегруппировкой объектов. Новый набор преобразованных объектов (в правой части схемы) уже линейно разделим. Таким образом, вместо построения сложной кривой (как показано в левой части схемы) требуется лишь провести оптимальную прямую, которая разделит объекты разных типов. Затем метод отыскивает объекты, находящиеся на границах между двумя классами, которые называются опорными векторами, и использует их для принятия решений о принадлежности к тому или иному классу новых объектов, предъявляемых для распознавания.
Рис. 3. Основная идея метода опорных векторов
4. Примеры использования экспертных систем в медицине
Примеры использования экспертных систем в медицине нельзя назвать единичными, они применяются во многих областях здравоохранения. Примечательно, что подавляющее большинство таких работ выполнено зарубежными исследователями и в основном они касаются возможностей использования ИНС в различных клинических ситуациях. Так, например, в области хирургии P.L. Liew et al. на основе ИНС создали систему прогнозирования риска развития желчнокаменной болезни у людей с избыточной массой тела. Авторы ретроспективно изучили антропоморфометрические, анамнестические, клинические и лабораторные данные 117 пациентов с ожирением, прооперированных за период с февраля 1999 по октябрь 2005 г. Была построена ИНС, обученная алгоритмом обратного распространения. Использовались 30 входных переменных, включая клинические данные (пол, возраст, индекс массы тела, сопутствующие заболевания), лабораторные показатели и результаты гистологического исследования. Прогнозирующую ценность ИНС сравнивали с моделью логистической регрессии, обученной на той же базе данных. ИНС продемонстрировала лучшую прогнозирующую ценность и более низкую ошибку, чем модель логистической регрессии. Наиболее важные факторы риска желчнокаменной болезни, по данным обеих методик, — повышенное диастолическое артериальное давление, преморбидный фон, нарушение метаболизма глюкозы и повышение уровня холестерина крови.
В эндоскопии A. Das et al. использовали нейросетевые технологии для сортировки больных с неварикозными кровотечениями из верхних отделов желудочно-кишечного тракта. Была исследована эффективность ИНС, обученной по клиническим и лабораторным данным 387 пациентов с изучаемой патологией, верификация — по данным 200 пациентов с проведением ROC-анализа. На выходе сети имелись две результирующие переменные: наличие или отсутствие признаков продолжающегося кровотечения и потребность в лечебной эндоскопии. Чувствительность нейронной сети составила > 80 %, прогнозирующая ценность – 92—96 %.
В онкоурологии P. Bassi et al. прогнозировали 5-летнюю выживаемость пациентов, перенесших радикальную цист-эктомию по поводу рака мочевого пузыря. Для этого были разработаны и сравнены ИНС и модель логистической регрессии (МЛР). Выявлено, что единственными статистически достоверными предсказателями 5-летней выживаемости оказались стадия опухоли и наличие или отсутствие прорастания в соседние органы. Положительная прогнозирующая ценность МЛР — 78,6%, ИНС – 76,2%, отрицательная прогнозирующая ценность – 73,9% и 76,5% соответственно. Индекс диагностической точности МЛР – 75,9%, ИНС – 76,4%. Таким образом, прогностическая ценность ИНС оказалась сопоставимой с МЛР, но нейросеть продемонстрировала определенные преимущества: ИНС базируется на удобном в работе, понятном программном обеспечении, позволяющем выявлять нелинейные связи между переменными, поэтому она более предпочтительна для использования в прогнозировании.
С. Stephan et al. применили ИНС для автоматизированного анализа биоптата предстательной железы. Методика основывалась на выявлении общего простат-специфического антигена (ПСА) и определении процента свободного ПСА. Чувствительность составила 95%, специфичность – 34%. При дополнении нейросети моделью логистической регрессии специфичность возросла до 95%.
F. K. Chunetal. использовали ИНС для выявления группы риска рака предстательной железы в сравнении с МЛР. ИНС также продемонстрировала более точные прогностические возможности.
В трансплантологии G. Santori et al. применили нейросетевые технологии в прогнозировании отсроченного снижения креатинина сыворотки крови у детей после трансплантации почки. Для выявления корреляции между входными переменными и искомым результатом у пациентов, подлежащих трансплантации почки, была создана искусственная нейронная сеть, обученная на 107 клинических примерах. Были отобраны наиболее важные переменные, коррелирующие с результатом: креатинин сыворотки крови в день пересадки, диурез за первые 24 часа, эффективность гемодиализа, пол реципиента, пол донора, масса тела в первый день после пересадки, возраст. Модель была откалибрована второй выборкой пациентов (n = 41). Точность нейронной сети в обучающей, калибровочной и проверочной выборках составила 89 %; 77% и 87% соответственно. Сравнительный логистический анализ показал общую точность 79%. Чувствительность и специфичность ИНС составили 87%, тогда как метод логистической регрессии продемонстрировал худшие результаты — 37% и 94% соответственно.
В медицинской радиологии F. Dоhler et al. использовали нейронную сеть для классификации изображений МРТ с целью автоматизированного обнаружения гиппокампального склероза. ИНС была обучена на 144 примерах изображений и позволяла классифицировать изменения в ткани головного мозга относительно наличия склеротических изменений. E.E. Gassman et al. создали ИНС для автоматизированной идентификации костных структур и оценили надежность этой методики по сравнению с традиционными. Кроме того, сегментацию структур кости ИНС выполнила в 10 раз быстрее.
В неврологии A.T. Tzallas et al. применили нейросеть для прогнозирования эпилептических приступов на основе анализа электроэнцефалограмм. Прогностическая точность метода составила 98 – 100 %.
Разработанная нами нейросетевая модель предназначена для прогнозирования вероятности развития инфицированного панкреонекроза на основании данных, полученных при поступлении больного в стационар и в течение первых 48 часов госпитализации: точность результатов — 90%, специфичность – 96% . Используя эту модель, мы получили возможность уже на ранних сроках заболевания острым панкреатитом определить группу больных, угрожаемых по развитию инфицированного панкреонекроза с выбором адекватной лечебно-диагностической тактики.
Кроме того, нейронная сеть позволила выделить 12 наиболее информативных показателей для прогнозирования в ранние сроки заболевания инфекционных осложнений острого панкреатита:
- тип госпитализации в стационар (перевод из другой больницы);
- возраст больного;
- индекс массы тела;
- температура тела больного;
- частота сердечных сокращений;
- частота дыхательных движений;
- количество лейкоцитов крови;
- вздутие живота, определяемое в течение 24 часов от начала заболевания (повышенное внутрибрюшное давление);
- острые жидкостные образования и (или) свободная жидкость в брюшной полости, определяемые в первые 24 часа от начала заболевания;
- мочевина крови;
- глюкоза крови;
- отсутствие улучшения общего состояния больного в течение 24 часов комплексной интенсивной терапии (пациент «не отвечает» на проводимое лечение, рост количества баллов по шкале SAPS II).
Технология Data Mining (DM), включающая нейросетевое моделирование, метод опорных векторов и др., применена N. Horowitz et al. в разработке диагностической анкеты для выявления гастроэзофагеальной рефлюксной болезни. Авторами были обследованы 132 пациента, на основании полученных данных построена DM-модель, позволившая отобрать наиболее важные и достоверные признаки заболевания: изжога, отрыжка кислым, положительный эффект от антацидной терапии и ухудшение самочувствия после острой, жирной пищи. Чувствительность и специфичность данного метода составили 75% и 78%.