Preview

Национальное здравоохранение

Расширенный поиск

Использование методов машинного обучения для диагностики заболеваний на основе неструктурированных медицинских текстов

https://doi.org/10.47093/2713-069X.2025.6.4.55-63

Аннотация

Современные методы машинного обучения открывают новые возможности для анализа медицинских текстов. Использование неструктурированных данных позволяет улучшить качество поддержки принятия врачебных решений и развивать персонализированные подходы к лечению пациентов.

Цель исследования: разработка оптимального алгоритма прогнозирования заболеваний с помощью мультиметочной классификации на основании медицинских текстов из отобранных случаев лечения пациентов.

Материалы и методы. В исследовании использовались анонимизированные электронные медицинские карты 387 590 пациентов. Для анализа текстовой информации применялись методы лемматизации и векторизации на основе предобученной модели FastText. Разработана мультиметочная модель классификации, предсказывающая 156 диагностических категорий, сгруппированных по основным группам заболеваний. Для построения моделей применялись нейросетевые архитектуры и ансамбли деревьев решений.

Результаты. Предложенные модели показали высокую эффективность. Использование различных методов агрегации текстовых векторов позволило повысить качество прогнозирования. Модель продемонстрировала стабильность и клиническую интерпретируемость результатов, обеспечивая возможность применения в реальной медицинской практике.

Заключение. Разработанный подход к анализу неструктурированных медицинских текстов с помощью методов машинного обучения является перспективным инструментом для поддержки диагностики заболеваний. Дальнейшие исследования направлены на улучшение интерпретируемости моделей и их адаптацию к различным клиническим источникам данных.

Об авторах

А. Д. Ермак
ООО «К-Скай»
Россия

Ермак Андрей Дмитриевич – аналитик данных направления искусственного интеллекта

наб. Варкауса, д. 17, г. Петрозаводск, 185910



Е. А. Макарова
ООО «К-Скай»
Россия

Макарова Елена Андреевна – канд. техн. наук, руководитель направления искусственного интеллекта

наб. Варкауса, д. 17, г. Петрозаводск, 185910



А. Н. Кафтанов
ООО «К-Скай»
Россия

Кафтанов Алексей Николаевич – канд. мед. наук, аналитик данных направления искусственного интеллекта

наб. Варкауса, д. 17, г. Петрозаводск, 185910



Д. В. Гаврилов
ООО «К-Скай»
Россия

Гаврилов Денис Владимирович – руководитель медицинского направления

наб. Варкауса, д. 17, г. Петрозаводск, 185910



Р. Э. Новицкий
ООО «К-Скай»
Россия

Новицкий Роман Эдвардович – генеральный директор

наб. Варкауса, д. 17, г. Петрозаводск, 185910



А. В. Гусев
ФГБУ «Центральный научно-исследовательский институт организации и информатизации здравоохранения» Министерства здравоохранения Российской Федерации
Россия

Гусев Александр Владимирович – канд. техн. наук, старший научный сотрудник отдела научных основ организации здравоохранения

ул. Добролюбова, д. 11, г. Москва, 127254



Список литературы

1. Spasic I., Nenadic G. Clinical text data in machine learning: Systematic review. JMIR Medical Informatics. 2020; 8(3): e17984. https://doi.org/10.2196/17984. PMID: 32229465

2. Hossain E., Rana R., Higgins N., et al. Natural Language Processing in Electronic Health Records in relation to healthcare decision-making: A systematic review. Computers in Biology and Medicine. 2023; 155: 106649. https://doi.org/10.1016/j.compbiomed.2023.106649. PMID: 36805219

3. Wu S., Roberts K., Datta S., et al. Deep learning in clinical natural language processing: A methodical review. Journal of the American Medical Informatics Association. 2020; 27(3): 457–470. https://doi.org/10.1093/jamia/ocz200. PMID: 31794016

4. Kesiku C.Y.Y., Chaves-Villota A., Garcia-Zapirain B. Natural Language Processing Techniques for Text Classification of Biomedical Documents: A Systematic Review. Information (Switzerland). 2022; 13(10): 499. https://doi.org/10.3390/info13100499.

5. Masud J.H.B., Kuo C.C., Yeh C.Y., et al. Applying Deep Learning Model to Predict Diagnosis Code of Medical Records. Diagnostics. 2023; 13(13): 2297. https://doi.org/10.3390/diagnostics13132297

6. Huang J., Osorio C., Sy L.W. An empirical evaluation of deep learning for ICD-9 code assignment using MIMIC-III clinical notes. Computers Methods and Programs in Biomedicine. 2019; 177: 141–153. https://doi.org/10.1016/j.cmpb.2019.05.024. PMID: 31319942

7. Zeng M., Li M., Fei Z., et al. Automatic ICD-9 coding via deep transfer learning. Neurocomputing. 2019; 324: 43–50. https://doi.org/10.1016/j.neucom.2018.04.081

8. Blanco A., Perez-de-Viñaspre O., Pérez A., et al. Boosting ICD multi-label classification of health records with contextual embeddings and label-granularity. Computers Methods and Programs in Biomedicine. 2020; 188: 105264. https://doi.org/10.1016/j.cmpb.2019.105264. PMID: 31851906

9. Zhang K., Ma H., Zhao Y., et al. The Comparative Experimental Study of Multilabel Classification for Diagnosis Assistant Based on Chinese Obstetric EMRs. Journal of Healthcare Engineering. 2018; 2018: 7273451. https://doi.org/10.1155/2018/7273451. PMID: 29666671

10. Korobov M. Morphological analyzer and generator for Russian and Ukrainian languages. Communications in Computer and Information Science. Springer Verlag; 2015; 542: 320–332. https://doi.org/10.1007/978-3-319-26123-2_31

11. Bergstra J., Bengio Y. Random Search for Hyper-Parameter Optimization. Journal of Machine Learning Research. 2012; 13: 281–305.

12. Sokolova M., Lapalme G. A systematic analysis of performance measures for classification tasks. Information Processing and Management. 2009; 45(4): 427–437. https://doi.org/10.1016/j.ipm.2009.03.002

13. Hinojosa Lee M.C., Braet J., Springael J. Performance Metrics for Multilabel Emotion Classification: Comparing Micro, Macro, and Weighted F1-Scores. Applied Sciences. 2024; 14(21): 9863. https://doi.org/10.3390/app14219863

14. Maltoudoglou L., Paisios A., Lenc L., et al. Well-calibrated confidence measures for multi-label text classification with a large number of labels. Pattern Recognition. 2022; 122: 108271. https://doi.org/10.1016/j.patcog.2021.108271

15. Chawla N.V., Bowyer K.W., Hall L.O., et al. SMOTE: Synthetic Minority Over-sampling Technique. Journal of Artificial Intelligence Research. 2002; 16(1): 321–357. https://doi.org/10.1613/jair.953

16. He H., Bai Y., Garcia E.A., et al. ADASYN: Adaptive synthetic sampling approach for imbalanced learning. Proceedings of the International Joint Conference on Neural Networks. 2008: 1322–1328. https://doi.org/10.1109/IJCNN.2008.4633969


Дополнительные файлы

1. Приложение 1. Заболевания и их группы, использовавшиеся в качестве меток для обучения моделей машинного обучения
Тема
Тип Исследовательские инструменты
Скачать (606KB)    
Метаданные ▾

Рецензия

Для цитирования:


Ермак А.Д., Макарова Е.А., Кафтанов А.Н., Гаврилов Д.В., Новицкий Р.Э., Гусев А.В. Использование методов машинного обучения для диагностики заболеваний на основе неструктурированных медицинских текстов. Национальное здравоохранение. 2025;6(4):55-63. https://doi.org/10.47093/2713-069X.2025.6.4.55-63

For citation:


Ermak A.D., Makarova E.A., Kaftanov A.N., Gavrilov D.V., Novitsky R.E., Gusev А.V. Disease diagnosis from unstructured medical texts using machine learning techniques. National Health Care (Russia). 2025;6(4):55-63. (In Russ.) https://doi.org/10.47093/2713-069X.2025.6.4.55-63

Просмотров: 84

JATS XML


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2713-069X (Print)
ISSN 2713-0703 (Online)