Michael Balas , Efrem D. Mandelcorn , Peng Yan , Edsel B. Ing , Sean A. Crawford , Parnian Arjmand
{"title":"ChatGPT and retinal disease: a cross-sectional study on AI comprehension of clinical guidelines","authors":"Michael Balas , Efrem D. Mandelcorn , Peng Yan , Edsel B. Ing , Sean A. Crawford , Parnian Arjmand","doi":"10.1016/j.jcjo.2024.06.001","DOIUrl":null,"url":null,"abstract":"<div><h3>Objective</h3><div>To evaluate the performance of an artificial intelligence (AI) large language model, ChatGPT (version 4.0), for common retinal diseases, in accordance with the American Academy of Ophthalmology (AAO) Preferred Practice Pattern (PPP) guidelines.</div></div><div><h3>Design</h3><div>A cross-sectional survey study design was employed to compare the responses made by ChatGPT to established clinical guidelines.</div></div><div><h3>Participants</h3><div>Responses by the AI were reviewed by a panel of three vitreoretinal specialists for evaluation.</div></div><div><h3>Methods</h3><div>To investigate ChatGPT's comprehension of clinical guidelines, we designed 130 questions covering a broad spectrum of topics within 12 AAO PPP domains of retinal disease These questions were crafted to encompass diagnostic criteria, treatment guidelines, and management strategies, including both medical and surgical aspects of retinal care. A panel of 3 retinal specialists independently evaluated responses on a Likert scale from 1 to 5 based on their relevance, accuracy, and adherence to AAO PPP guidelines. Response readability was evaluated using Flesch Readability Ease and Flesch-Kincaid grade level scores.</div></div><div><h3>Results</h3><div>ChatGPT achieved an overall average score of 4.9/5.0, suggesting high alignment with the AAO PPP guidelines. Scores varied across domains, with the lowest in the surgical management of disease. The responses had a low reading ease score and required a college-to-graduate level of comprehension. Identified errors were related to diagnostic criteria, treatment options, and methodological procedures.</div></div><div><h3>Conclusion</h3><div>ChatGPT 4.0 demonstrated significant potential in generating guideline-concordant responses, particularly for common medical retinal diseases. However, its performance slightly decreased in surgical retina, highlighting the ongoing need for clinician input, further model refinement, and improved comprehensibility.</div></div><div><h3>Objectif</h3><div>Évaluer les capacités d'un grand modèle de langage en intelligence artificielle (IA), soit ChatGPT (version 4.0), en ce qui a trait aux rétinopathies courantes, conformément aux lignes directrices en matière de pratiques courantes privilégiées (PPP, pour <em>Preferred Practice Pattern®</em>) de l'American Academy of Ophthalmology (AAO).</div></div><div><h3>Nature</h3><div>Il s'agit d'une enquête transversale visant à comparer les réponses du logiciel ChatGPT en fonction de lignes directrices cliniques établies.</div></div><div><h3>Participants</h3><div>Les réponses du logiciel d'IA ont été évaluées par un panel de 3 spécialistes de l'ophtalmologie vitréorétinienne.</div></div><div><h3>Méthodes</h3><div>Afin d'examiner le degré de compréhension du logiciel ChatGPT en matière de lignes directrices cliniques, nous avons mis au point 130 questions portant sur un vaste ensemble de sujets qui s'inscrivaient dans les 12 domaines de PPP de l'AAO en matière de rétinopathies. Ces questions ont été élaborées pour inclure des critères diagnostiques, des recommandations thérapeutiques et des stratégies de prise en charge, y compris des aspects médicaux et chirurgicaux en lien avec les rétinopathies. Un panel de 3 rétinologues indépendants ont évalué les réponses sur une échelle de Likert de 1 à 5 en fonction de leur pertinence, de leur exactitude et de leur respect des lignes directrices de PPP de l'AAO. On a eu recours au test de lisibilité de Flesch et au test de lisibilité selon le niveau scolaire de Flesch-Kincaid pour évaluer la lisibilité des réponses.</div></div><div><h3>Résultats</h3><div>Le logiciel ChatGPT a obtenu un score moyen global de 4,9/5,0, ce qui évoque une grande concordance avec les lignes directrices de PPP de l'AAO. Les scores fluctuaient en fonction des domaines, le score le plus faible portant sur la prise en charge chirurgicale. Le score de lisibilité des réponses était faible : elles exigeaient un niveau de compréhension de premier ou de deuxième cycle universitaire. Les erreurs identifiées portaient sur les critères diagnostiques, les options thérapeutiques et les démarches méthodologiques.</div></div><div><h3>Conclusion</h3><div>Le logiciel ChatGPT 4.0 a fait preuve d'un potentiel significatif pour ce qui est de générer des réponses qui respectent des lignes directrices, surtout en ce qui a trait aux rétinopathies courantes. Cependant, les résultats sont légèrement moindres dans le traitement chirurgical des rétinopathies, d'où l'importance de toujours disposer des compétences d'un clinicien, de parfaire davantage le modèle et d'en améliorer l'intelligibilité.</div></div>","PeriodicalId":9606,"journal":{"name":"Canadian journal of ophthalmology. Journal canadien d'ophtalmologie","volume":"60 1","pages":"Pages e117-e123"},"PeriodicalIF":3.3000,"publicationDate":"2025-02-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Canadian journal of ophthalmology. Journal canadien d'ophtalmologie","FirstCategoryId":"3","ListUrlMain":"https://www.sciencedirect.com/science/article/pii/S0008418224001753","RegionNum":4,"RegionCategory":"医学","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q1","JCRName":"OPHTHALMOLOGY","Score":null,"Total":0}
引用次数: 0
Abstract
Objective
To evaluate the performance of an artificial intelligence (AI) large language model, ChatGPT (version 4.0), for common retinal diseases, in accordance with the American Academy of Ophthalmology (AAO) Preferred Practice Pattern (PPP) guidelines.
Design
A cross-sectional survey study design was employed to compare the responses made by ChatGPT to established clinical guidelines.
Participants
Responses by the AI were reviewed by a panel of three vitreoretinal specialists for evaluation.
Methods
To investigate ChatGPT's comprehension of clinical guidelines, we designed 130 questions covering a broad spectrum of topics within 12 AAO PPP domains of retinal disease These questions were crafted to encompass diagnostic criteria, treatment guidelines, and management strategies, including both medical and surgical aspects of retinal care. A panel of 3 retinal specialists independently evaluated responses on a Likert scale from 1 to 5 based on their relevance, accuracy, and adherence to AAO PPP guidelines. Response readability was evaluated using Flesch Readability Ease and Flesch-Kincaid grade level scores.
Results
ChatGPT achieved an overall average score of 4.9/5.0, suggesting high alignment with the AAO PPP guidelines. Scores varied across domains, with the lowest in the surgical management of disease. The responses had a low reading ease score and required a college-to-graduate level of comprehension. Identified errors were related to diagnostic criteria, treatment options, and methodological procedures.
Conclusion
ChatGPT 4.0 demonstrated significant potential in generating guideline-concordant responses, particularly for common medical retinal diseases. However, its performance slightly decreased in surgical retina, highlighting the ongoing need for clinician input, further model refinement, and improved comprehensibility.
Objectif
Évaluer les capacités d'un grand modèle de langage en intelligence artificielle (IA), soit ChatGPT (version 4.0), en ce qui a trait aux rétinopathies courantes, conformément aux lignes directrices en matière de pratiques courantes privilégiées (PPP, pour Preferred Practice Pattern®) de l'American Academy of Ophthalmology (AAO).
Nature
Il s'agit d'une enquête transversale visant à comparer les réponses du logiciel ChatGPT en fonction de lignes directrices cliniques établies.
Participants
Les réponses du logiciel d'IA ont été évaluées par un panel de 3 spécialistes de l'ophtalmologie vitréorétinienne.
Méthodes
Afin d'examiner le degré de compréhension du logiciel ChatGPT en matière de lignes directrices cliniques, nous avons mis au point 130 questions portant sur un vaste ensemble de sujets qui s'inscrivaient dans les 12 domaines de PPP de l'AAO en matière de rétinopathies. Ces questions ont été élaborées pour inclure des critères diagnostiques, des recommandations thérapeutiques et des stratégies de prise en charge, y compris des aspects médicaux et chirurgicaux en lien avec les rétinopathies. Un panel de 3 rétinologues indépendants ont évalué les réponses sur une échelle de Likert de 1 à 5 en fonction de leur pertinence, de leur exactitude et de leur respect des lignes directrices de PPP de l'AAO. On a eu recours au test de lisibilité de Flesch et au test de lisibilité selon le niveau scolaire de Flesch-Kincaid pour évaluer la lisibilité des réponses.
Résultats
Le logiciel ChatGPT a obtenu un score moyen global de 4,9/5,0, ce qui évoque une grande concordance avec les lignes directrices de PPP de l'AAO. Les scores fluctuaient en fonction des domaines, le score le plus faible portant sur la prise en charge chirurgicale. Le score de lisibilité des réponses était faible : elles exigeaient un niveau de compréhension de premier ou de deuxième cycle universitaire. Les erreurs identifiées portaient sur les critères diagnostiques, les options thérapeutiques et les démarches méthodologiques.
Conclusion
Le logiciel ChatGPT 4.0 a fait preuve d'un potentiel significatif pour ce qui est de générer des réponses qui respectent des lignes directrices, surtout en ce qui a trait aux rétinopathies courantes. Cependant, les résultats sont légèrement moindres dans le traitement chirurgical des rétinopathies, d'où l'importance de toujours disposer des compétences d'un clinicien, de parfaire davantage le modèle et d'en améliorer l'intelligibilité.
期刊介绍:
Official journal of the Canadian Ophthalmological Society.
The Canadian Journal of Ophthalmology (CJO) is the official journal of the Canadian Ophthalmological Society and is committed to timely publication of original, peer-reviewed ophthalmology and vision science articles.