{"title":"Acceptability and readability of ChatGPT-4 based responses for frequently asked questions about strabismus and amblyopia","authors":"S. Guven, B. Ayyildiz","doi":"10.1016/j.jfo.2024.104400","DOIUrl":null,"url":null,"abstract":"<div><h3>Purpose</h3><div>To evaluate the compatibility and readability of ChatGPT-4 in providing responses to common inquiries about strabismus and amblyopia.</div></div><div><h3>Materials and methods</h3><div>A series of commonly asked questions were compiled, covering topics such as the definition, prevalence, diagnostic approaches, surgical and non-surgical treatment alternatives, postoperative guidelines, surgery-related risks, and visual prognosis associated with strabismus and amblyopia. Each question was asked three times on the online ChatGPT-4 platform both in English and French, with data collection conducted on February 18, 2024. The responses generated by ChatGPT-4 were evaluated by two independent pediatric ophthalmologists, who classified them as “acceptable,” “unacceptable,” or “incomplete.” Additionally, an online readability assessment tool called “readable” was utilized for readability analysis.</div></div><div><h3>Results</h3><div>The majority of responses, totaling 97% of the questions regarding strabismus and amblyopia, consistently met the criteria for acceptability. Only 3% of responses were classified as incomplete, with no instances of unacceptable responses observed. The average Flesch-Kincaid Grade Level and Flesch Reading Ease Score were calculated as 14.53<!--> <!-->±<!--> <!-->1.8 and 23.63<!--> <!-->±<!--> <!-->8.2, respectively. Furthermore, the means for all readability indices, including the Coleman-Liau index, the Gunning Fog index, and the SMOG index, were found to be 15.75<!--> <!-->±<!--> <!-->1.4, 16.96<!--> <!-->±<!--> <!-->2.4, and 16.05<!--> <!-->±<!--> <!-->1.6, respectively.</div></div><div><h3>Conclusions</h3><div>ChatGPT-4 consistently produced acceptable responses to the majority of the questions asked (97%). Nevertheless, the readability of these responses proved challenging for the average layperson, requiring a college-level education for comprehension. Further improvements, particularly in terms of readability, are necessary to enhance the advisory capacity of this AI software in providing eye and health-related guidance for patients, physicians, and the general public.</div></div><div><h3>Objectif</h3><div>Évaluer la compatibilité et la lisibilité de ChatGPT-4 pour fournir des réponses aux demandes sur le strabisme et l’amblyopie.</div></div><div><h3>Matériels et méthodes</h3><div>Une série de questions fréquemment posées ont été compilées, couvrant des sujets tels que la définition, la prévalence, les approches diagnostiques, les alternatives de traitement chirurgical et non chirurgical, les directives postopératoires, les risques liés à la chirurgie et le pronostic visuel associés au strabisme et à l’amblyopie. Chaque question a été posée trois fois sur la plateforme en ligne ChatGPT-4 en anglais et en français, avec une collecte de données effectuée le 18 février 2024. Les réponses générées par ChatGPT-4 ont été évaluées par deux ophtalmologistes pédiatriques indépendants, qui les ont classées comme « acceptables », « inacceptables », ou « incomplètes ». De plus, un outil d’évaluation de la lisibilité en ligne appelé « Readable » a été utilisé pour l’analyse de la lisibilité.</div></div><div><h3>Résultats</h3><div>La majorité des réponses, totalisant 97 % des questions concernant le strabisme et l’amblyopie, ont systématiquement répondu aux critères d’acceptabilité. Seuls 3 % des réponses ont été classées comme incomplètes, aucun cas de réponses inacceptables n’a été observé. Le niveau moyen de grade Flesch-Kincaid et le score de facilité de lecture de Flesch ont été calculés à 14,53<!--> <!-->±<!--> <!-->1,8 et 23,63<!--> <!-->±<!--> <!-->8,2, respectivement. En outre, les moyennes de tous les indices de lisibilité, y compris l’indice Coleman-Liau, l’indice Gunning Fog et l’indice SMOG, ont été trouvées à 15,75<!--> <!-->±<!--> <!-->1,4, 16,96<!--> <!-->±<!--> <!-->2,4 et 16,05<!--> <!-->±<!--> <!-->1,6, respectivement.</div></div><div><h3>Conclusions</h3><div>ChatGPT-4 a systématiquement produit des réponses acceptables pour la majorité des questions posées (97 %). Néanmoins, la lisibilité de ces réponses s’est avérée difficile pour une personne moyenne, nécessitant un niveau d’éducation universitaire pour une compréhension adéquate. Des améliorations supplémentaires, notamment en termes de lisibilité, sont nécessaires pour renforcer la capacité de conseil de ce logiciel d’intelligence artificielle dans la fourniture de conseils relatifs à la santé oculaire et générale pour les patients, les médecins et le grand public.</div></div>","PeriodicalId":14777,"journal":{"name":"Journal Francais D Ophtalmologie","volume":"48 3","pages":"Article 104400"},"PeriodicalIF":1.2000,"publicationDate":"2024-12-20","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Journal Francais D Ophtalmologie","FirstCategoryId":"3","ListUrlMain":"https://www.sciencedirect.com/science/article/pii/S0181551224003450","RegionNum":4,"RegionCategory":"医学","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q3","JCRName":"OPHTHALMOLOGY","Score":null,"Total":0}
引用次数: 0
Abstract
Purpose
To evaluate the compatibility and readability of ChatGPT-4 in providing responses to common inquiries about strabismus and amblyopia.
Materials and methods
A series of commonly asked questions were compiled, covering topics such as the definition, prevalence, diagnostic approaches, surgical and non-surgical treatment alternatives, postoperative guidelines, surgery-related risks, and visual prognosis associated with strabismus and amblyopia. Each question was asked three times on the online ChatGPT-4 platform both in English and French, with data collection conducted on February 18, 2024. The responses generated by ChatGPT-4 were evaluated by two independent pediatric ophthalmologists, who classified them as “acceptable,” “unacceptable,” or “incomplete.” Additionally, an online readability assessment tool called “readable” was utilized for readability analysis.
Results
The majority of responses, totaling 97% of the questions regarding strabismus and amblyopia, consistently met the criteria for acceptability. Only 3% of responses were classified as incomplete, with no instances of unacceptable responses observed. The average Flesch-Kincaid Grade Level and Flesch Reading Ease Score were calculated as 14.53 ± 1.8 and 23.63 ± 8.2, respectively. Furthermore, the means for all readability indices, including the Coleman-Liau index, the Gunning Fog index, and the SMOG index, were found to be 15.75 ± 1.4, 16.96 ± 2.4, and 16.05 ± 1.6, respectively.
Conclusions
ChatGPT-4 consistently produced acceptable responses to the majority of the questions asked (97%). Nevertheless, the readability of these responses proved challenging for the average layperson, requiring a college-level education for comprehension. Further improvements, particularly in terms of readability, are necessary to enhance the advisory capacity of this AI software in providing eye and health-related guidance for patients, physicians, and the general public.
Objectif
Évaluer la compatibilité et la lisibilité de ChatGPT-4 pour fournir des réponses aux demandes sur le strabisme et l’amblyopie.
Matériels et méthodes
Une série de questions fréquemment posées ont été compilées, couvrant des sujets tels que la définition, la prévalence, les approches diagnostiques, les alternatives de traitement chirurgical et non chirurgical, les directives postopératoires, les risques liés à la chirurgie et le pronostic visuel associés au strabisme et à l’amblyopie. Chaque question a été posée trois fois sur la plateforme en ligne ChatGPT-4 en anglais et en français, avec une collecte de données effectuée le 18 février 2024. Les réponses générées par ChatGPT-4 ont été évaluées par deux ophtalmologistes pédiatriques indépendants, qui les ont classées comme « acceptables », « inacceptables », ou « incomplètes ». De plus, un outil d’évaluation de la lisibilité en ligne appelé « Readable » a été utilisé pour l’analyse de la lisibilité.
Résultats
La majorité des réponses, totalisant 97 % des questions concernant le strabisme et l’amblyopie, ont systématiquement répondu aux critères d’acceptabilité. Seuls 3 % des réponses ont été classées comme incomplètes, aucun cas de réponses inacceptables n’a été observé. Le niveau moyen de grade Flesch-Kincaid et le score de facilité de lecture de Flesch ont été calculés à 14,53 ± 1,8 et 23,63 ± 8,2, respectivement. En outre, les moyennes de tous les indices de lisibilité, y compris l’indice Coleman-Liau, l’indice Gunning Fog et l’indice SMOG, ont été trouvées à 15,75 ± 1,4, 16,96 ± 2,4 et 16,05 ± 1,6, respectivement.
Conclusions
ChatGPT-4 a systématiquement produit des réponses acceptables pour la majorité des questions posées (97 %). Néanmoins, la lisibilité de ces réponses s’est avérée difficile pour une personne moyenne, nécessitant un niveau d’éducation universitaire pour une compréhension adéquate. Des améliorations supplémentaires, notamment en termes de lisibilité, sont nécessaires pour renforcer la capacité de conseil de ce logiciel d’intelligence artificielle dans la fourniture de conseils relatifs à la santé oculaire et générale pour les patients, les médecins et le grand public.
期刊介绍:
The Journal français d''ophtalmologie, official publication of the French Society of Ophthalmology, serves the French Speaking Community by publishing excellent research articles, communications of the French Society of Ophthalmology, in-depth reviews, position papers, letters received by the editor and a rich image bank in each issue. The scientific quality is guaranteed through unbiased peer-review, and the journal is member of the Committee of Publication Ethics (COPE). The editors strongly discourage editorial misconduct and in particular if duplicative text from published sources is identified without proper citation, the submission will not be considered for peer review and returned to the authors or immediately rejected.