Acceptability and readability of ChatGPT-4 based responses for frequently asked questions about strabismus and amblyopia

IF 1.2 4区医学 Q3 OPHTHALMOLOGY Journal Francais D Ophtalmologie Pub Date : 2024-12-20 DOI:10.1016/j.jfo.2024.104400

S. Guven, B. Ayyildiz

{"title":"Acceptability and readability of ChatGPT-4 based responses for frequently asked questions about strabismus and amblyopia","authors":"S. Guven, B. Ayyildiz","doi":"10.1016/j.jfo.2024.104400","DOIUrl":null,"url":null,"abstract":"<div><h3>Purpose</h3><div>To evaluate the compatibility and readability of ChatGPT-4 in providing responses to common inquiries about strabismus and amblyopia.</div></div><div><h3>Materials and methods</h3><div>A series of commonly asked questions were compiled, covering topics such as the definition, prevalence, diagnostic approaches, surgical and non-surgical treatment alternatives, postoperative guidelines, surgery-related risks, and visual prognosis associated with strabismus and amblyopia. Each question was asked three times on the online ChatGPT-4 platform both in English and French, with data collection conducted on February 18, 2024. The responses generated by ChatGPT-4 were evaluated by two independent pediatric ophthalmologists, who classified them as “acceptable,” “unacceptable,” or “incomplete.” Additionally, an online readability assessment tool called “readable” was utilized for readability analysis.</div></div><div><h3>Results</h3><div>The majority of responses, totaling 97% of the questions regarding strabismus and amblyopia, consistently met the criteria for acceptability. Only 3% of responses were classified as incomplete, with no instances of unacceptable responses observed. The average Flesch-Kincaid Grade Level and Flesch Reading Ease Score were calculated as 14.53±1.8 and 23.63±8.2, respectively. Furthermore, the means for all readability indices, including the Coleman-Liau index, the Gunning Fog index, and the SMOG index, were found to be 15.75±1.4, 16.96±2.4, and 16.05±1.6, respectively.</div></div><div><h3>Conclusions</h3><div>ChatGPT-4 consistently produced acceptable responses to the majority of the questions asked (97%). Nevertheless, the readability of these responses proved challenging for the average layperson, requiring a college-level education for comprehension. Further improvements, particularly in terms of readability, are necessary to enhance the advisory capacity of this AI software in providing eye and health-related guidance for patients, physicians, and the general public.</div></div><div><h3>Objectif</h3><div>Évaluer la compatibilité et la lisibilité de ChatGPT-4 pour fournir des réponses aux demandes sur le strabisme et l’amblyopie.</div></div><div><h3>Matériels et méthodes</h3><div>Une série de questions fréquemment posées ont été compilées, couvrant des sujets tels que la définition, la prévalence, les approches diagnostiques, les alternatives de traitement chirurgical et non chirurgical, les directives postopératoires, les risques liés à la chirurgie et le pronostic visuel associés au strabisme et à l’amblyopie. Chaque question a été posée trois fois sur la plateforme en ligne ChatGPT-4 en anglais et en français, avec une collecte de données effectuée le 18 février 2024. Les réponses générées par ChatGPT-4 ont été évaluées par deux ophtalmologistes pédiatriques indépendants, qui les ont classées comme « acceptables », « inacceptables », ou « incomplètes ». De plus, un outil d’évaluation de la lisibilité en ligne appelé « Readable » a été utilisé pour l’analyse de la lisibilité.</div></div><div><h3>Résultats</h3><div>La majorité des réponses, totalisant 97 % des questions concernant le strabisme et l’amblyopie, ont systématiquement répondu aux critères d’acceptabilité. Seuls 3 % des réponses ont été classées comme incomplètes, aucun cas de réponses inacceptables n’a été observé. Le niveau moyen de grade Flesch-Kincaid et le score de facilité de lecture de Flesch ont été calculés à 14,53±1,8 et 23,63±8,2, respectivement. En outre, les moyennes de tous les indices de lisibilité, y compris l’indice Coleman-Liau, l’indice Gunning Fog et l’indice SMOG, ont été trouvées à 15,75±1,4, 16,96±2,4 et 16,05±1,6, respectivement.</div></div><div><h3>Conclusions</h3><div>ChatGPT-4 a systématiquement produit des réponses acceptables pour la majorité des questions posées (97 %). Néanmoins, la lisibilité de ces réponses s’est avérée difficile pour une personne moyenne, nécessitant un niveau d’éducation universitaire pour une compréhension adéquate. Des améliorations supplémentaires, notamment en termes de lisibilité, sont nécessaires pour renforcer la capacité de conseil de ce logiciel d’intelligence artificielle dans la fourniture de conseils relatifs à la santé oculaire et générale pour les patients, les médecins et le grand public.</div></div>","PeriodicalId":14777,"journal":{"name":"Journal Francais D Ophtalmologie","volume":"48 3","pages":"Article 104400"},"PeriodicalIF":1.2000,"publicationDate":"2024-12-20","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Journal Francais D Ophtalmologie","FirstCategoryId":"3","ListUrlMain":"https://www.sciencedirect.com/science/article/pii/S0181551224003450","RegionNum":4,"RegionCategory":"医学","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q3","JCRName":"OPHTHALMOLOGY","Score":null,"Total":0}

引用次数: 0

Abstract

Purpose

To evaluate the compatibility and readability of ChatGPT-4 in providing responses to common inquiries about strabismus and amblyopia.

Materials and methods

A series of commonly asked questions were compiled, covering topics such as the definition, prevalence, diagnostic approaches, surgical and non-surgical treatment alternatives, postoperative guidelines, surgery-related risks, and visual prognosis associated with strabismus and amblyopia. Each question was asked three times on the online ChatGPT-4 platform both in English and French, with data collection conducted on February 18, 2024. The responses generated by ChatGPT-4 were evaluated by two independent pediatric ophthalmologists, who classified them as “acceptable,” “unacceptable,” or “incomplete.” Additionally, an online readability assessment tool called “readable” was utilized for readability analysis.

Results

The majority of responses, totaling 97% of the questions regarding strabismus and amblyopia, consistently met the criteria for acceptability. Only 3% of responses were classified as incomplete, with no instances of unacceptable responses observed. The average Flesch-Kincaid Grade Level and Flesch Reading Ease Score were calculated as 14.53 ± 1.8 and 23.63 ± 8.2, respectively. Furthermore, the means for all readability indices, including the Coleman-Liau index, the Gunning Fog index, and the SMOG index, were found to be 15.75 ± 1.4, 16.96 ± 2.4, and 16.05 ± 1.6, respectively.

Conclusions

ChatGPT-4 consistently produced acceptable responses to the majority of the questions asked (97%). Nevertheless, the readability of these responses proved challenging for the average layperson, requiring a college-level education for comprehension. Further improvements, particularly in terms of readability, are necessary to enhance the advisory capacity of this AI software in providing eye and health-related guidance for patients, physicians, and the general public.

Objectif

Évaluer la compatibilité et la lisibilité de ChatGPT-4 pour fournir des réponses aux demandes sur le strabisme et l’amblyopie.

Matériels et méthodes

Une série de questions fréquemment posées ont été compilées, couvrant des sujets tels que la définition, la prévalence, les approches diagnostiques, les alternatives de traitement chirurgical et non chirurgical, les directives postopératoires, les risques liés à la chirurgie et le pronostic visuel associés au strabisme et à l’amblyopie. Chaque question a été posée trois fois sur la plateforme en ligne ChatGPT-4 en anglais et en français, avec une collecte de données effectuée le 18 février 2024. Les réponses générées par ChatGPT-4 ont été évaluées par deux ophtalmologistes pédiatriques indépendants, qui les ont classées comme « acceptables », « inacceptables », ou « incomplètes ». De plus, un outil d’évaluation de la lisibilité en ligne appelé « Readable » a été utilisé pour l’analyse de la lisibilité.

Résultats

La majorité des réponses, totalisant 97 % des questions concernant le strabisme et l’amblyopie, ont systématiquement répondu aux critères d’acceptabilité. Seuls 3 % des réponses ont été classées comme incomplètes, aucun cas de réponses inacceptables n’a été observé. Le niveau moyen de grade Flesch-Kincaid et le score de facilité de lecture de Flesch ont été calculés à 14,53 ± 1,8 et 23,63 ± 8,2, respectivement. En outre, les moyennes de tous les indices de lisibilité, y compris l’indice Coleman-Liau, l’indice Gunning Fog et l’indice SMOG, ont été trouvées à 15,75 ± 1,4, 16,96 ± 2,4 et 16,05 ± 1,6, respectivement.

Conclusions

ChatGPT-4 a systématiquement produit des réponses acceptables pour la majorité des questions posées (97 %). Néanmoins, la lisibilité de ces réponses s’est avérée difficile pour une personne moyenne, nécessitant un niveau d’éducation universitaire pour une compréhension adéquate. Des améliorations supplémentaires, notamment en termes de lisibilité, sont nécessaires pour renforcer la capacité de conseil de ce logiciel d’intelligence artificielle dans la fourniture de conseils relatifs à la santé oculaire et générale pour les patients, les médecins et le grand public.

查看原文

微信好友朋友圈 QQ好友复制链接

本刊更多论文

基于ChatGPT-4的斜视和弱视常见问题回答的可接受性和可读性。

目的：评价ChatGPT-4在回答斜视和弱视常见问题中的兼容性和可读性。材料和方法：收集了斜视和弱视的定义、患病率、诊断方法、手术和非手术治疗方案、术后指南、手术相关风险、视力预后等常见问题。每个问题都在ChatGPT-4在线平台上用英语和法语问了三次，数据收集于2024年2月18日进行。ChatGPT-4产生的反应由两名独立的儿科眼科医生进行评估，他们将其分为“可接受”、“不可接受”或“不完整”。此外，还使用了一种名为“readable”的在线可读性评估工具进行可读性分析。结果：97%的斜视和弱视问题均符合可接受性标准。只有3%的回复被归类为不完整，没有观察到不可接受的回复。Flesch- kincaid Grade Level和Flesch Reading Ease Score的平均值分别为14.53±1.8和23.63±8.2。此外，包括Coleman-Liau指数、Gunning Fog指数和SMOG指数在内的所有可读性指数的平均值分别为15.75±1.4、16.96±2.4和16.05±1.6。结论：ChatGPT-4始终如一地对大多数问题（97%）产生可接受的回答。然而，这些回答的可读性对于一般的外行来说是具有挑战性的，需要大学水平的教育才能理解。进一步的改进，特别是在可读性方面，是必要的，以提高这一人工智能软件的咨询能力，为患者、医生和公众提供眼科和健康相关的指导。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文去求助

来源期刊

Journal Francais D Ophtalmologie 医学-眼科学

CiteScore

1.10

自引率

8.30%

发文量

317

审稿时长

49 days

期刊介绍： The Journal français d''ophtalmologie, official publication of the French Society of Ophthalmology, serves the French Speaking Community by publishing excellent research articles, communications of the French Society of Ophthalmology, in-depth reviews, position papers, letters received by the editor and a rich image bank in each issue. The scientific quality is guaranteed through unbiased peer-review, and the journal is member of the Committee of Publication Ethics (COPE). The editors strongly discourage editorial misconduct and in particular if duplicative text from published sources is identified without proper citation, the submission will not be considered for peer review and returned to the authors or immediately rejected.