Performance of ChatGPT in French language analysis of multimodal retinal cases

IF 1.2 4区 医学 Q3 OPHTHALMOLOGY Journal Francais D Ophtalmologie Pub Date : 2024-12-20 DOI:10.1016/j.jfo.2024.104391
D. Mikhail , A. Mihalache , R.S. Huang , T. Khairy , M.M. Popovic , D. Milad , R. Shor , A. Pereira , J. Kwok , P. Yan , D.T. Wong , P.J. Kertes , R. Duval , R.H. Muni
{"title":"Performance of ChatGPT in French language analysis of multimodal retinal cases","authors":"D. Mikhail ,&nbsp;A. Mihalache ,&nbsp;R.S. Huang ,&nbsp;T. Khairy ,&nbsp;M.M. Popovic ,&nbsp;D. Milad ,&nbsp;R. Shor ,&nbsp;A. Pereira ,&nbsp;J. Kwok ,&nbsp;P. Yan ,&nbsp;D.T. Wong ,&nbsp;P.J. Kertes ,&nbsp;R. Duval ,&nbsp;R.H. Muni","doi":"10.1016/j.jfo.2024.104391","DOIUrl":null,"url":null,"abstract":"<div><h3>Purpose</h3><div>Prior literature has suggested a reduced performance of large language models (LLMs) in non-English analyses, including Arabic and French. However, there are no current studies testing the multimodal performance of ChatGPT in French ophthalmology cases, and comparing this to the results observed in the English literature. We compared the performance of ChatGPT-4 in French and English on open-ended prompts using multimodal input data from retinal cases.</div></div><div><h3>Methods</h3><div>GPT-4 was prompted in English and French using a public dataset containing 67 retinal cases from the ophthalmology education website OCTCases.com. The clinical case and accompanying ophthalmic images comprised the prompt, along with the open-ended question: “What is the most likely diagnosis?” Systematic prompting was used to identify and compare relevant factor(s) contributing to correct and incorrect responses. Diagnostic accuracy was the primary outcome, defined as the proportion of correctly diagnosed cases in French and English. Diagnoses were compared with the answer key on OCTCases to confirm correct or incorrect responses. Clinically relevant factors reported by the LLM as contributory to its decision-making were secondary endpoints.</div></div><div><h3>Results</h3><div>The diagnostic accuracies of GPT-4 in English and French were 35.8% and 28.4%, respectively (χ<sup>2</sup>, <em>P</em> <!-->=<!--> <!-->0.36). Imaging findings were reported as most influential for correct diagnosis in English (37.5%) and French (42.1%) (<em>P</em> <!-->=<!--> <!-->0.76). In incorrectly diagnosed cases, imaging findings were primarily implicated in English (35.6%) and French (33.3%) (<em>P</em> <!-->=<!--> <!-->0.81). In incorrectly diagnosed cases, the differential diagnosis list contained the correct diagnosis in 39.5% of English cases and 41.7% of French cases (<em>P</em> <!-->=<!--> <!-->0.83).</div></div><div><h3>Conclusion</h3><div>Our results suggest that GPT-4 performed similarly in English and French on all quantitative performance metrics measured. Ophthalmic images were identified in both languages as critical for correct diagnosis. Future research should assess LLM comprehension through the clarity, grammatical, cultural, and idiomatic accuracy of its responses.</div></div><div><h3>Objectif</h3><div>Comparer la performance de GPT-4 en français et en anglais sur des cas multimodaux en rétine.</div></div><div><h3>Méthode</h3><div>GPT-4 a été posée des questions en français et en anglais à l’aide d’un ensemble de données publiques contenant 67 cas rétiniens provenant du site web OCTCases.com. Les cas cliniques et les images ophtalmiques qui l’accompagnent constituaient les entrées, ainsi que la question ouverte : « Quel est le diagnostic le plus probable ? » Des demandes précises nous ont permis d’identifier et de comparer les facteurs pertinents contribuant aux réponses correctes et incorrectes. La performance au diagnostic était le résultat principal. Les facteurs cliniques pertinents signalés par GPT-4 comme ayant contribué à sa prise de décision constituaient les critères d’évaluation secondaires.</div></div><div><h3>Résultats</h3><div>La précision diagnostique du GPT-4 en anglais et en français était de 35,8 % et de 28,4 %, respectivement (χ<sup>2</sup>, <em>p</em> <!-->=<!--> <!-->0,36). L’imagerie a été rapportée comme étant le facteur le plus important pour un diagnostic correct en anglais (37,5 %) et en français (42,1 %) (<em>p</em> <!-->=<!--> <!-->0,76). Dans les cas incorrectement diagnostiqués, l’imagerie a encore été le facteur le plus important en anglais (35,6 %) et en français (33,3 %) (<em>p</em> <!-->=<!--> <!-->0,81). Toujours dans ces mêmes cas, le diagnostic différentiel contenait le bon diagnostic dans 39,5 % des cas en anglais et 41,7 % des cas en français (<em>p</em> <!-->=<!--> <!-->0,83).</div></div><div><h3>Conclusion</h3><div>GPT-4 semble performer de façon similaire en anglais et en français dans le domaine d’analyse de cas multimodaux en rétine. Les images ophtalmiques ont été identifiées dans les deux langues comme essentielles pour un diagnostic précis. Les recherches futures pourraient tenter d’évaluer la capacité d’analyse du modèle à travers la précision grammaticale, culturelle et idiomatique de ses réponses.</div></div>","PeriodicalId":14777,"journal":{"name":"Journal Francais D Ophtalmologie","volume":"48 3","pages":"Article 104391"},"PeriodicalIF":1.2000,"publicationDate":"2024-12-20","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Journal Francais D Ophtalmologie","FirstCategoryId":"3","ListUrlMain":"https://www.sciencedirect.com/science/article/pii/S018155122400336X","RegionNum":4,"RegionCategory":"医学","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q3","JCRName":"OPHTHALMOLOGY","Score":null,"Total":0}
引用次数: 0

Abstract

Purpose

Prior literature has suggested a reduced performance of large language models (LLMs) in non-English analyses, including Arabic and French. However, there are no current studies testing the multimodal performance of ChatGPT in French ophthalmology cases, and comparing this to the results observed in the English literature. We compared the performance of ChatGPT-4 in French and English on open-ended prompts using multimodal input data from retinal cases.

Methods

GPT-4 was prompted in English and French using a public dataset containing 67 retinal cases from the ophthalmology education website OCTCases.com. The clinical case and accompanying ophthalmic images comprised the prompt, along with the open-ended question: “What is the most likely diagnosis?” Systematic prompting was used to identify and compare relevant factor(s) contributing to correct and incorrect responses. Diagnostic accuracy was the primary outcome, defined as the proportion of correctly diagnosed cases in French and English. Diagnoses were compared with the answer key on OCTCases to confirm correct or incorrect responses. Clinically relevant factors reported by the LLM as contributory to its decision-making were secondary endpoints.

Results

The diagnostic accuracies of GPT-4 in English and French were 35.8% and 28.4%, respectively (χ2, P = 0.36). Imaging findings were reported as most influential for correct diagnosis in English (37.5%) and French (42.1%) (P = 0.76). In incorrectly diagnosed cases, imaging findings were primarily implicated in English (35.6%) and French (33.3%) (P = 0.81). In incorrectly diagnosed cases, the differential diagnosis list contained the correct diagnosis in 39.5% of English cases and 41.7% of French cases (P = 0.83).

Conclusion

Our results suggest that GPT-4 performed similarly in English and French on all quantitative performance metrics measured. Ophthalmic images were identified in both languages as critical for correct diagnosis. Future research should assess LLM comprehension through the clarity, grammatical, cultural, and idiomatic accuracy of its responses.

Objectif

Comparer la performance de GPT-4 en français et en anglais sur des cas multimodaux en rétine.

Méthode

GPT-4 a été posée des questions en français et en anglais à l’aide d’un ensemble de données publiques contenant 67 cas rétiniens provenant du site web OCTCases.com. Les cas cliniques et les images ophtalmiques qui l’accompagnent constituaient les entrées, ainsi que la question ouverte : « Quel est le diagnostic le plus probable ? » Des demandes précises nous ont permis d’identifier et de comparer les facteurs pertinents contribuant aux réponses correctes et incorrectes. La performance au diagnostic était le résultat principal. Les facteurs cliniques pertinents signalés par GPT-4 comme ayant contribué à sa prise de décision constituaient les critères d’évaluation secondaires.

Résultats

La précision diagnostique du GPT-4 en anglais et en français était de 35,8 % et de 28,4 %, respectivement (χ2, p = 0,36). L’imagerie a été rapportée comme étant le facteur le plus important pour un diagnostic correct en anglais (37,5 %) et en français (42,1 %) (p = 0,76). Dans les cas incorrectement diagnostiqués, l’imagerie a encore été le facteur le plus important en anglais (35,6 %) et en français (33,3 %) (p = 0,81). Toujours dans ces mêmes cas, le diagnostic différentiel contenait le bon diagnostic dans 39,5 % des cas en anglais et 41,7 % des cas en français (p = 0,83).

Conclusion

GPT-4 semble performer de façon similaire en anglais et en français dans le domaine d’analyse de cas multimodaux en rétine. Les images ophtalmiques ont été identifiées dans les deux langues comme essentielles pour un diagnostic précis. Les recherches futures pourraient tenter d’évaluer la capacité d’analyse du modèle à travers la précision grammaticale, culturelle et idiomatique de ses réponses.
查看原文
分享 分享
微信好友 朋友圈 QQ好友 复制链接
本刊更多论文
ChatGPT在法语多模态视网膜病例分析中的表现。
目的:先前的文献表明,在非英语分析中,包括阿拉伯语和法语,大型语言模型(llm)的性能降低。然而,目前还没有研究测试ChatGPT在法国眼科病例中的多模态性能,并将其与英语文献中观察到的结果进行比较。我们使用来自视网膜病例的多模态输入数据,比较了法语和英语ChatGPT-4在开放式提示中的表现。方法:使用来自眼科教育网站OCTCases.com的包含67例视网膜病例的公共数据集,以英语和法语提示GPT-4。临床病例和随附的眼科图像包括提示,以及开放式问题:“最有可能的诊断是什么?”系统提示用于识别和比较导致正确和错误反应的相关因素。诊断准确性是主要结果,定义为法语和英语中正确诊断病例的比例。将诊断结果与octcase的答案键进行比较,以确定正确或错误的回答。LLM报告的有助于其决策的临床相关因素是次要终点。结果:GPT-4在英语和法语中的诊断准确率分别为35.8%和28.4% (χ2, P=0.36)。影像学结果对英语(37.5%)和法语(42.1%)的正确诊断最有影响(P=0.76)。在错误诊断的病例中,影像学表现主要涉及英语(35.6%)和法语(33.3%)(P=0.81)。在误诊病例中,鉴别诊断表中正确诊断的英国病例为39.5%,法国病例为41.7% (P=0.83)。结论:我们的结果表明GPT-4在英语和法语的所有定量表现指标上表现相似。两种语言的眼科图像对正确诊断至关重要。未来的研究应该通过其回答的清晰度、语法、文化和习语准确性来评估法学硕士的理解。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 去求助
来源期刊
CiteScore
1.10
自引率
8.30%
发文量
317
审稿时长
49 days
期刊介绍: The Journal français d''ophtalmologie, official publication of the French Society of Ophthalmology, serves the French Speaking Community by publishing excellent research articles, communications of the French Society of Ophthalmology, in-depth reviews, position papers, letters received by the editor and a rich image bank in each issue. The scientific quality is guaranteed through unbiased peer-review, and the journal is member of the Committee of Publication Ethics (COPE). The editors strongly discourage editorial misconduct and in particular if duplicative text from published sources is identified without proper citation, the submission will not be considered for peer review and returned to the authors or immediately rejected.
期刊最新文献
[Deferoxamine maculopathy]. Conjunctival lymphangiectasia masquerading as subconjunctival worms. Improving pressurization of the eye during Descemet's membrane endothelial keratoplasty in patients with glaucoma drainage devices. Posterior ischemic optic neuropathy (PION) after complicated cataract surgery as the first clinical manifestation of carotid artery stenosis. [Bilateral diffuse uveal melanocytic proliferation (BDUMP) and ultra-widefield multimodal imaging].
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
现在去查看 取消
×
提示
确定
0
微信
客服QQ
Book学术公众号 扫码关注我们
反馈
×
意见反馈
请填写您的意见或建议
请填写您的手机或邮箱
已复制链接
已复制链接
快去分享给好友吧!
我知道了
×
扫码分享
扫码分享
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1