Prompt engineering with ChatGPT3.5 and GPT4 to improve patient education on retinal diseases

Hoyoung Jung , Jean Oh , Kirk A.J. Stephenson , Aaron W. Joe , Zaid N. Mammo
{"title":"Prompt engineering with ChatGPT3.5 and GPT4 to improve patient education on retinal diseases","authors":"Hoyoung Jung ,&nbsp;Jean Oh ,&nbsp;Kirk A.J. Stephenson ,&nbsp;Aaron W. Joe ,&nbsp;Zaid N. Mammo","doi":"10.1016/j.jcjo.2024.08.010","DOIUrl":null,"url":null,"abstract":"<div><h3>Objective</h3><div>To assess the effect of prompt engineering on the accuracy, comprehensiveness, readability, and empathy of large language model (LLM)-generated responses to patient questions regarding retinal disease.</div></div><div><h3>Design</h3><div>Prospective qualitative study.</div></div><div><h3>Participants</h3><div>Retina specialists, ChatGPT3.5, and GPT4.</div></div><div><h3>Methods</h3><div>Twenty common patient questions regarding 5 retinal conditions were inputted to ChatGPT3.5 and GPT4 as a stand-alone question or preceded by an optimized prompt (prompt A) or preceded by prompt A with specified limits to length and grade reading level (prompt B). Accuracy and comprehensiveness were graded by 3 retina specialists on a Likert scale from 1 to 5 (1: very poor to 5: very good). Readability of responses was assessed using Readable.com, an online readability tool.</div></div><div><h3>Results</h3><div>There were no significant differences between ChatGPT3.5 and GPT4 across any of the metrics tested. Median accuracy of responses to a stand-alone question, prompt A, and prompt B questions were 5.0, 5.0, and 4.0, respectively. Median comprehensiveness of responses to a stand-alone question, prompt A, and prompt B questions were 5.0, 5.0, and 4.0, respectively. The use of prompt B was associated with a lower accuracy and comprehensiveness than responses to stand-alone question or prompt A questions (<em>p</em> &lt; 0.001). Average-grade reading level of responses across both LLMs were 13.45, 11.5, and 10.3 for a stand-alone question, prompt A, and prompt B questions, respectively (<em>p</em> &lt; 0.001).</div></div><div><h3>Conclusions</h3><div>Prompt engineering can significantly improve readability of LLM-generated responses, although at the cost of reducing accuracy and comprehensiveness. Further study is needed to understand the utility and bioethical implications of LLMs as a patient educational resource.</div></div><div><h3>Objectif</h3><div>Évaluer l’effet de la rédactique sur l’exactitude, l’exhaustivité, la lisibilité et l’empathie des réponses aux questions posées par des patients sur les rétinopathies qui ont été générées par un grand modèle de langage (GML).</div></div><div><h3>Nature</h3><div>Étude prospective qualitative.</div></div><div><h3>Participants</h3><div>Rétinologues et 2 robots conversationnels (ChatGPT3.5 et GPT4).</div></div><div><h3>Méthodes</h3><div>On a demandé à ChatGPT3.5 et GPT4 de répondre à 20 questions couramment posées par les patients sur 5 rétinopathies. Les questions ont été posées de 3 façons différentes : seules, précédées d’un message-guide optimisé (message-guide A) ou encore précédées du message-guide A s’accompagnant d’une limite de longueur et d’un niveau de lecture prédéterminés (message-guide B). L’exactitude et l’exhaustivité ont été mesurées par 3 rétinologues au moyen d’une échelle de Likert en 5 points (de 1 : très médiocre à 5 : très bon). La lisibilité des réponses a été vérifiée grâce au site Web readable.com.</div></div><div><h3>Résultats</h3><div>On ne note aucune différence significative entre ChatGPT3.5 et GPT4, et ce, pour tous les paramètres examinés. L’exactitude médiane des réponses aux questions posées seules, aux questions comportant le message-guide A et aux questions comportant le message-guide B était de 5,0, de 5,0 et de 4,0, respectivement. L’exhaustivité médiane des réponses aux questions posées seules, aux questions comportant le message-guide A et aux questions comportant le message-guide B était de 5,0, de 5,0 et de 4,0, respectivement. Le message-guide B était associé à une exactitude et à une exhaustivité moindres comparativement aux questions posées seules ou aux questions comportant le message-guide A (<em>p</em> &lt; 0,001). Le niveau de lecture moyen des réponses générées par les 2 GML était de 13,45, de 11,5 et de 10,3 dans le cas des questions posées seules, des questions comportant le message-guide A et des questions comportant le message-guide B, respectivement (<em>p</em> &lt; 0,001).</div></div><div><h3>Conclusions</h3><div>La rédactique peut accroître significativement la lisibilité des réponses générées par un GML, bien que l’exactitude et l’exhaustivité risquent d’en pâtir. On devra réaliser d’autres études pour comprendre l’utilité et les répercussions bioéthiques du recours aux GML à titre de ressource pédagogique à l’intention des patients.</div></div>","PeriodicalId":9606,"journal":{"name":"Canadian journal of ophthalmology. Journal canadien d'ophtalmologie","volume":"60 3","pages":"Pages e375-e381"},"PeriodicalIF":2.8000,"publicationDate":"2024-09-05","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Canadian journal of ophthalmology. Journal canadien d'ophtalmologie","FirstCategoryId":"3","ListUrlMain":"https://www.sciencedirect.com/science/article/pii/S0008418224002588","RegionNum":4,"RegionCategory":"医学","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q1","JCRName":"OPHTHALMOLOGY","Score":null,"Total":0}
引用次数: 0

Abstract

Objective

To assess the effect of prompt engineering on the accuracy, comprehensiveness, readability, and empathy of large language model (LLM)-generated responses to patient questions regarding retinal disease.

Design

Prospective qualitative study.

Participants

Retina specialists, ChatGPT3.5, and GPT4.

Methods

Twenty common patient questions regarding 5 retinal conditions were inputted to ChatGPT3.5 and GPT4 as a stand-alone question or preceded by an optimized prompt (prompt A) or preceded by prompt A with specified limits to length and grade reading level (prompt B). Accuracy and comprehensiveness were graded by 3 retina specialists on a Likert scale from 1 to 5 (1: very poor to 5: very good). Readability of responses was assessed using Readable.com, an online readability tool.

Results

There were no significant differences between ChatGPT3.5 and GPT4 across any of the metrics tested. Median accuracy of responses to a stand-alone question, prompt A, and prompt B questions were 5.0, 5.0, and 4.0, respectively. Median comprehensiveness of responses to a stand-alone question, prompt A, and prompt B questions were 5.0, 5.0, and 4.0, respectively. The use of prompt B was associated with a lower accuracy and comprehensiveness than responses to stand-alone question or prompt A questions (p < 0.001). Average-grade reading level of responses across both LLMs were 13.45, 11.5, and 10.3 for a stand-alone question, prompt A, and prompt B questions, respectively (p < 0.001).

Conclusions

Prompt engineering can significantly improve readability of LLM-generated responses, although at the cost of reducing accuracy and comprehensiveness. Further study is needed to understand the utility and bioethical implications of LLMs as a patient educational resource.

Objectif

Évaluer l’effet de la rédactique sur l’exactitude, l’exhaustivité, la lisibilité et l’empathie des réponses aux questions posées par des patients sur les rétinopathies qui ont été générées par un grand modèle de langage (GML).

Nature

Étude prospective qualitative.

Participants

Rétinologues et 2 robots conversationnels (ChatGPT3.5 et GPT4).

Méthodes

On a demandé à ChatGPT3.5 et GPT4 de répondre à 20 questions couramment posées par les patients sur 5 rétinopathies. Les questions ont été posées de 3 façons différentes : seules, précédées d’un message-guide optimisé (message-guide A) ou encore précédées du message-guide A s’accompagnant d’une limite de longueur et d’un niveau de lecture prédéterminés (message-guide B). L’exactitude et l’exhaustivité ont été mesurées par 3 rétinologues au moyen d’une échelle de Likert en 5 points (de 1 : très médiocre à 5 : très bon). La lisibilité des réponses a été vérifiée grâce au site Web readable.com.

Résultats

On ne note aucune différence significative entre ChatGPT3.5 et GPT4, et ce, pour tous les paramètres examinés. L’exactitude médiane des réponses aux questions posées seules, aux questions comportant le message-guide A et aux questions comportant le message-guide B était de 5,0, de 5,0 et de 4,0, respectivement. L’exhaustivité médiane des réponses aux questions posées seules, aux questions comportant le message-guide A et aux questions comportant le message-guide B était de 5,0, de 5,0 et de 4,0, respectivement. Le message-guide B était associé à une exactitude et à une exhaustivité moindres comparativement aux questions posées seules ou aux questions comportant le message-guide A (p < 0,001). Le niveau de lecture moyen des réponses générées par les 2 GML était de 13,45, de 11,5 et de 10,3 dans le cas des questions posées seules, des questions comportant le message-guide A et des questions comportant le message-guide B, respectivement (p < 0,001).

Conclusions

La rédactique peut accroître significativement la lisibilité des réponses générées par un GML, bien que l’exactitude et l’exhaustivité risquent d’en pâtir. On devra réaliser d’autres études pour comprendre l’utilité et les répercussions bioéthiques du recours aux GML à titre de ressource pédagogique à l’intention des patients.
查看原文
分享 分享
微信好友 朋友圈 QQ好友 复制链接
本刊更多论文
使用 ChatGPT3.5 和 GPT4 即时工程,改善视网膜疾病的患者教育。
目的评估提示工程对大语言模型(LLM)生成的患者视网膜疾病问题回复的准确性、全面性、可读性和共鸣性的影响:设计:前瞻性定性研究:视网膜专家、ChatGPT3.5 和 GPT4:向 ChatGPT3.5 和 GPT4 输入有关 5 种视网膜疾病的 20 个常见患者问题,这些问题可以是单独的问题,也可以在问题之前加上优化提示(提示 A),或者在提示 A 之前加上规定的长度限制和年级阅读水平(提示 B)。准确性和全面性由 3 位视网膜专家以 1-5 分的李克特量表进行评分(1 分:非常差,5 分:非常好)。回答的可读性使用在线可读性工具 Readable.com 进行评估:结果:ChatGPT3.5 和 GPT4 在所有测试指标上都没有明显差异。对独立问题、提示 A 和提示 B 问题的回答的准确性中位数分别为 5.0、5.0 和 4.0。对独立问题、提示 A 和提示 B 问题回答的全面性中位数分别为 5.0、5.0 和 4.0。与回答独立问题或提示语 A 问题相比,使用提示语 B 的准确性和全面性较低(p < 0.001)。对于独立问题、提示语 A 和提示语 B 问题,两个 LLM 答案的平均阅读水平分别为 13.45、11.5 和 10.3(p < 0.001):提示工程可以大大提高 LLM 生成的回答的可读性,但代价是降低了准确性和全面性。要了解 LLM 作为患者教育资源的实用性和生物伦理意义,还需要进一步研究。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 去求助
来源期刊
CiteScore
3.20
自引率
4.80%
发文量
223
审稿时长
38 days
期刊介绍: Official journal of the Canadian Ophthalmological Society. The Canadian Journal of Ophthalmology (CJO) is the official journal of the Canadian Ophthalmological Society and is committed to timely publication of original, peer-reviewed ophthalmology and vision science articles.
期刊最新文献
Combined Descemet stripping automated endothelial keratoplasty and intraocular lens exchange using intrascleral haptic fixation (Yamane technique)-Clinical outcomes and literature review. The face inversion effect and its influence on intraoperative evaluation during ptosis surgery: results of a survey of Canadian oculoplastic surgeons. Ergonomic impact of electronic medical records on Canadian eye care providers: results from the Canadian ophthalmic practitioners ergonomics survey. Noninfectious interface keratitis as a sign of severe deep anterior lamellar keratoplasty stromal rejection. Perioperative anti-VEGF therapy for proliferative diabetic retinopathy: a network meta-analysis of RCTs.
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
现在去查看 取消
×
提示
确定
0
微信
客服QQ
Book学术公众号 扫码关注我们
反馈
×
意见反馈
请填写您的意见或建议
请填写您的手机或邮箱
已复制链接
已复制链接
快去分享给好友吧!
我知道了
×
扫码分享
扫码分享
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:604180095
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1