Hoyoung Jung , Jean Oh , Kirk A.J. Stephenson , Aaron W. Joe , Zaid N. Mammo
{"title":"Prompt engineering with ChatGPT3.5 and GPT4 to improve patient education on retinal diseases","authors":"Hoyoung Jung , Jean Oh , Kirk A.J. Stephenson , Aaron W. Joe , Zaid N. Mammo","doi":"10.1016/j.jcjo.2024.08.010","DOIUrl":null,"url":null,"abstract":"<div><h3>Objective</h3><div>To assess the effect of prompt engineering on the accuracy, comprehensiveness, readability, and empathy of large language model (LLM)-generated responses to patient questions regarding retinal disease.</div></div><div><h3>Design</h3><div>Prospective qualitative study.</div></div><div><h3>Participants</h3><div>Retina specialists, ChatGPT3.5, and GPT4.</div></div><div><h3>Methods</h3><div>Twenty common patient questions regarding 5 retinal conditions were inputted to ChatGPT3.5 and GPT4 as a stand-alone question or preceded by an optimized prompt (prompt A) or preceded by prompt A with specified limits to length and grade reading level (prompt B). Accuracy and comprehensiveness were graded by 3 retina specialists on a Likert scale from 1 to 5 (1: very poor to 5: very good). Readability of responses was assessed using Readable.com, an online readability tool.</div></div><div><h3>Results</h3><div>There were no significant differences between ChatGPT3.5 and GPT4 across any of the metrics tested. Median accuracy of responses to a stand-alone question, prompt A, and prompt B questions were 5.0, 5.0, and 4.0, respectively. Median comprehensiveness of responses to a stand-alone question, prompt A, and prompt B questions were 5.0, 5.0, and 4.0, respectively. The use of prompt B was associated with a lower accuracy and comprehensiveness than responses to stand-alone question or prompt A questions (<em>p</em> < 0.001). Average-grade reading level of responses across both LLMs were 13.45, 11.5, and 10.3 for a stand-alone question, prompt A, and prompt B questions, respectively (<em>p</em> < 0.001).</div></div><div><h3>Conclusions</h3><div>Prompt engineering can significantly improve readability of LLM-generated responses, although at the cost of reducing accuracy and comprehensiveness. Further study is needed to understand the utility and bioethical implications of LLMs as a patient educational resource.</div></div><div><h3>Objectif</h3><div>Évaluer l’effet de la rédactique sur l’exactitude, l’exhaustivité, la lisibilité et l’empathie des réponses aux questions posées par des patients sur les rétinopathies qui ont été générées par un grand modèle de langage (GML).</div></div><div><h3>Nature</h3><div>Étude prospective qualitative.</div></div><div><h3>Participants</h3><div>Rétinologues et 2 robots conversationnels (ChatGPT3.5 et GPT4).</div></div><div><h3>Méthodes</h3><div>On a demandé à ChatGPT3.5 et GPT4 de répondre à 20 questions couramment posées par les patients sur 5 rétinopathies. Les questions ont été posées de 3 façons différentes : seules, précédées d’un message-guide optimisé (message-guide A) ou encore précédées du message-guide A s’accompagnant d’une limite de longueur et d’un niveau de lecture prédéterminés (message-guide B). L’exactitude et l’exhaustivité ont été mesurées par 3 rétinologues au moyen d’une échelle de Likert en 5 points (de 1 : très médiocre à 5 : très bon). La lisibilité des réponses a été vérifiée grâce au site Web readable.com.</div></div><div><h3>Résultats</h3><div>On ne note aucune différence significative entre ChatGPT3.5 et GPT4, et ce, pour tous les paramètres examinés. L’exactitude médiane des réponses aux questions posées seules, aux questions comportant le message-guide A et aux questions comportant le message-guide B était de 5,0, de 5,0 et de 4,0, respectivement. L’exhaustivité médiane des réponses aux questions posées seules, aux questions comportant le message-guide A et aux questions comportant le message-guide B était de 5,0, de 5,0 et de 4,0, respectivement. Le message-guide B était associé à une exactitude et à une exhaustivité moindres comparativement aux questions posées seules ou aux questions comportant le message-guide A (<em>p</em> < 0,001). Le niveau de lecture moyen des réponses générées par les 2 GML était de 13,45, de 11,5 et de 10,3 dans le cas des questions posées seules, des questions comportant le message-guide A et des questions comportant le message-guide B, respectivement (<em>p</em> < 0,001).</div></div><div><h3>Conclusions</h3><div>La rédactique peut accroître significativement la lisibilité des réponses générées par un GML, bien que l’exactitude et l’exhaustivité risquent d’en pâtir. On devra réaliser d’autres études pour comprendre l’utilité et les répercussions bioéthiques du recours aux GML à titre de ressource pédagogique à l’intention des patients.</div></div>","PeriodicalId":9606,"journal":{"name":"Canadian journal of ophthalmology. Journal canadien d'ophtalmologie","volume":"60 3","pages":"Pages e375-e381"},"PeriodicalIF":2.8000,"publicationDate":"2024-09-05","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Canadian journal of ophthalmology. Journal canadien d'ophtalmologie","FirstCategoryId":"3","ListUrlMain":"https://www.sciencedirect.com/science/article/pii/S0008418224002588","RegionNum":4,"RegionCategory":"医学","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q1","JCRName":"OPHTHALMOLOGY","Score":null,"Total":0}
引用次数: 0
Abstract
Objective
To assess the effect of prompt engineering on the accuracy, comprehensiveness, readability, and empathy of large language model (LLM)-generated responses to patient questions regarding retinal disease.
Design
Prospective qualitative study.
Participants
Retina specialists, ChatGPT3.5, and GPT4.
Methods
Twenty common patient questions regarding 5 retinal conditions were inputted to ChatGPT3.5 and GPT4 as a stand-alone question or preceded by an optimized prompt (prompt A) or preceded by prompt A with specified limits to length and grade reading level (prompt B). Accuracy and comprehensiveness were graded by 3 retina specialists on a Likert scale from 1 to 5 (1: very poor to 5: very good). Readability of responses was assessed using Readable.com, an online readability tool.
Results
There were no significant differences between ChatGPT3.5 and GPT4 across any of the metrics tested. Median accuracy of responses to a stand-alone question, prompt A, and prompt B questions were 5.0, 5.0, and 4.0, respectively. Median comprehensiveness of responses to a stand-alone question, prompt A, and prompt B questions were 5.0, 5.0, and 4.0, respectively. The use of prompt B was associated with a lower accuracy and comprehensiveness than responses to stand-alone question or prompt A questions (p < 0.001). Average-grade reading level of responses across both LLMs were 13.45, 11.5, and 10.3 for a stand-alone question, prompt A, and prompt B questions, respectively (p < 0.001).
Conclusions
Prompt engineering can significantly improve readability of LLM-generated responses, although at the cost of reducing accuracy and comprehensiveness. Further study is needed to understand the utility and bioethical implications of LLMs as a patient educational resource.
Objectif
Évaluer l’effet de la rédactique sur l’exactitude, l’exhaustivité, la lisibilité et l’empathie des réponses aux questions posées par des patients sur les rétinopathies qui ont été générées par un grand modèle de langage (GML).
Nature
Étude prospective qualitative.
Participants
Rétinologues et 2 robots conversationnels (ChatGPT3.5 et GPT4).
Méthodes
On a demandé à ChatGPT3.5 et GPT4 de répondre à 20 questions couramment posées par les patients sur 5 rétinopathies. Les questions ont été posées de 3 façons différentes : seules, précédées d’un message-guide optimisé (message-guide A) ou encore précédées du message-guide A s’accompagnant d’une limite de longueur et d’un niveau de lecture prédéterminés (message-guide B). L’exactitude et l’exhaustivité ont été mesurées par 3 rétinologues au moyen d’une échelle de Likert en 5 points (de 1 : très médiocre à 5 : très bon). La lisibilité des réponses a été vérifiée grâce au site Web readable.com.
Résultats
On ne note aucune différence significative entre ChatGPT3.5 et GPT4, et ce, pour tous les paramètres examinés. L’exactitude médiane des réponses aux questions posées seules, aux questions comportant le message-guide A et aux questions comportant le message-guide B était de 5,0, de 5,0 et de 4,0, respectivement. L’exhaustivité médiane des réponses aux questions posées seules, aux questions comportant le message-guide A et aux questions comportant le message-guide B était de 5,0, de 5,0 et de 4,0, respectivement. Le message-guide B était associé à une exactitude et à une exhaustivité moindres comparativement aux questions posées seules ou aux questions comportant le message-guide A (p < 0,001). Le niveau de lecture moyen des réponses générées par les 2 GML était de 13,45, de 11,5 et de 10,3 dans le cas des questions posées seules, des questions comportant le message-guide A et des questions comportant le message-guide B, respectivement (p < 0,001).
Conclusions
La rédactique peut accroître significativement la lisibilité des réponses générées par un GML, bien que l’exactitude et l’exhaustivité risquent d’en pâtir. On devra réaliser d’autres études pour comprendre l’utilité et les répercussions bioéthiques du recours aux GML à titre de ressource pédagogique à l’intention des patients.
期刊介绍:
Official journal of the Canadian Ophthalmological Society.
The Canadian Journal of Ophthalmology (CJO) is the official journal of the Canadian Ophthalmological Society and is committed to timely publication of original, peer-reviewed ophthalmology and vision science articles.