如果您询问医生是否使用冰块来治疗烧伤,他们很快就会建议您用冷水冲洗。甚至“Google 博士”也会告诉您,极度寒冷会使血管收缩,并使烧伤更加严重。
但是当您向 ChatGPT 询问同样的问题时会发生什么?聊天机器人会告诉您可以使用冰块 - 只要您裹上毛巾即可。
这个问题是澳大利亚研究人员用来测试聊天机器人提供医疗建议的能力的一百个常见健康问题之一.
他们发现,当被要求提供是或否答案时,该软件相当准确,但当提供更多信息时,它的可靠性就降低了——回答某些问题的准确率仅为 28%。
合著者 Bevan Koopman 博士是 CSIRO 首席研究科学家兼昆士兰大学副教授,多年来一直研究搜索引擎在医疗保健领域的应用。
他说,人们越来越多地使用以下工具:尽管在线寻求健康信息存在有据可查的陷阱,但仍通过 ChatGPT 寻求医疗建议。
“这些模型很快就出现了……但人们并不真正了解它们的表现如何以及如何最好地部署它们,”他说。 “最终,你需要可靠的医疗建议……而这些模型根本不适合做诊断等事情。”
该研究将 ChatGPT 的响应与针对一组问题的已知正确响应进行了比较测试 Google 等搜索引擎的准确性。
当被要求给出是或否答案时,它的回答正确率为 80%。但当在提示中提供支持证据时,准确率下降至 63%,而当允许“不确定”答案时,准确率下降至 28%。
颠倒提示将问题框定为否定也降低了答案的准确性 - 从 80% 降至 56%对于是/否选项,这一比例从 33% 降至仅 4%。
Koopman 表示,诸如 ChatGPT 之类的大型语言模型也同样好。作为他们接受培训的信息,并希望这项研究能为下一代“更加有效”的健康专用工具提供垫脚石。
国家人工智能路线图(去年发布的《医疗保健领域的人工智能》建议政府在医疗保健环境中使用未经测试和监管的生成式人工智能时“紧急传达谨慎的必要性”。
Enrico Coiera 教授,麦考瑞大学健康信息学中心主任,路线图的作者之一,表示一些医生正在使用大型语言模型来帮助他们记录患者笔记和写信,但到目前为止,这些已经避免了其他所有医疗技术都必须经历的监管和测试障碍。
加载“In Silicon他们说,山谷,�“快速行动,打破常规”。在医疗保健领域,这不是一个好的口头禅,因为你可能破坏的是人。”他说。
大型语言模型通过评估庞大的单词数据库以及它们彼此相邻出现的频率来构建句子。 Coiera 说,它们很健谈且易于使用,但“对医学一无所知”,因此应该得到另一种人工智能的支持,可以更好地回答与健康相关的问题。
Rob Hosking 博士全科医生兼澳大利亚皇家全科医生学院技术委员会主席表示,大型语言模型在医疗保健领域有一席之地,“如果它经过医疗质量数据的训练,并由知道如何理解数据的临床医生监督” ”。
“从我们的角度来看,这确实没有什么不同——人们从朋友、家人或互联网上获得信息,”他说。 “这有点像从使用笔和纸到使用文字处理器的转变——它是一种工具。我们不能把它当作福音。”
以总结当天最重要和最有趣的故事、分析和见解开始新的一天。订阅我们的早间通讯。
澳洲中文论坛热点
- 悉尼部份城铁将封闭一年,华人区受影响!只能乘巴士(组图)
- 据《逐日电讯报》报导,从明年年中开始,因为从Bankstown和Sydenham的城铁将因Metro South West革新名目而
- 联邦政客们具有多少房产?
- 据本月早些时分报导,绿党副首领、参议员Mehreen Faruqi已获准在Port Macquarie联系其房产并建造三栋投资联