安鹏国际融资租赁人工客服电话并严格控制电话号码的发布和使用范围,客服热线也是公司与玩家直接沟通的桥梁,客户能够在需要帮助时第一时间得到解答,安鹏国际融资租赁人工客服电话他们希望能够得到及时有效的支持和解决方案,安鹏国际融资租赁人工客服电话助力企业发展壮大,更加强了客户对企业的信任和忠诚度。
腾讯天游倡导诚信经营,引发了玩家们的热议和关注,消费者可能会有各种原因需要退款,确保客户能够得到满意的解决方案,玩家能够即时获得解答,将有助于提升企业的竞争力和可持续发展能力。
不仅可以更好地服务未成年玩家和家长,有助于维护消费者权益,同时也为玩家提供了更加便捷和高效的解决方案,腾讯天游信息科技借助腾讯庞大的社交平台生态,除了提供客服电话服务外,以更好地为玩家提供服务和支持。
在生命(ming)健康领域,人工(gong)智能(AI)模型正开始大展身手。AI可以协助医生看影像报告、分析病情,也(ye)可以帮助科研(yan)人员总结海量论文、预测疾病机制、加速药物研(yan)发。随着Deepseek这样性能强劲的开源大模型面世,生命(ming)健康行业迎来“风口”,从(cong)业者可以用更低的成本开发更好的商业产(chan)品(pin)。
大模型在生命(ming)健康领域如何应用?有(you)何机遇(yu)与挑战?2月21日,在上海全球开发者先锋(feng)大会的“开源语(yu)言大模型与AI for Science在生命(ming)健康领域的介绍与应用”工(gong)作坊中(zhong),多名AI专家和产(chan)品(pin)开发者就这些问题展开探讨。
“开源语(yu)言大模型与AI for Science在生命(ming)健康领域的介绍与应用”工(gong)作坊现场
大模型:从(cong)通用到专业
为什么“能聊天”的大模型也(ye)能够应用在生命(ming)科学研(yan)究、医学诊疗(liao)的各个环节(jie)?工(gong)作坊中(zhong),几位演讲者介绍了AI大模型的原理。它的核心在于(yu)模型通过学习大量真实数据,理解数据的概率分布,从(cong)而作出逼近(jin)现实的预测。
“如果要(yao)在‘我’和‘你’之间填空,应该(gai)怎么填?在武(wu)侠小说里可能‘打(da)’出现得比较多,而在爱情小说里可能‘爱’出现得多。语(yu)言大模型可以预测在不同语(yu)境(jing)中(zhong),填哪个字的可能性最高。”上海达威科技创始人朱代(dai)辉介绍道。
在目前大模型广泛采用的Transformer架构中(zhong),输入的文本会被转化成数学向量的形式,词与词的关联概率可以用向量距离来度量。模型比较这些向量,计算(suan)出它们之间的“注意力权重(zhong)”,从(cong)而确定哪些词对(dui)当前词更重(zhong)要(yao),这就是“自(zi)注意力”(Self-Attention)算(suan)法机制。
“这种机制允许模型在处理序列(lie)数据时,同时考虑所有(you)位置的信(xin)息,动态地决定哪些信(xin)息更重(zhong)要(yao)。”朱代(dai)辉说。为了让模型在不同的上下文中(zhong)捕(bu)捉不同的信(xin)息,Transformer模型会将注意力权重(zhong)维度分成多组同时计算(suan),每组关注序列(lie)中(zhong)的不同部分,最后的结果会被合并。这种“多头注意力”(Multi-Head Attention)机制能帮助模型从(cong)多个角度理解句子。
这些注意力权重(zhong)随后会被输入“前馈神经网络”(Feed-Forward Neural Network)中(zhong)进行计算(suan)。这种神经网络模型由多层对(dui)应数据特(te)征的节(jie)点(dian)构成,它能够帮助模型对(dui)数据进行“深(shen)度学习”,发现其(qi)中(zhong)更复(fu)杂的模式。
这些模块(kuai)层层堆叠,产(chan)生大量参数来描述数据。通过调整(zheng),这些模型不止能够学习语(yu)言,还能够学习图像、音频乃至DNA序列(lie)、蛋白质结构等不同模态的数据,将它们进行统一表示。当参数和数据量达到一定规模时,模型就仿佛“开窍”一般,涌现出分类、预测、生成的能力。
要(yao)达到这种效果需要(yao)耗费大量的数据和算(suan)力成本。专注于(yu)应用的开发者可以选择(ze)在这些已经具(ju)备一定认知能力的通用大模型基础上进行算(suan)法和数据的调整(zheng),开发适用于(yu)特(te)定任务的专业大模型。
联合利华数据AI总监、计算(suan)生物学博士杨荟介绍了Biobert、SCGPT、Evo等多款生命(ming)科学和医学领域的大模型,可以用于(yu)基因、蛋白质等多组学信(xin)息的整(zheng)合、药物靶点(dian)发现与分子设计、医学图像分析等场景。
能看文献,能做研(yan)究,也(ye)能诊断
杨荟提(ti)到,大模型已经成为辅助生命(ming)科学和医学研(yan)究的得力助手。
“一天我看到家里的塑(su)料袋被一些虫子分泌的物质所腐蚀,突然来了灵感,就通过Chatgpt的Deep research(深(shen)度研(yan)究)功能询问有(you)没有(you)昆虫分泌蛋白质降解塑(su)料的研(yan)究。AI最后帮我找到了西班牙的一项研(yan)究,其(qi)中(zhong)发现一种飞蛾幼虫能分泌两种能够降解塑(su)料的蛋白质。”他说。
随后,杨荟通过AI提(ti)供的资料找到了这两种蛋白质在数据库中(zhong)的信(xin)息。“其(qi)中(zhong)一种已经被解析,而且可以看到实际结果与蛋白质结构预测AI给出的结果很接近(jin)。”
一名开发者还介绍了一款在医学和生物领域相当流行的AI产(chan)品(pin)“txyz”。这款基于(yu)Chatgpt开发的平台能够帮助用户快(kuai)速查(cha)找和精读论文,或是根据论文形成准确的综(zong)合性回答(da),帮助科研(yan)人员快(kuai)速获(huo)取知识。
AI大模型快(kuai)速“理解”文献的能力还可以用于(yu)从(cong)海量论文中(zhong)提(ti)取关于(yu)生命(ming)和疾病规律的关键(jian)结论,比如药物作用的靶点(dian)、疾病机制等,然后再(zai)用这些信(xin)息和其(qi)它实验数据去(qu)建立能够预测生命(ming)和疾病活动的模型。这被一些人称为生命(ming)的“数字孪生”(digital twin)。
“近(jin)年来尽(jin)管(guan)科技进步了,数据也(ye)越来越多,药物研(yan)发的成功率却在走低,主要(yao)原因是对(dui)药理机制理解的缺乏。”焕一生物的副总裁蔡俊杰告诉澎湃科技。数字孪生能够通过模拟人体对(dui)药物的反应,从(cong)病理的角度对(dui)实验结果进行预测,让药物研(yan)发少走弯路。
开源大模型性能的提(ti)升(sheng)为数字孪生产(chan)品(pin)开发者带来了新的机遇(yu)。“公开数据库中(zhong)有(you)3700万篇医学文献,我们算(suan)了一下,如果调用Chatgpt的接口去(qu)提(ti)取收集里面的机制和参数等知识,要(yao)花费几千万乃至上亿美元。”蔡俊杰说,“现在有(you)了性能同样强劲的开源模型Deepseek,就能显著降低成本。”
在医学诊断方(fang)面,AI大模型也(ye)正在帮助医生提(ti)高效率,甚至取代(dai)一部分的工(gong)作。上海科莫(mo)生医疗(liao)科技有(you)限公司的张浩曦分享(xiang)了他们开发的染色(se)体核型分析AI平台。
在胚胎发育、细胞分裂(lie)时,DNA紧密压(ya)缩在一起(qi),成为我们能观(guan)测到的染色(se)体,它们的功能和形态正常很重(zhong)要(yao)。“50%的自(zi)然流产(chan)是由染色(se)体异常导(dao)致(zhi)的。而因为漏检(jian)等原因,在每150个新生儿(er)中(zhong),平均有(you)1个染色(se)体异常,这往往意味(wei)着畸形或者基因病,是一件很悲伤的事情。”张浩曦说。
染色(se)体核型分析是医生排除(chu)染色(se)体异常的主要(yao)手段。人有(you)23对(dui)染色(se)体,但在观(guan)测时往往不是成对(dui)出现的。在核型分析中(zhong),医生需要(yao)“看图配对(dui)”,再(zai)与正常的染色(se)体进行对(dui)比,看看有(you)没有(you)缺失、重(zhong)复(fu)等异常现象。
“这个过程周期长(chang),很枯燥,费眼睛,搞得医生也(ye)很疲劳。”张浩曦说。科莫(mo)生开发了一种核型分析大模型,帮助医生进行染色(se)体图像的自(zi)动识别、配对(dui)和分析。该(gai)产(chan)品(pin)已经拿到了四川(chuan)省的二类医疗(liao)器械(xie)证。
“原先28天才能拿的染色(se)体报告,现在在AI的辅助下1天就能出。”他说,这提(ti)高了核型检(jian)测的效率,降低了成本,放大了医院的诊疗(liao)能力。“做得快(kuai)了,那么除(chu)了孕检(jian)之外,比如那些可能接触辐射的高危人群(qun)有(you)需要(yao)的人也(ye)可以去(qu)做。”
挑战与风险
生命(ming)科学研(yan)究要(yao)求专业性和准确性,而医学诊断更是直接关系到患者的福(fu)祉。尽(jin)管(guan)AI大模型正在各个应用场景中(zhong)迅速落地,但其(qi)中(zhong)还是存在着不少风险与挑战,需要(yao)开发者和政策标准制定者共同面对(dui)和克服。
在西湖大学博士研(yan)究生燕阳(yang)眼里,AI辅助诊断还是有(you)很多风险的:“如果问一些大模型,孕妇(fu)能用什么药,它会提(ti)示四环素是可以使(shi)用的,但这个药肯定不能用。大模型不知道,是因为它没学到过。”
他介绍道,在大语(yu)言模型中(zhong),数据训练的本质是去(qu)尽(jin)可能地接近(jin)训练数据。如果数据完整(zheng)、准确、质量高,那么回答(da)的质量也(ye)就高。如果前面出现错误,就会导(dao)致(zhi)后续生成中(zhong)错误的累(lei)积,导(dao)致(zhi)答(da)案失真。
因此,追求更高质量的数据成为AI产(chan)品(pin)开发者共同关注的主题。燕阳(yang)认为,很多人对(dui)生命(ming)健康领域数据的认识存在误区(qu),导(dao)致(zhi)产(chan)品(pin)开发陷入瓶(ping)颈,乃至产(chan)生风险。
“有(you)人觉得有(you)海量数据就能训练好模型,数据越多模型性能越好,这是不对(dui)的。”他说。医院数据往往是非(fei)标准化的,比如医嘱、不同设备产(chan)生的检(jian)测结果等等,难以直接用来训练AI模型。有(you)些数据缺乏标注,这些可能会导(dao)致(zhi)模型学习到的概率分布偏离真实的医学推(tui)理逻辑。
“比如说,超过90%的胸片报告只标注异常结果,正常的话就没有(you)标注。那AI可能会学到‘如果没有(you)标注,则(ze)为正常’的逻辑,这显然是不对(dui)的,会导(dao)致(zhi)误检(jian)率上升(sheng)。”燕阳(yang)举例道。
由于(yu)缺乏更加完整(zheng)的医学数据,有(you)些医学AI研(yan)究可能会尝(chang)试数据“蒸馏”的方(fang)法,用ChatGPT等大模型生成数据,然后用这些数据来训练自(zi)己参数相对(dui)较少的模型。这样做的好处是能让小模型逼近(jin)大模型的能力,但坏处是大模型的输出本身可能存在问题。
“由于(yu)通用的大模型往往缺少医学知识,可能导(dao)致(zhi)对(dui)罕见(jian)病等疾病的忽略。小模型将这些倾向作为‘事实’进行学习,可能会变得‘过度自(zi)信(xin)’且容易犯错。”他说。
燕阳(yang)认为,这些问题可以通过让数据变得更加完整(zheng)和专业来解决,比如增(zeng)加专家标注和更多医学知识,让AI学会“是什么”和“为什么”。还可以通过展示推(tui)理轨迹(CoT)等算(suan)法来完善AI的推(tui)理过程,把自(zi)相矛盾(dun)或者错误的逻辑剔除(chu)出去(qu)。
国内首个AI安全研(yan)究员、美国生命(ming)未来研(yan)究所的朱小虎告诉澎湃科技,在风险评估中(zhong),大语(yu)言模型已经展现出了欺骗、避免自(zi)身毁灭、传播对(dui)人有(you)害的信(xin)息等问题。“基于(yu)专业知识的医学模型相对(dui)会好很多。但如果这些模型是以通用大模型为基座训练的话,底层的倾向也(ye)可能会传递到模型中(zhong)。”他说。
据悉,2025全球开发者先锋(feng)大会于(yu)2月21日至2月23日在上海举办,主题为“模塑(su)全球,无限可能”,旨在促进人工(gong)智能产(chan)业集群(qun)的培育,推(tui)动基础大模型与算(suan)力、语(yu)料、垂(chui)类应用场景等人工(gong)智能企业深(shen)度融合,打(da)造以开发者为中(zhong)心的开发者节(jie)。