娜塔莎·雅克是美国华盛顿大学的一位助理教授。在麻省理工学院攻读博士期间,她设计了一种语言模型微调方法,这一技术后来被OpenAI应用于基于人类反馈的强化学习(RLHF)的产品开发中。此外,她还在谷歌DeepMind和Google Brain实习,并担任过OpenAI学者导师。
娜塔莎·雅克目前在美国华盛顿大学任教,同时也在谷歌DeepMind从事高级研究工作。她的博士后研究是在加州大学伯克利分校谢尔盖·列文教授的指导下完成的。谢尔盖·列文教授的研究成果广受认可,他的论文被引用次数超过16万次,h指数达到175。
近期,娜塔莎的研究团队有一篇论文入选神经信息处理系统大会(NeurIPS),并且排名在大会前2%。这篇论文介绍了一种名为“变分偏好学习”的新方法,能够对大型语言模型的内容进行微调,使其更贴合用户的个人喜好。这项技术不仅适用于大型语言模型,还能用于机器人等其他设备。
“变分偏好学习”技术通过与用户交互来预测偏好,进而调整模型输出。比如,在家庭场景中,如果有两位用户对机器人摆放餐具位置有不同的偏好,该技术可以根据每个人的偏好实现个性化设置。实验显示,这种方法在预测用户二元偏好方面的准确性提升了10%到25%。
虽然这项技术表现优异,但仍有一些难题待解。由于缺少大规模真实偏好的数据集,研究人员不得不自己构建数据集。娜塔莎表示,未来会利用“变分偏好学习”技术从更多用户群体中获取更真实的偏好信息,从而进一步优化模型的表现和适用范围。
娜塔莎提到,现有基于人类反馈的强化学习(RLHF)技术在应对不同人群间的偏好差异时存在局限性。例如,低收入家庭的学生可能难以从大模型中获得有关教育资助的信息,因为当前技术难以识别这类细微的偏好差别。她认为,未来的模型应该更好地理解并适应不同用户的价值观和需求,以便提供更加贴心的服务。
娜塔莎·雅克及其团队的工作不仅促进了人工智能技术的进步,还为解决模型偏见问题提供了全新视角。“变分偏好学习”技术不仅能提升模型的个性化水平,还能改善其安全性和稳定性。展望未来,这项技术将在更多领域展现潜力。