数据世界
产业资讯 宏观经济 企业动态 人物动态 科技数码 数据洞察 AI前沿 行业峰会 热点资讯

苹果与剑桥大学合作创新AI评审系统,提升复杂任务评估质量

2025-07-24来源:ITBEAR编辑:瑞雪

近日,科技界迎来了一项新的合作成果,苹果公司与剑桥大学联手推出了一项创新的AI评估系统。这一系统旨在通过引入外部验证工具,提升AI评审员的能力,进而增强评估的整体质量。

在评估大型语言模型(LLM)的过程中,研究人员和开发者常常借助AI的力量,也就是所谓的“LLM作为评审员”。然而,这一方法也面临着不少挑战,特别是在处理长篇事实核查、高级编码以及复杂数学问题等任务时,评估的准确性往往会受到影响。

为了克服这些挑战,苹果与剑桥大学的研究人员共同发表了一篇新的研究论文,详细介绍了一种新的评估系统。该系统通过为AI评审员配备外部验证工具,旨在克服人类和AI在注释过程中的局限性,从而提高评估的准确性。

人类评审员在评估过程中可能会受到时间限制、疲劳以及个人写作风格等因素的影响,从而产生偏见。而AI在处理上述复杂任务时,也面临着不小的困难。为了解决这些问题,研究人员创建了一种具有自主性的评估代理。该代理能够评估响应,并根据需要选择使用外部工具,以确保评估的准确性。

评估过程主要包括三个步骤:首先是初始领域评估,其次是工具的使用,最后是最终决策。在工具使用环节,事实核查工具会利用网络搜索来验证响应中的事实准确性;代码执行工具则会借助OpenAI的代码解释器来运行并验证代码的正确性;而数学核查工具则是代码执行工具的一个专门版本,用于验证数学和算术运算的准确性。

如果评估代理判断没有合适的工具可以帮助判断,那么系统将默认使用基线LLM注释器,以避免在简单任务上进行不必要的处理,从而可能导致的性能下降。

SK海力士新DDR5芯片“X021”亮相:或适配Intel未来处理器,原生频率达7200MT/s
快科技10月22日消息,SK海力士的全新DDR5内存芯片近日在网络上出现,据称代号为“X021”,并带有新的零件编码“AKBD”。 根据unikoshardware的说法,芯片上的“X021”标记表明它是第二…

2025-10-22

魔方网表,以技术为本,坚定的长期主义者
全球数字化的汹涌浪潮推着各行各业不断向前,商业世界正在以前所未有的速度与频率经历巨变。对此,企业如何快速有效地在日益复杂的市场环境下,抓住自身的发展机遇,是各行各业的急需解答的难题,而数字化转型又成为其中的必修之课。然而,对很多企业来说,快速变化的业

2025-10-22

售价13000元!三星Galaxy XR头显发布 直面苹果Vision Pro高端之争
【CNMO科技消息】10月21日,三星正式发布了其首款混合现实头戴设备——GalaxyXR,官方售价定为1799.99美元(约合人民币13000元),直接瞄准了苹果Vision Pro的高端市场。借助头显的…

2025-10-22

性能与美学的双重盛宴:iQOO 15的自我修养与突破
前面我们详细聊过,它把一块自研电竞芯片Q3塞进机身,像给手机装上一块真正的“独显”,再辅以双轴马达、对称大师双扬和一位随时陪练的AI军师——这一次,性能旗舰的终点不再是冷冰冰的跑分,而是指尖、耳朵,甚至心脏都…

2025-10-21

国家广电总局首颁“便捷看电视”认证,认准标志选电视享便捷观影体验
IT之家 10 月 20日消息,国家广播电视总局今日宣布,国家广播电视总局广播电视规划院为首款符合认证标准的智能电视机颁发“便捷看电视”认证证书。这款率先通过认证的产品由康佳研发打造,即将正式上市销售。 作…

2025-10-21

2025上半年全球智能眼镜出货增64.2%,2029年或破4000万台中国增速居首
【环球网科技综合报道】10月21日消息,市场研究机构(IDC)发布报告显示,2025上半年,全球智能眼镜(AI眼镜)市场出货量达406.5万台,同比增长64.2%。 IDC预计,到2029年全球智能眼镜市场出…

2025-10-21

牌面拉满!比亚迪成为多国元首的选择
近年来,我国新能源汽车产业在科技创新驱动下实现跨越式发展,比亚迪作为行业领军企业,技术领先全球瞩目,凭借过硬的技术实力与产品品质,赢得多国元首青睐,成为“中国制造”向“中国智造”转型升级的典型代表,更成为传递中国科技实力的“移动新名片”与“无声外交官

2025-10-21

IDC报告:百度智能云智算服务市场份额第一,GenAI IaaS增速最快
10月21日,国际权威咨询机构IDC发布了《中国智算专业服务市场(2025上半年)跟踪》报告。其中,在智算解决方案实施服务市场中,百度智能云以19.9%的份额位居第一;在GenAI IaaS领域,百度智能云实现近5倍增长,增速位居市场首位。随着大模型及AI应用的爆发,云计算正在以C

2025-10-21

抖音电商持续治理虚假宣传保健功效,清退违规达人4.3万名,违规商家793家
10月20日,抖音电商安全与信任中心发布治理虚假宣传保健功效的进展,公告称多平台反复出现以“健康焦虑”为卖点的功效虚假宣传现象,已成为食品行业的顽疾。据了解,部分不良商家、达人将普通食品包装为“保健品”或“特医食品”,甚至将保健食品夸大为具有医疗功效,损

2025-10-21