数据世界
产业资讯 宏观经济 企业动态 人物动态 科技数码 数据洞察 AI前沿 行业峰会 热点资讯

卡帕西“大模型议会”新玩法:四大AI匿名互评,谁是最强引热议

2025-11-25来源:快讯编辑:瑞雪

编程界又迎来一项创新成果——知名技术专家卡帕西推出了一款名为“大模型议会”(LLM Council)的Web应用。这款应用虽然外观与常见的聊天机器人界面相似,但背后却藏着独特的运行机制:当用户提出问题后,系统会借助OpenRouter同时唤醒多个大模型,让它们共同参与问题解答。

这款应用的流程设计颇具巧思,主要分为三个步骤。第一步是“群策群力”,系统会同时调用GPT-5.1、Gemini 3 Pro Preview、Claude Sonnet 4.5和Grok-4等多个大模型,让它们针对同一问题各自生成回答,并将这些回答以标签视图的形式呈现给用户,方便对比查看。第二步是“匿名互评”,所有模型的回答会被匿名处理后分发给彼此,每个模型需要根据回答的准确性和洞察力进行评分,并附上详细的评价理由,避免因模型身份产生偏见。第三步是“主席汇总”,系统会指定一个主席模型,将所有模型的回答和评分进行整合,最终生成一个综合答案反馈给用户。

在实际测试中,卡帕西发现了一些有趣的现象。例如,当多个模型共同评价彼此的回答时,GPT-5.1的答案被一致认为最具洞见,Claude的回答则被认为最弱,Gemini 3和Grok-4的表现处于中间水平。不过,卡帕西个人并不完全认同这一结果:他认为GPT-5.1的回答虽然内容丰富,但结构不够紧凑;Gemini 3的答案更简洁凝练,信息处理更到位;而Claude的回答虽然简略,但也有其独特之处。更令人意外的是,模型们在互评时很少表现出明显偏见,甚至会主动承认自己的答案不如其他模型。

这一项目在GitHub上公开后,迅速吸引了大量关注,目前已获得1.8k颗星。有网友认为,这种模型互评的模式或许能成为一种新的“自动基准测试”,为评估大模型性能提供全新思路;畅销书《Python机器学习》的作者也对该思路表示看好。卡帕西表示,虽然模型自评的结果可能与人类主观感受存在差异,但这种多模型协作的方式无疑为大模型的应用开辟了新的可能性,未来或许会成为LLM产品的重要发展方向。

2026年iQOO Z11 Turbo登场:中小屏配置均衡,但遇红米K90价格挑战
而就在今天我们又迎来了第二款Turbo新机,它就是iQOO Z11Turbo,先说我对它的评价,从手机本身来说无论是配置还是价格都很OK了,而且主打的中小屏特色也独树一帜,但问题在于它来得有些晚了 更别提…

2026-01-16

2026年中端机新选择:iQOO Z11 Turbo性能质感双在线,实用主义新胜利
有一说一,Z 系列本来是 iQOO 的中低端系列产品,比 Neo 系列还要再低一点,但蓝厂愣是给他后面加了个 Turbo并疯狂堆料,让它成为了 2000 元价位很能打的产品。 而 iQOO Z11 Tur…

2026-01-16

联发科发布天玑9500s与8500双芯,小米等厂商首批搭载,中高端市场添新动力
这两款新品继承了不少旗舰芯片的技术特性,在性能、能效、AI、影像、游戏和无线连接等方面有不错的表现。天玑9500s搭载Immortalis-G925 GPU,支持光线追踪技术,天玑OMM追光引擎能提升游戏…

2026-01-16

苹果上线Apple Creator Studio订阅服务 买断与订阅双模式并行满足多元需求
同时,苹果明确表示,Final Cut Pro、Logic Pro等相关软件的“独立买断版”与“Apple Creator Studio订阅版”可在Mac设备上同时安装、互不冲突,将通过不同图标进行清晰区分。…

2026-01-16

今日联发科重磅发布天玑8500与9500s芯片,红米Turbo 5 Max抢先搭载
天玑 8500 采用第二代全大核 CPU, 性能对比上代提升 7%。 IT之家注意到,在连接性方面,天玑 9500s 支持 5G 快省合一,搭载5G R17 调制解调器,支持四载波聚合,下行速率高达 7Gb…

2026-01-16

千问App6.0.5版本更新:接入阿里生态,AI助力一键点外卖订酒店等
以个人为例,除了ChatGPT、Gemini这类国际主流工具,豆包、DeepSeek、元宝这三个用的多些,阿里旗下的通义千问前段时间上线了千问App,偶尔也用下。今天注意到千问App这边更新后还支持一句话点外…

2026-01-16

一加Turbo 6深度评测:2K档游戏续航双强机如何重塑性价比新标杆?
一加Turbo6搭载了同档最大的9000mAh冰川电池,采用了全新的仿生球形硅碳负极材料,相比上一代产品,电量循环有效改善了30%,在模拟使用5年后电池健康度仍然超过了80%,让手机畅玩更加安心。 在实际…

2026-01-16