数据世界
产业资讯 宏观经济 企业动态 人物动态 科技数码 数据洞察 AI前沿 行业峰会 热点资讯

中国传统术数领域新突破!Tianfu Agent逼近人类高手胜率

2026-05-25来源:快讯编辑:瑞雪

在专业术数领域,主流大模型如Claude、GPT等遭遇了前所未有的挑战。面对几乎没有信息泄漏的术数大赛选择题库,这些模型的准确率普遍徘徊在23%至40%之间,甚至低于四选一选择题的随机猜测线25%。然而,一个名为Tianfu Agent的系统却脱颖而出,将准确率提升至50%,逼近人类顶尖选手的平均水平。

这一突破性的成果源于DestinyLinker研究团队基于术数大赛官方题库构建的评测集基准Mingli-Bench。该团队对通用大模型进行了“让步”设计,在Prompt中提供预计算的盘面数据,以避免计算幻觉干扰,直接考察模型的推理能力。然而,即便如此,主流模型的表现仍不尽如人意。技术报告和测试结果在社交平台上引发了广泛关注,相关开源仓库也吸引了大量开发者。

为了突破这一瓶颈,研究团队开发了Tianfu Agent系统,构建了一套针对中国传统术数领域的工程化解决方案。该系统整合了200多个原子工具、三大流派规则函数库,并通过多Sub-Agent协作机制和置信度量化体系,实现了推理链路的动态优化。最终,Tianfu Agent在评测中取得了50%的截尾准确率,显著优于通用模型,并接近人类顶尖选手的53.5%。

在工程实现上,Tianfu Agent面临的首要挑战是工具管理。通用Agent通常仅需十几个工具,而术数领域需要200多个工具的协同运作。研究团队通过四级可见性控制机制解决了这一问题:根据工具的“LLM可理解性”和“可穷举性”,将工具分为自动注入型、按需调用型、转译调用型和触发注入型。不同推理阶段和Sub-Agent看到的工具集动态调整,避免了选项过载导致的选择退化。

术数领域的规则繁杂且矛盾,进一步增加了推理难度。研究团队将每条规则封装为带元数据的可调用函数,人类专家预先标注适用场景、时间跨度和优先级。函数内部可调用LLM,输入盘面状态后返回结论和置信度。这一设计将LLM从“记规则的考生”转变为“调规则的工程师”,使推理路径可控且可追溯。

缺乏“单元测试”是专业领域推理的普遍难题。Tianfu Agent通过三层不确定性量化弥补了这一缺陷:工具输出层由算法提供置信度评估;Sub-Agent层由LLM自评推理结论的显著性;多流派合参层通过人工经验加权调和矛盾结论。尽管无法完全替代自动验证,但这一方案为上层决策提供了量化参考,减少了结论堆砌的风险。

Tianfu Agent的设计哲学在于将工具、规则和子推理流程统一为可调用的工程构件。这一思路对垂直领域Agent开发具有借鉴意义:在规则密集但语料稀缺的领域,工具化范式能直接弥补模型的知识盲区;当工具数量膨胀时,动态管理机制可避免选择退化。研究团队认为,这一框架不仅适用于术数领域,也可推广至医疗、法律等需要专业推理的场景。

浦东张江AI小镇迎新“助手”:人形机器人助力人机协同城管执法试点
随后,执法人员与灵犀X2共同前往现场,由灵犀X2向商户进行普法宣传,并提供智能问答服务,完成人机协同执法的实际应用验证。“后续将优先考虑在重点商圈、产业园区、沿街商户集中路段等城市治理高频场景中不断拓展应用。…

2026-05-25

古尔曼爆料:苹果watchOS 27将聚焦稳定性,AI功能与运行效能双升级
IT之家 5 月 24 日消息,今日,彭博社马克 · 古尔曼在最新一期 Power On 节目中提到,苹果 watchOS 27更新将主要关注稳定性、较小优化,而不是引入重大新功能。 古尔曼此前在爆料中指出…

2026-05-25

2026年换机潮来袭?五大理由告诉你为何现在换新机更明智
但2026年的手机市场真的不一样,迪子真的要劝大家提前进行新机的选择了,原因则是给大家分为了五点。如果安卓市场真的和iPhone一样,那么今年下半年大概率只会看到Pro系列机型,标准版机型只能明年见。 不…

2026-05-25