中国传统术数领域新突破！Tianfu Agent逼近人类高手胜率-AI前沿-数据世界

在专业术数领域，主流大模型如Claude、GPT等遭遇了前所未有的挑战。面对几乎没有信息泄漏的术数大赛选择题库，这些模型的准确率普遍徘徊在23%至40%之间，甚至低于四选一选择题的随机猜测线25%。然而，一个名为Tianfu Agent的系统却脱颖而出，将准确率提升至50%，逼近人类顶尖选手的平均水平。

这一突破性的成果源于DestinyLinker研究团队基于术数大赛官方题库构建的评测集基准Mingli-Bench。该团队对通用大模型进行了“让步”设计，在Prompt中提供预计算的盘面数据，以避免计算幻觉干扰，直接考察模型的推理能力。然而，即便如此，主流模型的表现仍不尽如人意。技术报告和测试结果在社交平台上引发了广泛关注，相关开源仓库也吸引了大量开发者。

为了突破这一瓶颈，研究团队开发了Tianfu Agent系统，构建了一套针对中国传统术数领域的工程化解决方案。该系统整合了200多个原子工具、三大流派规则函数库，并通过多Sub-Agent协作机制和置信度量化体系，实现了推理链路的动态优化。最终，Tianfu Agent在评测中取得了50%的截尾准确率，显著优于通用模型，并接近人类顶尖选手的53.5%。

在工程实现上，Tianfu Agent面临的首要挑战是工具管理。通用Agent通常仅需十几个工具，而术数领域需要200多个工具的协同运作。研究团队通过四级可见性控制机制解决了这一问题：根据工具的“LLM可理解性”和“可穷举性”，将工具分为自动注入型、按需调用型、转译调用型和触发注入型。不同推理阶段和Sub-Agent看到的工具集动态调整，避免了选项过载导致的选择退化。

术数领域的规则繁杂且矛盾，进一步增加了推理难度。研究团队将每条规则封装为带元数据的可调用函数，人类专家预先标注适用场景、时间跨度和优先级。函数内部可调用LLM，输入盘面状态后返回结论和置信度。这一设计将LLM从“记规则的考生”转变为“调规则的工程师”，使推理路径可控且可追溯。

缺乏“单元测试”是专业领域推理的普遍难题。Tianfu Agent通过三层不确定性量化弥补了这一缺陷：工具输出层由算法提供置信度评估；Sub-Agent层由LLM自评推理结论的显著性；多流派合参层通过人工经验加权调和矛盾结论。尽管无法完全替代自动验证，但这一方案为上层决策提供了量化参考，减少了结论堆砌的风险。

Tianfu Agent的设计哲学在于将工具、规则和子推理流程统一为可调用的工程构件。这一思路对垂直领域Agent开发具有借鉴意义：在规则密集但语料稀缺的领域，工具化范式能直接弥补模型的知识盲区；当工具数量膨胀时，动态管理机制可避免选择退化。研究团队认为，这一框架不仅适用于术数领域，也可推广至医疗、法律等需要专业推理的场景。

浦东张江AI小镇迎新“助手”：人形机器人助力人机协同城管执法试点

随后，执法人员与灵犀X2共同前往现场，由灵犀X2向商户进行普法宣传，并提供智能问答服务，完成人机协同执法的实际应用验证。“后续将优先考虑在重点商圈、产业园区、沿街商户集中路段等城市治理高频场景中不断拓展应用。…

2026-05-25

国产存储“双雄”齐聚A股在望，1600亿估值长江存储IPO进程加速

2026-05-25