近日,一篇题为《Taste: Towards Practical Deep Learning-based Approaches for Semantic Type Detection in the Cloud》的论文在国际知名数据库会议EDBT上获得长文收录,该论文由天翼云数据库团队、中国电信云计算研究院与深圳北理莫斯科大学联合完成。EDBT作为数据库领域的顶级学术会议,已连续举办27届,其近五年平均录取率仅为20.8%。此次收录标志着天翼云的科技创新实力再次获得业界与学术界的双重认可。
该论文聚焦于数据管理系统中的语义类型检测问题,并在此领域实现了检测性能和安全性方面的突破。语义类型,如人名、地址、身份证号等,对于人类理解数据和辅助数据管理系统提供关键服务具有重要作用。然而,现有技术每次检测均需扫描数据列内容,导致I/O和网络开销大、检测效率低,且可能对云用户业务产生不利影响。
针对这些不足,论文创新性地提出了两阶段语义类型检测框架(Taste)。该框架首先利用数据源的元数据进行初步快速的语义类型检测,减少对数据源的扫描;第二阶段则按需进行,结合列内容与元数据完成更精确的检测。这一创新不仅提升了检测效率,还增强了系统的鲁棒性,同时提供了更高的数据隐私保护。
论文还设计了一种新颖的非对称双塔检测模型(ADTD),通过多任务学习支持Taste的两阶段检测。该模型分为metadata塔和Content塔,前者编码元数据特征,后者结合元数据信息编码列内容特征。在训练过程中,两个阶段的输出结合进行多任务学习,使模型一次训练即可应用于两阶段推理。
实验表明,Taste框架在执行效率、准确性、降低数据列扫描侵入性等方面表现优异,并展现出云端大规模部署的潜力。目前,Taste框架已在天翼云数据管理服务(DMS)中落地,助力客户进行高效、灵活的语义类型检测,实现更加快捷且智能化的敏感数据识别,显著提升云端数据管理的安全性和稳定性。
天翼云作为云服务国家队,始终坚持核心技术自主攻关,以科技创新引领产业发展。未来,天翼云将继续推进数据库等云计算技术攻关,筑牢国云智算底座,为企业充分释放数据价值提供有力支撑。