南方财经全媒体记者 林典驰 深圳报道 与南方财经全媒体记者通话的一开始,贾西贝匆匆测完了核酸,正赶往香港入境事务处。因中转境内的手续需要,前几日在迪拜参加会议后的他成功抢在4点半关门之前续上了签注。
气质儒雅的贾西贝是深圳市华傲数据技术有限公司(下称“华傲数据”)的创始人,2011年,他从爱丁堡大学博士毕业,带着国际前沿的研究成果回国,创办了华傲数据。
“在求学过程中,我便预见了数据作为生产要素的巨大潜力。”贾西贝对南方财经全媒体记者说,数据不应止步于论文研究,它的价值还应在实践中进一步发挥。
但理想与现实总有距离。起步初期,国内普遍对数据治理重视程度不足,且尚未有成熟的数据公司。包括贾西贝在内公司专家便时常到各地向地方政府讲解数字中国建设,身体力行培育市场。
“当你手上有一把锤子,看什么都像钉子。”援引查理·芒格后,贾西贝称,科研创业很容易落入“锤子找钉子”的陷阱:锤找钉易出现伪需求,手持强大锤子往往易杀鸡用牛刀。
政务数据治理服务是贾西贝眼里的“真需求”。目前,中国国内信息数据资源逾80%为各级政府部门掌握,如果不能合理利用,让这些数据“深藏闺中”则是一种浪费。
基于“锤找钉”的底层逻辑,为赋能数字中国建设,华傲数据推出聚焦于中枢层和应用层的“两算三景”模式。其中,“两算”意指数据中枢和算法中枢,“三景”则为数字政府、数字社会及数字经济。
贾西贝以“七剑下天山”借喻数据中枢的七大平台,以“四剑闯天下”来比喻算法中枢的AI中台、区块链中台、决策中台、业务中台4类算法。组合起来的“华傲十一剑”就是公司的核心产品。
最初,华傲数据着眼于数据质量最低下与最复杂的政府场景。而随着业务的精进,华傲数据现已具备跨界处理交通、能源、公共事业等大型企业的复杂数字场景数据治理能力。
截至目前,华傲数据已服务全国26个省、250+项目的数智化转型,已经是参与一线城市、新一线城市数据建设最多的企业之一。“行业的共识是,数据治理是数字化赛道最具粘性的行业。”贾西贝同时强调,整个社会在分分秒秒、日复一日地与数据打交道,这由此提高了保障数据安全的要求。
贾西贝表示,保障数据安全涉及技术、工具和管理措施等诸多方面。而隐私计算作为保障数据安全的新兴技术,其部分技术尚未经过实际检验,成熟度仍待观察。
以下为采访实录:
终极目标全自动化数据治理
南方财经:华傲数据深耕政府数据治理十一年,业务不断向外延伸,公司核心竞争力体现在哪些方面?
贾西贝:华傲数据覆盖数据的需求分析、服务过程再到评价标准化的数据运营体系,保证在批量的数据工程交付过程中数据质量的稳定和可预期,同时尽可能降低人员对于技能和经验的依赖,降低交付成本,创造成本优势。
面对不同业务需求的目标模型,我们沉淀标准,以及从标准转化数据的清洗规则和脚本算法。这些数据模型构成华傲数据的护城墙。
我最近出差去阿联酋,在迪拜见了华为中东地区的领导。大家达成共识,整个数字化赛道里,数据治理是最有粘性的行业,我们的客户日复一日都在使用数据。
华傲数据深耕数据治理十一年,获得了良好的客户粘性和口碑,技术和产品实战经验丰富。创立初期选择的政府场景是数据质量最低下和最复杂的场景,当触角延伸到交通、能源、公共事业等大型企业时,同样具备跨行业数据治理的业务拓展的能力,也是一个降维打击。
南方财经:面对日益庞杂的数据量,同时出于数据治理公司提升人效比的考量,数据产品实现自动化治理就显得尤为必要,华傲数据在数据服务平台自动化的建设现阶段进展如何?
贾西贝:数据治理的自动化是一级一级是爬梯子的过程。1960年代主要是LO作坊式的数据治理。例如在美国、欧洲等国家在人口统计的过程中,很多项目采取手写脚本的作坊式手工治理。
1990年代,国际上涌现一批数据治理厂商,主要推出的是L1级构件治理。数据治理有了自动化构建就不用手写项目,而是通过构件实现规则的预制与复用,不同构件通过可视化的拖拉拽实现数据治理的目的。
近5年来,数字中国建设从夯基垒台到积厚成势、从发展起步到不断壮大,属于数据治理工业化大生产的时代来临,数据治理进一步流水线化、精细分工。华傲数据流水线治理模式也成为国内主流模式,引领L2级工厂化数据治理。
目前华傲数据所在阶段为L3级,也称为半自动化数据治理,就是在工厂的流水线精细分工这基础上进一步自动化,它是一种数据低代码。一些构架可以低代码或无代码自动生成。
华傲数据预研的产品是L4级,也称为高度自动化数据治理, 引入了复杂的人工智能算法,通过算法实数识别滚滚而来的数据洪流,知道描述的实体属性。比如,数据是描述房屋,还是城市部件。除此之外,智能算法还能自动发现规则。L4里面部分核心算法已研发完成。
L5无人数据工厂全程自动化的数据治理, 在可预见的将来是达不到的。我们目前可预见的将来能看到的最自动化的形态可能就L4级。
保障数据安全需综合多方面因素
南方财经:在数据治理过程中,如何做到数据可用不可见、数据不动算法动,为应对数据安全所带来的一系列风险,华傲数据有哪些经验?
贾西贝:保障数据安全是综合诸多方面,包括技术、工具和管理措施。
华傲数据一直是国内数据立法的倡导者、呼吁者和参与者。早在五六年前,我在中国政法大学第一届中国大数据法治峰会上,就呼吁数据立法刻不容缓。2021年深圳市推出《深圳经济特区数据条例》,成为我国首部数据安全领域的地方立法,我作为深圳市人大代表也参与了其中的一点工作。
数据分级是数据治理的重要内容。目前,《网络数据安全管理条例(征求意见稿)》中把数据分为三级,包括核心数据、重要数据以及一般数据,针对不同级别数据所需要采取的安全措施,条例中都有详细规定。这当中涉及的技术诸如数据遮罩、数据脱敏、数据水印、数据去隐私化、乃至隐私计算,华傲均有相关的算法支持。
除此之外,数据安全还取决于过往记录和实践经验,华傲数据服务深圳市各级政府至今已超10年,安全记录从未出现问题,赢得政府和业界的口碑。
南方财经:隐私计算作为保障数据安全的新兴技术,市场讨论反响热烈,当前隐私计算还存在哪些需要完善的地方?
贾西贝:不管哪一种技术流派,都各有千秋,但目前隐私计算的成熟度还有待观察,更重要的是部分技术还尚未经过实际检验。
隐私计算有多门技术流派,国内比较流行的是联邦计算。例如,广义的联邦计算包括:以密码学为核心的多方计算,以及硬件可执行环境(TEE)。
每种技术流派能够解决某一方面的问题,华傲会根据具体场景针对性选择。从实践经验来看,我们评判实用度比较高的是同态加密,即可以在不接触原数据的情况下进行数据处理。数据处理方并不知道数据的明文,却最终计算得到期望的结果,即数据提供方未泄露其原始数据,有效保护数据隐私。
不过,隐私计算缺乏长期实践检验和检测手段。如何检验经过处理后的数据可用不可见,行业还尚未有定论。
南方财经:安全是数据分级分类的重要考量因素,华傲数据分级分类标准是考虑到了哪些因素?
贾西贝:华傲的数据分级分类标准里,L5是安全等级最高的数据,属于国家核心数据。《数据安全法》中规定,关系国家安全、国民经济命脉、重要民生、重大公共利益等数据属于国家核心数据。L4是个体敏感数据,L3是个体的非敏感数据,在《个人信息保护法》中均有明确规定。在L3级以上的数据都需要征得当事人的授权。
L2级是个体的匿名化信息或非涉密统计信息。《个人信息保护法》中规定处理个人信息应当取得个人同意,但是附则中提到经过处理无法识别特定自然人的除外。这个就是数据脱敏,为隐私计算留出空间。上述讲的诸多隐私计算的流派,归根结底是要满足该条款。
L1级即为公开信息。除了安全五分级,华傲数据有一套对数据与算法进行保护和监管的GAD(The Governance of Algorithm and Data)理论体系平衡数据安全和开发利用。
数据跨境“水往高处流”
南方财经:如何看待数据跨境联通的必要性,当中存在哪些难点亟待突破?
贾西贝:数字经济时代,商品贸易往往伴随着实体货物与跨境数据。比如个性化用药出口,当中往往伴随着基因数据跨境,又如自动驾驶汽车出口,当中存储的数据同样会随着汽车驶出国门。类似场景日益普遍,那在数据跨境流动过程中,首先是不同法律体系的问题。
欧盟的GDPR(《通用数据保护条例》)中规定,欧盟公民的个人信息只能流向和欧盟对个人信息保护相当,或者比欧盟对个人信息保护更好的国家和地区,也就是“水往高处流”。也就是说不同国家对数据保护力度,会影响数据跨境流通。
数据跨境联通过程中,也会涉及国家数据安全和个人信息保护,这都是数据跨境条例需要考虑的问题。数据跨境为下一代全球贸易,也就是数据贸易打下基础。近期中国加入DEPA(数字经济伙伴协定)工作组正式成立,全面推进中国加入DEPA的谈判,DEPA就是数据跨境转移自由化很好的舞台。
南方财经:近期各地数据交易所如雨后春笋般蓬勃发展,数据交易所有没有可能承担数据跨境平台的角色?
贾西贝:我个人不建议数据跨境由数据交易所承担,因为数据跨境往往与国家主权密切相关。不同国家之间的货物贸易以往均由海关审批。
广州等地提出探索建立“数据海关”,我觉得是比较合适的。由数据交易所承担数据跨境的角色,目前不具备法律效力,也难以承担保护数据安全的守门员角色。
(21世纪经济报道记者胡天姣对本文亦有贡献)
(作者:林典驰 编辑:孙超逸)
21世纪经济报道及其客户端所刊载内容的知识产权均属广东二十一世纪环球经济报社所有。未经书面授权,任何人不得以任何方式使用。详情或获取授权信息请点击此处。