您当前的位置 > 澳门信息网 > 科技 > Ultipa Graph,我国图数据库技术实现“实时”突破

Ultipa Graph,我国图数据库技术实现“实时”突破

2022-04-14

我国自主研发的高并发、分布式、实时图数据库系统Ultipa Graph,取得颠覆性技术创新——计算响应速度成功达到“实时”水平,运行速度是以甲骨文Oracle为代表的关系型数据库的10000倍。

20毫秒有多快?一秒钟的五十分之一,就是我们完成一次眨眼的时间。

来看一组简单的对比:在一个拥有100万量级的用户关系数据集中,用 Python NetworkX完成鲁汶社区识别需要 10个小时;用公有云AWS或华为云图计算系统需要 3个小时,而Ultipa Graph系统可以做到在20毫秒内完成。这种性能差异的主要原因在于底层计算引擎在技术上实现了高密度并发原生图计算的能力。

区别于传统的数据库、数据仓库等长期以来偏重存储能力的技术偏向,Ultipa Graph的研发团队从一开始就将实现计算能力与存储能力放在同等重要的基础研发方向上。

经过三年的钻研,截至目前,这支由清华校友组建并创研的Ultipa图数据库系统已实现了核心代码完全自研,性能全面超越TigerGraph、Neo4j、JanusGraph、ArangoDB等国际主流图数据库产品。

截止今年3月,在业界多次通用、公开数据集性能对标测试中,Ultipa产品能力在数据加载、K邻查询、路径查询、图算法、实时更新、易用性、二次开发等多个指标的能力测试中得到了充分验证。记者在其官方评测报告中看到如下结论:“在K邻查询上,Ultipa比Tigergraph、Neo4j、JanusGraph和ArangoDB快至少10倍以上,事实上,超过6跳的超深度查询,只有Ultipa可以返回结果;在图算法上的测试对比中,很多系统根本无法完成算法执行,只有Ultipa完成计算。”

Ultipa全栈工程师、图技术与应用专家张建松表示,Neo4j、ArangoDB等“在一些复杂查询情况无法完全返回结果”的原因在于技术上没有实现高效并发计算,当它们处理小的数据集时,不会暴露问题,而一旦处理诸如像Twitter数据集中涉及到4200万的顶点与 14.7亿条边的较大数据集时,系统会因为计算和存储资源不够而宕机。

此外,完成K邻查询也是个挑战,它用来测试各家系统面向海量数据时的遍历能力、下钻能力和全量计算所需的时耗。“K邻查询通常会探测不同的遍历深度条件下的时耗。通常1度邻居数据库专有名词各家的图数据库都可以做到秒级,快一些的图数据库会在毫秒级,但是从2度邻居查询开始,因为计算复杂度的指数级增加,极少有系统可以做到毫秒级,而6度邻居能做到秒级的系统已属于凤毛麟角,因为6跳查询基本上是对全量数据,大约是15亿量级的一次全部遍历计算。”张建松说。

据了解,测试数据集的大小之所以一般会选择在千万到数十亿的量级,是为了模拟接近真实的商业场景。而在商业化应用场景中,实时图计算带来的算力上的颠覆彻底解决了Ultipa图数据库用户罗佳嘉的痛点。

作为国内某零售银行技术部门的总管,两年来,他时感压力重重,“数据一入仓湖便沉底了,基于关系型数据建模的的数仓、大数据系统运转非常吃力,效率十分低下,时耗很大。”

原来,受疫情影响,线上业务的办理人群已由过去的青年人覆盖到中老年人群,同时,银行也开启了多条围绕线上的各类金融产品,面对剧增的数据处理需求,尤其是面对千万甚至百亿量级上的图数据集规模处理问题,数据库系统计算性能上的优劣让其有直观切身感受。

“目前,以甲骨文为代表的传统数据库系统虽然仍在很多场景中使用,但在处理海量、动态变化的数据需求方面,明显呈现出时效差、算的慢、计量粗糙等问题,且在易用性、灵活性和成本上短板日显。”

所谓春江水暖鸭先知,作为对掌握着国民经济基础的金融行业来说,尤其是面对每天产生的海量数据,实时计算能力已成为银行错位竞争的分水岭。“金融机构过去成熟的批处理数据架构早已难以应对,需要构建新一代的实时数据架构体系以便实现数字化转型中的换挡加速”罗佳嘉对记者说。

我国高性能计算与存储系统专家孙宇熙表示,很多数据仓库或 Hadoop等大数据阵营存在着明显的问题,它们或许可以存储无限的数据,但是却存在很大的性能瓶颈,这让越来越多的查询与分析操作变成了批处理和 T+1才能完成。“这或许可以解释为什么近年来越来越多的商业落地场景中,基于内存计算、图计算的解决方案和其它一些新型的基础架构正在开始取代现有的数仓、大数据系统,究其根本就是因为这些系统仅仅把存储引擎作为一等公民,而把算力作为附属于存储的二等公民,自然会出现数据一入仓湖便沉底的低效问题。”

此外,数据的时效性对银行的精细化运营越来越重要,如何能以高效、实时的方式挖掘出有价值的信息,对企业快速做出决策有着重大意义。如今,在该行的实时大数据分析应用上,图计算图中台系统已发挥威力,其在运算效率以及易用性上,更让身为运营管理的业务人员体验感十足:他们能随时查询各类指标,实时计算,随时调取所需的数据进行多维度下钻、溯源、归因分析,让跨部门业务人员真正做到全行一张图,统一口径,从最小颗粒度的明细数据进行分析,彻底的规避了之前多部门、多系统之间的口径不统一、规则不统一、视角不统一等诸多痛点……此外,该系统还被应用在在线实时反欺诈、反洗钱、流动性风险管理、智慧经营等各个业务层面…

孙宇熙介绍,数据库是计算机基础软件不可或缺的重要组成部分,它被创造出来的目的就是为了解决人类日常所面对的数据存储、数据转换、数据分析、汇总、报表等一系列工作需求,包括金融、交通、制造业甚至国防也都是依靠数据要素的行业领域。在过去的40年间,凭借着架构与算力提升带来的变革,数据技术也先后经历了从关系型数据库到大数据、快数据,再到深数据图数据的历史演变。以银行业中的指标计算与归因分析举例,涉及了大量明细数据、分行-支行、客户经理、客群、条线、行业、指标子项、客户账户信息等多个维度的综合计算,如果用传统的关系型数据库来计算,因为“笛卡尔积”多表关联类的复杂查询而导致的计算复杂度将是个天文数字,而用图技术来建模和实现,是加和而非乘积的关系——两者之间在技术处理的内核上即存在着本质区别。

与此同时,在近10年间,图技术框架又历经了四代革新,第一代是以非原生图的JanusGraph为代表,第二代是以Neo4j为代表的最早的原生图数据库,Tigergraph是第三代原生并行图,发展到如今以高密度并发原生图技术为代表的第四代图数据库——Ultipa Graph,也是目前全球唯一的第四代图数据库。

据了解,区别于其他基于开源、部分自主可控的国内图数据库产品,Ultipa Graph的核心代码完全自研自主,被业内称为世界上最快的实时图数据库技术——成功打破了过去40年由西方主导的在数据库领域的技术霸权。段静娜

推荐看点

  • 海南杰思特吕物证声像鉴识高新技术科研中心入围《信用中国》栏目
  • 为进一步推进商业信用体系建设,促进企业诚实守信经营,面向企业普及诚信与品牌建设的意义,指导企业加强诚信品牌建设,提升其整体竞争力,《信用中国》栏目组以诚信为内涵,在全国范围内遴选出有行业代表性的民营企业作为扶持对象,旨在通过大力宣传自主品牌,提高自主品牌影响力和认知度,在全国范围内打造中国榜样和品牌
  • 看见数智广东 | 推进信号升格 打造5G-A与低空经济产业高地
  • 2024年,是实现“十四五”规划目标任务的关键一年,包括5G、AI在内的信息通信技术是新质生产力的重要组成部分,是支撑数字经济蓬勃发展的重要“底座”,是激活数据要素潜能、驱动经济社会数字化转型、推动数字政府建设的新引擎。 广东是全国经济最发达、最富有活力、对外开放程度最高的省份之一,2024年3月18日-20日,由
  • 万孚健康闪耀第二十一届CACLP展会,快速检测产品引领健康新风尚
  • 3月16-3月18日,第二十一届中国国际检验医学暨输血仪器试剂博览会(CACLP)与第四届中国国际IVD上游原材料暨制造流通供应链博览会(CISCE)在重庆国际博览中心圆满举行。万孚携新品重磅亮相并对胶体金平台新推出的产品开展了路演,产品受到与会者的广泛关注与好评。与此同时,万孚健康在展会中展示了其面向家庭用户的
  • 2024“衢州有礼”诗画风光带金花季盛大开幕
  • 2024“衢州有礼”诗画风光带金花季盛大开幕 为加快打造四省边际全域旅游桥头堡,进一步激发乡村旅游发展活力,3月20日上午,2024“衢州有礼”诗画风光带金花发布会在龙游县小南海镇举行。活动由衢州市文化广电旅游局、市农业农村局、龙游县人民政府主办,龙游县文化和广电旅游体育局、龙游县农业农村局承办。 (发
  • 清明小长假火车票将开售 官方发布购票日历
  • 中新网3月19日电 清明小长假火车票即将开售,中国国家铁路集团19日在其官方微博发布清明小长假购票日历。 中国国家铁路集团提醒:①起售提醒订阅,可根据车票起售时间,提前通过系统设置多个提醒,以便及时提交购票订单。②预填信息功能,在车票起售当日,预先填写乘车人、车次、席别等信息,在车票开始发售时,一键提交订单