TuGraph图数据库
最新学讯:近期OCP认证正在报名中,因考试人员较多请尽快报名获取最近考试时间,报名费用请联系在线老师,甲骨文官方认证,报名从速!
我要咨询什么是TuGraph
TuGraph图数据库由蚂蚁集团与清华大学联合研发,构建了一套包含图存储、图计算、图学习、图研发平台的完善的图技术体系,拥有业界领先规模的图集群,解决了图数据分析面临的大数据量、高吞吐率和低延迟等重大挑战,是蚂蚁集团金融风控能力的重要基础设施,显著提升了欺诈洗钱等金融风险的实时识别能力和审理分析效率,并面向金融、工业、政务服务等行业客户。
TuGraph特性
TuGraph是支持大数据量、低延迟查找和快速图分析功能的高效图数据库。TuGraph也是基于磁盘的数据库,支持存储多达数十TB的数据。TuGraph提供多种API,使用户能够轻松构建应用程序,并使其易于扩展和优化。
它具有如下功能特征:
属性图模型
实时增删查改
多重图(点间允许多重边)
多图(大图与多个子图)
完善的ACID事务处理,隔离级别为可串行化(serializable)
点边索引
混合事务和分析处理(HTAP),支持图查询、图分析、图学习
主流图查询语言(OpenCypher、ISO GQL等)
支持OLAP API,内置30多种图分析算法
基于C++/Python的存储过程,含事务内并行Traversal API
提供图可视化工具
在性能和可扩展性方面的支持:
千万点/秒的高吞吐率
TB级大容量
高可用性支持
高性能批量导入
在线/离线的备份恢复
TuGraph社区版
2022年9月,TuGraph单机版开源,提供了完备的图数据库基础功能和成熟的产品设计,支持TB级别的数据规模,为用户管理和分析复杂关联数据提供了高效、易用、可靠的平台。
TuGraph社区版于2022年9月开源,提供了完整的图数据库基础功能和成熟的产品设计(如ACID兼容的事务、编程API和配套工具等),适用于单实例部署。社区版支持TB级别的数据规模,为用户管理和分析复杂关联数据提供了高效、易用、可靠的平台,是学习TuGraph和实现小型项目的理想选择。
TuGraph企业版
企业版对商业化功能支持更加完善,包括分布式集群架构,覆盖探索、研发、服务、运维管理全生命周期的一站式图平台,在线、近线、离线的图计算引擎,支持流式、大数据类数据源,多地多中心的部署形态,以及专家支持服务等。企业版是商业化解决方案的理想选择。
核心功能
查询语言
TuGraph 提供 Cypher 图查询语言,遵循OpenCypher标准。
支持Procedure嵌入
可插拔优化框架 各类优化功能
可扩展安全性检查框架 对于cypher进行
存储过程
当用户需要表达的查询/更新逻辑较为复杂(例如 Cypher 无法描述,或是对性能要求较高)时,相比调用多个 REST 请求并在客户端完成整个 处理流程的方式,TuGraph 提供的存储过程(Procedure)是更简洁和高效的选择。
从 3.5 版本开始,TuGraph 重新设计了新的存储过程编程范式,支持定义标准的签名和结果,支持POG编程。
TuGraph 支持 POG (Procedres on Graph Query Languages) 编程和 POG 库,其中“Graph Query Languages”包含 Cypher 以及 制定中的 ISO GQL 等图查询语言。POG 库提供在查询语言中对用户定义的存储过程的访问,打破了查询语言和存储过程之间的界限,扩展了查询 语言的使用范围。
这个文档描述了 新的 Procedure 编程范式以及 POG。
数据导入导出
尽管TuGraph本身支持数据的插入,但批量导入能够大幅提升的效率。导入的功能可以分为空库导入(离线导入)和增量导入,前者指子图是空的时候进行导入,额外的假设能够大幅提升导入的性能,在 TuGraph 中,空库导入和增量导入的吞吐率差了10 倍。在数据导出中,需要考虑导出数据的一致性,即是基于一个快照数据导出的。
TuGraph 可以通过 命令行工具lgraph_export 来对已经存放在TuGraph的图数据进行数据导出,导出格式支持CSV和JSON。
备份恢复
TUGraph的备份在功能上可分为主动/定时、离线/在线、全量/增量备份,用尽量小的存储和计算代价来完成备份。恢复功能可以恢复到最新的状态,或者历史标注的时间点,需要保证数据库是一致的状态。
数据预热
TuGraph 是基于磁盘的图数据库,仅当访问数据时,数据才会加载到内存中。因此在服务器刚开启后的一段时间内,系统性能可能会由于频繁的 IO 操作而变差。此时我们可以通过事先进行数据预热来改善这一问题。
高可用
高可用是指通过通过集群配置,做到实时多副本数据热备,在部分副本不用时,集群仍然能正常提供服务,TuGraph采用 RAFT 协议的多机热备机制,能够将 RPO 降低到接近 0 的程度。TuGraph 选择在计算层进行数据同步,同步的对象是写操作,通过 RPC 接口快速同步。TuGraph 的高可用集群采用主从模式,只有主节点处理写请求,主从节点均能处理读请求。主节点的写请求处理需要同步到多于二分之一的总节点上,多数节点写成功,该写请求才算完成。
应用场景
金融领域
金融领域的实体主要涉及人、公司、账户、产品等,它们之间的关系包括交易关系、登录关系、股权关系、雇佣关系等。这些实体构成了一张金融图数据网络。应用图数据库,我们可以从金融图数据网络里发掘出大量有用信息,帮助我们做出更准确的金融决策。
工业领域
在生产和制造过程中会产生大量异构数据,如何有效的组织和管理这些数据是工业大数据中最重要的问题之一。这些数据包括设计文档、设备数据、仿真方案和结果、实验结果、经验文档等,关系错综复杂。传统的数据管理系统只能累积数据,而查找相关材料则往往力不从心。使用图模型,将这些不同类型的数据组织成一张网络,就可以方便地浏览和查找数据。
智慧城市
随着科技的发展,城市的智能化管理已成为一个大趋势。智能化管理需要建立在良好的信息管理平台之上,因此需要强大的系统软件做支撑。在智能化城市管理系统中,智能化决策系统需要基于大量不同信息做出决策,这些信息包括各种拓扑信息(道路、管线),供求信息(电力输送、饮用水供应、污水排放),环境信息(温度、湿度、雨量)等。要将这些复杂的异构数据有机管理起来,并基于它们做出决策,就需要一个成熟的系统。传统的数据管理系统基于关系数据模型,并不适合管理这种复杂异构数据。而使用图模型就可以很好的解决这一问题。如果我们将这些不同的数据利用图数据库进行管理,就可以实现很多复杂的智能管理场景。
社会治理
社会治理包括公共安全、法律事务、舆论、网络安全等多方面。社会治理是一个综合性的、多系统联动问题。它需要综合大量数据、全局考量才能做出更好的决策。在这种多维度复杂数据问题上,图数据模型可以提供更好的适应性,从而为智能化的社会治理决策平台提供坚实的基础。
互联网
人—人关系的社交网络、人—商品的购买关系都能构成图。通过分析这些网络数据,我们可以为用户提供更优质的服务,包括相关推荐、用户信息归集、重要用户识别、垃圾用户识别等。