近年来,随着新兴技术的不断涌现,数据处理等问题已逐步得到解决,而数据处理的时效性、数据价值的挖掘正成为企业及开发者面临的新的巨大挑战。也因此,大数据计算引擎、数据仓库、数据湖等成为当前无可争议的热门话题。本次meetup由示说网主办,众多社区大力支持,邀约大数据领域的前沿技术专家,为大家介绍开源数据技术的最新进展和实践案例。
超豪华嘉宾阵容!多位知名社区资深技术专家在线分享对行业趋势的洞察!
超丰富干货分享!数据处理、实时数仓、数据智能等前沿的技术实践与生产应用落地。
多种奖品拿到手软!超多精美礼品,抽奖和QA等环节礼品送不停!
时间 | 议程 |
---|---|
09:00 – 09:10 | 开场致辞 |
09:10 – 09:40 | Apache IoTDB 的物联网时序数据新场景探索及实践-侯昊男 |
09:40 – 10:10 | Apache Doris 的Join实现与调优技巧实践-李昊鹏 |
10:10 – 10:40 | Hudi在字节跳动推荐系统中的实践-管梓越 |
10:40 – 11:10 | Lakehouse with Delta Lake Introduction-刘林宏 |
11:10 – 11:40 | 圆桌交流 |
本次分享 Apache IoTDB 社区对物联网时序数据管理新场景的探索及实践,包括新型元数据管理、UDF、数据清洗等,及 Apache IoTDB 在多个场景的实践案例及调优方法。
侯昊男,Apache IoTDB PMC,现就职于大数据系统软件国家工程实验室。数据库内核开发工程师。负责 Apache IoTDB 的文件结构、写入内存控制、在线升级、线上部署实施等工作。
Apache Doris是百度贡献给Apache社区的一款高性能企业级的MPP数据库,支持近实时数据分析,亚秒级实时性保证,可高效处理数据的读取和写入。本次将分享 Apache Doris 分布式Join操作的底层实现原理与调优技巧实践。
李昊鹏,Apache Doris 社区 Contributor,数据库内核开发工程师,现就职于百度AI与数据平台部。负责 Apache Doris 查询计算,存储引擎的相关开发工作。
本次分享会涉及在搜索推荐广告等机器学习系统中两个场景下的数据湖应用。首先是在离线特征工程迭代场景中,实现离线样本数据的流式/批式插入,更新,删除,merge,从而支持模型训练场景中的样本拼接,特征回溯,数据退场等需求。除此之外,在推荐系统中,大量使用了LSM Tree型的存储引擎来作为数据存储,为了能够方便得在离线批式场景中高效使用这些数据,我们使用数据湖来承接这类存储引擎的CDC需求,从而降低这类数据的获取和消费门槛,提高了使用效率。在这过程中,我们还会分享在应对高吞吐,复杂数据模型和多种数据语义等性能挑战的一些实践。
管梓越,大数据开发工程师, 现就职于字节跳动推荐架构部门。专注于hudi在机器学习场景下的开发与应用。支持抖音,今日头条等产品的机器学习场景下的架构工作
理想的数据湖需要提供可靠的,高质量的数据,从而支持实时数据查询、历史数据查询、数据回滚、增量修改等业务。本次分享介绍了构建湖仓一体过程中的痛点,以及 Databricks 如何基于 Delta Lake 解决这些问题。
刘林宏,Databricks 软件工程师。曾先后就职于英特尔大数据部和百度基础架构部,参与分布式计算系统的研发工作。2020 年加入 Databricks,参与开源软件及 Databricks 产品研发。
白玉兰开源
示说
Apache Doris社区
Apache DolphinScheduler社区
Apache IoTDB 社区
databricks
1、本活动具体服务及内容由主办方【奥米加羊🐟】提供,活动行仅提供票务技术支持,请仔细阅读活动内容后参与。
2、如在活动参与过程中遇到问题或纠纷,双方应友好协商沟通,也可联络活动行进行协助。