大数据
讲述数据获取、存储、管理、分析的方方面面,关注软件、实践、生态,挖掘最新的前沿技术,同时也思考大数据与AI和云计算的深度结合。
- 全部
- DataOps
- 数据集成
- DataMesh
- 数据编织
- 数据湖仓
- 在离线混部
- 实时计算
- 其他
字节跳动开源云原生数据仓库 ByConity 有奖众测,邀你体验完整的数仓能力
为了让更多的开发者深入了解并体验 ByConity bsp 模式的能力,InfoQ 和 ByConity 社区联合举办“ByConity 有奖众测活动”,邀请广大开发者参与 ByConity bsp 模式在离线数仓场景的实际测试,通过亲身实践来感受其带来的高效与便捷。
Meta 利用强化学习优化数据中心的可持续性
本文提到了 Meta 使用强化学习优化数据中心环境控制,减少能源和水消耗,应对气候变化。试点地区实现能耗降低 20%,用水量降低 4%。
存算分离的过去、现在和未来
存算分离架构,作为数据处理领域的一个重要概念,从其最初的雏形到如今广泛应用,经历了多次迭代和变革。
兼顾高性能与低成本,浅析 Apache Doris 异步物化视图原理及典型场景
面对有限的计算资源,成本及性能如何平衡,严格的资源管控也显得尤为重要
AI 造脸“一眼真”,身份验证难上加难,技术可以用魔法打败魔法吗?
生成式 AI 带来全新挑战,眼见不一定为真。
AI 时代的数据底座,StarRocks 2024 年度技术峰会带你探索湖仓架构
阿里集团、Snowflake、腾讯音乐、小红书、Shopee 等 30+ 行业标杆企业联袂呈现,共话 AI 时代下的湖仓技术创新与未来
生成式 AI 项目,数据管理的“坑”和“诀窍” |InfoQ《极客有约》
生成式 AI 项目越来越多,数据管理的难度也跟着升级!怎样在合规和隐私保护的同时,保持高效?如何优化数据质量,让模型表现更靠谱?
Podman Desktop 1.13 发布,支持 Hyper-V
Podman Desktop 1.13 发布,支持 Hyper-V 管理 Podman 机器,集成镜像搜索功能,更新空白状态页,优化 Kubernetes 导航,新增镜像层浏览器扩展,修复错误并提升用户体验。
数据湖系列之四 | 数据湖存储加速方案的发展和对比分析
我们期望本文能够帮助读者对大数据和 AI 场景下的「数据湖存储加速」这个主题建立一个整体把握,为选出适合自己业务的方案提供参考。
资源节省 81%,作业帮 MySQL 千表入湖仓实践
23 年我们完成了日志采集入湖,整体运行效果很好。为解决上述问题。我们决定将 Mysql 采集由入 Hive 改为 Iceberg。
Apache Doris 和 SelectDB 精选案例集(2024 版)
为提升企业使用体验、提高选型效率并降低实施风险,飞轮科技推出 Apache Doris 和 SelectDB 精选案例集(2024 版)。该案例集汇集 4 大领域、8+ 分析场景、26+ 标杆企业的成功案例与实践经验。以行业为划分标准,辅以使用场景标签,旨在为读者提供一个高度整合、全面涵盖、分类清晰且易于查阅的学习资源库。
优步完成了主要 MySQL 集群组的升级,提升了性能和安全性
本文提到了优步将 MySQL 数据库从 5.7 升级到 8.0,提升性能和安全性,耗时一年多,涉及 2100 多个集群和 16000 个节点,实现了高并发下显著的性能提升。
中国存储厂,杀入顶分桌
成立于 2016 年前后的存储企业,即将迈过十周年的门槛,变得不再年轻。而随生成式 AI 的发展而诞生的新兴存储企业,正逐步进入市场主流视野。
寻找 AI 最佳实践,InfoQ 2024 中国技术力量年度榜单开启
让 AI 的力量被看见!
OceanBase 4.3.3 发布,面向 AI 时代升级向量能力
AI 时代,需要怎样的数据库?
腾讯音乐:从 Elasticsearch 到 Apache Doris 内容库升级,统一搜索分析引擎,成本直降 80%
为满足更严苛数据分析的需求,腾讯音乐借助 Apache Doris 替代了 Elasticsearch 集群,统一了内容库数据平台的内容搜索和分析引擎。
谷歌建议在 SQL 中增加管道语法
本文提到谷歌提出在 SQL 中引入管道语法以提高灵活性和易用性,目前已在 GoogleSQL 和 ZetaSQL 中实现,但社区反馈不一。新语法旨在简化 SQL 查询编写,提高开发效率。
是时候刷新数据部门在券商的存在感了
数据工作的现状与时代赋予的愿景差距大,如何弥合沟壑?
Apache Doris 3.0 里程碑版本|存算分离架构升级、湖仓一体再进化
从 3.0 系列版本开始,Apache Doris 开始支持存算分离模式,用户可以在集群部署时选择采用存算一体模式或存算分离模式。
优化故障影响分析和变更发布流程
本文讨论了优化故障影响分析和变更发布流程,强调预防、最小化影响、快速检测和恢复,建议建立沙盒环境、严格代码评审、高测试覆盖率、自动化回滚以减少生产环境错误。
京东零售数据湖应用与实践
Lambda 架构的优点是保证了数据的完整性,但缺点是系统的复杂性较高,需要维护两套系统,并且服务层的复杂合并逻辑可能会导致延迟。为了解决数据的完整性和实时性之间的矛盾,京东零售在数据架构上做出了一系列的革新。
揭秘下一代 Data for AI 技术架构,六位专家深度剖析未来趋势 | QCon
就在本周五,QCon 上海落地,为你分享下一代 Data for AI 技术架构探索
InfoQ 2024 年趋势报告:人工智能、机器学习和数据工程篇
InfoQ 编辑团队和嘉宾讨论了人工智能、机器学习和数据工程领域的当前趋势。
集成困难、数据低效:AI 热潮下,存储该怎么跟上?
只要有数据,就需要存储。随着数据处理需求呈指数级增长,许多企业在管理 AI 项目和处理大量数据方面面临着挑战。
统一存储、缩短链路,快手从 Clickhouse 到 Apache Doris 实现湖仓分离向湖仓一体的升级
快手通过引入 Apache Doris 湖仓一体能力,替换了 Clickhouse ,升级为湖仓一体架构,并结合 Doris 的物化视图改写能力和自动物化服务,实现高性能的数据查询以及灵活的数据治理。
拐点已至? Kafka 如何破局
Kafka 项目将走向何方?其生态系统将如何演变,Kafka 在快速发展的 AI 领域中将扮演什么角色?
RAG 风口十问:大数据与 AI 是价值落地还是过度炒作?
过去一年多,RAG 正成为大数据与 AI 融合的“新宠”。想象一下,当你用 AI 助手快速总结论文或分析数据时,背后可能已经是 RAG 技术在默默发力。
该挤掉“大数据 +AI”的泡沫了?
专家张君侠就 AI 大模型和大数据之间的关系和应用进行了交流。AI 的概念,强调了大数据和 AI 之间的相互促进关系。
数据治理如何转化为业务价值?平安产险的探索与实践解析
通过工具和流程的优化,平安产险制定数据标准的速度提高了 20 倍。
Java 虚拟线程:案例研究
本文探讨了 Java 虚拟线程在云原生 Java 负载中的表现,发现其在 CPU 密集型负载下吞吐量低于传统线程池,但在加速时间上表现更优,同时指出虚拟线程在某些情况下可能存在性能问题,需要进一步与 OpenJDK 社区合作解决。