本本本添哥
奶爸的编程之路,也就一周冷个三天~
专门分享Java微服务、计算机软考、项目管理、个人成长等相关内容
欢迎关注我的公众号:本本本添哥
展开
-
【项目实战】知识图谱,使用图形数据结构来存储和展示实体之间的关系
知识图谱,是一种结构化的知识库。知识图谱,使用图形数据结构来存储和展示实体之间的关系。原创 2024-09-20 20:02:51 · 393 阅读 · 0 评论 -
【项目实战】Apache Oozie ,Hadoop 的工作流调度器,适合 Hadoop 生态系统内的任务调度。
Apache Oozie 是一个用于 Apache Hadoop 的工作流和协调服务。它使用户能够在 Hadoop 分布式文件系统 (HDFS) 和 MapReduce 上执行 Hadoop 作业和其他类型的任务,并按照预定的时间表协调它们。Oozie 可以帮助开发者构建复杂的数据管道和批处理工作流。原创 2024-09-12 21:45:49 · 591 阅读 · 0 评论 -
【项目实战】Azkaban,由 LinkedIn 开发的批处理作业调度器,专注于简单性和可靠性。
Azkaban 是一个批处理作业的调度器和工作流管理器,最初由 LinkedIn 开发并开源。它旨在为大数据处理提供一个简单、可靠的方式来组织和执行一系列批处理作业。Azkaban 支持在 Hadoop 环境中执行 MapReduce 作业、Pig 脚本、Hive 查询等。原创 2024-09-12 21:45:39 · 245 阅读 · 0 评论 -
【项目实战】分布式调度系统Apache Airflow,不仅简化了数据管道的构建和管理,还提供了丰富的功能来支持大规模数据处理需求。
Apache Airflow,是一个开源的平台。Apache Airflow,用于编排复杂的计算工作流。Apache Airflow,提供了一种直观的方式来定义、监控和管理数据管道,支持任务的依赖关系和重试机制。Apache Airflow,核心优势在于它的可扩展性和灵活性,能够处理大量的数据处理任务。Apache Airflow,在数据工程和自动化任务调度方面的有很重要的作用。Apache Airflow,不仅简化了数据管道的构建和管理,还提供了丰富的功能来支持大规模数据处理需求。原创 2024-09-12 21:35:47 · 73 阅读 · 0 评论 -
【项目实战】大数据处理分析技术类型及其代表产品
大数据处理分析技术涵盖了多种不同的计算模式,每种模式都有其独特的优势和适用场景。大数据处理分析技术类型,实际上对应了不同的大数据计算模式。通过选择合适的计算模式,企业或组织可以有效地处理和分析大规模数据,以支持业务决策和优化运营效率。原创 2024-09-12 20:50:03 · 237 阅读 · 0 评论 -
【项目实战】解决Kafka消费速度慢,缓解/解决Kafka消息积压的问题
Kafka消息积压的问题确实会影响系统的性能和业务的正常运作,尤其是在需要保证消息实时处理的场景下。通过以下措施,可以有效缓解甚至解决Kafka消息积压的问题,从而保障系统的稳定性和业务的连续性。原创 2024-09-09 12:41:02 · 259 阅读 · 0 评论 -
【项目实战】利用日志采集工具(如Cloudera的Flume等)把实时采集的数据作为流计算系统的输入进行实时处理分析
许多公司的业务平台每天都会产生大量的日志文件。日志文件数据一般由数据源系统产生,用于记录数据源的执行的各种操作活动,比如网络监控的流量管理、金融应用的股票记账和Web服务器记录的用户访问行为。对于这些日志信息,我们可以得到出很多有价值的数据。通过对这些日志信息进行采集,然后进行数据分析,就可以从公司业务平台日志数据中挖掘得到具有潜在价值的信息,为公司决策和公司后台服务器平台性能评估提供可靠的数据保证。系统日志采集系统做的事情就是收集日志数据提供离线和在线的实时分析使用。原创 2024-08-25 08:35:22 · 46 阅读 · 0 评论 -
【项目实战】常见的数据仓库Impala
Impala,是Cloudera开发的一款开源的SQL查询引擎。Impala,为Hadoop环境提供了高性能、低延迟的查询能力。Impala,可以直接在Hadoop的HDFS和HBase上运行,而无需将数据移动到关系型数据库中。Impala,采用MPP(Massively Parallel Processing)架构。Impala,能够实现大规模并行处理,提供近实时的查询响应。原创 2024-08-09 09:35:46 · 171 阅读 · 0 评论 -
【项目实战】常见的数据仓库GreenPlum
Greenplum,是戴尔科技集团(Dell Technologies)旗下的Pivotal Software开发的一款企业级数据仓库产品。Greenplum,采用了MPP(Massively Parallel Processing)架构。Greenplum,专为处理PB级别的数据和复杂分析查询而设计。Greenplum,能够提供高性能的分析能力和数据密集型应用支持,使其成为大数据分析领域的领先解决方案之一。Greenplum,学习资源-Greenplum,参考文献-原创 2024-08-09 09:35:30 · 78 阅读 · 0 评论 -
【项目实战】公域数据与私域数据介绍
公域数据与私域数据的区分和管理有助于促进数据的合理使用和流通,确保数据安全与隐私保护,同时激发数据的价值和创新潜力。原创 2024-08-09 09:35:07 · 138 阅读 · 0 评论 -
【项目实战】Python 编程语言入门介绍
Python,是一种面向对象、解释型的高级编程语言。Python,是一种面向对象的解释型计算机程序设计语言。Python,以其代码的清晰性和可读性著称。Python,设计哲学强调代码的可读性和简洁的语法。Python,为多种编程范式(如面向对象、过程化、函数式和元编程)提供了支持。Python,是纯粹的自由软件,源代码和解释器CPython遵循GPL(GNU General Public License)协议。原创 2024-08-09 09:34:53 · 70 阅读 · 0 评论 -
【项目实战】统计分析软件SPSS
SPSS的目标用户包括社会科学家、市场研究人员、教育工作者、数据分析师以及任何需要进行统计数据分析的专业人士或学生。由于其直观的界面,SPSS尤其受到那些没有深入编程背景但需要执行复杂统计分析的人士欢迎。原创 2024-08-08 21:29:26 · 78 阅读 · 0 评论 -
【项目实战】统计分析软件SAS
数据分析师统计学家研究人员业务分析师IT专业人士学生和教育工作者。原创 2024-08-08 21:34:14 · 70 阅读 · 0 评论 -
【项目实战】Python中的Anaconda和conda 的包管理器入门介绍
Anaconda是一个开源的Python发行版本。Anaconda 是一个非常流行的 Python 和 R 数据科学环境的发行版。Anaconda 是数据科学和机器学习领域的一个非常有用的工具。Anaconda 包含了数百个科学计算、数据分析、机器学习等相关领域的库和工具。Anaconda 由 Continuum Analytics 开发,并且现在由 Anaconda, Inc. 维护和支持。原创 2024-07-31 09:38:15 · 98 阅读 · 0 评论 -
【项目实战】Kafka基本的命令行工具
Apache Kafka 不直接提供一个单一的命令来查看所谓的“生产者队列”和“消费者队列”,因为 Kafka 的架构并不包含传统意义上的生产者和消费者队列。相反,Kafka 维护着主题(topics),生产者向主题发送消息,而消费者订阅这些主题并消费消息。但是,你可以使用 Kafka 提供的命令行工具来检查主题的状态、消息和消费者的偏移量。Kafka 中并没有生产者队列的概念,生产者直接发送消息到主题分区。同样,消费者也没有自己的队列;消费者直接从主题分区中拉取消息。原创 2024-07-24 16:19:03 · 105 阅读 · 0 评论 -
【软考】数据库系统 - 大数据基本概念
大数据通常指的是那些在传统数据处理应用软件不足以有效处理的数据集。大数据,这些数据集由于其体积庞大、类型多样和变化速度快(通常称为“6V”特性)。大数据需要专门的大数据技术来处理它们的存储、处理、分析和可视化。大数据技术的应用非常广泛,包括但不限于金融风控、医疗健康、电子商务、社交媒体分析、物联网等领域。原创 2024-07-24 13:01:17 · 43 阅读 · 0 评论 -
【项目实战】数据转换策略中常用的数据规范化方法
常用的包括Min-Max规范化、Z-Score规范化、小数定标规范化。原创 2024-07-21 09:31:48 · 149 阅读 · 0 评论 -
【项目实战】分布式消息订阅分发 (消息队列Kafka)入门介绍
Kafka的架构包括以下组件:主题、生产者、消费者、服务代理自定义分区器需要实现接口,并在方法中定义分区逻辑。例如,可以根据消息的键(key)的哈希值或特定属性来确定分区。创建自定义分区器后,需要在Kafka生产者的配置中指定分区器类。原创 2024-07-20 09:46:20 · 168 阅读 · 0 评论 -
【软考】数据库系统 - 数据挖掘
数据挖掘可以视为机器学习与数据库的交叉。数据挖掘和机器学习是计算机学科中最活跃的研究分支之一。数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。原创 2024-07-19 09:25:09 · 40 阅读 · 0 评论 -
【项目实战】一个可扩展的、全球分布式的数据库Google Spanner介绍
Google Spanner是一个可扩展的、全球分布式的数据库,Google Spanner是由谷歌公司设计、开发和部署的。在最高抽象层面,Spanner就是一个数据库,把数据分片存储在许多Paxos状态机上,这些机器位于遍布全球的数据中心内。复制技术可以用来服务于全球可用性和地理局部性。客户端会自动在副本之间进行失败恢复。随着数据的变化和服务器的变化,Spanner会自动把数据进行重新分片,从而有效应对负载变化和处理失败。原创 2024-05-23 21:18:40 · 123 阅读 · 0 评论 -
【项目实战】大数据时代的数据存储与管理技术(NewSQL数据库 、 NoSQL数据库 、 云数据库)入门介绍
【项目实战】大数据时代的数据存储与管理技术(NewSQL数据库 、 NoSQL数据库 、 云数据库)入门介绍原创 2024-05-23 20:48:53 · 165 阅读 · 0 评论 -
【项目实战】大数据时代的分布式存储和管理技术,分布式文件系统(如Hadoop的HDFS和谷歌的GFS)
分布式文件系统是一种通过网络实现文件在多台主机上进行分布式存储的文件系统分布式文件系统是大数据时代的数据存储和管理技术。原创 2024-05-23 20:20:12 · 161 阅读 · 0 评论 -
【项目实战】大数据处理架构/框架Hadoop入门介绍
Hadoop是一个能够对大量数据进行分布式处理的软件框架Hadoop是以一种可靠、高效、可伸缩的方式进行处理的框架。原创 2024-05-23 20:15:30 · 451 阅读 · 0 评论 -
【项目实战】传统的数据存储与管理技术(文件系统 、关系数据库 、数据仓库 、并行数据库)入门介绍
文件系统是操作系统用于明确存储设备或分区上的文件的方法和数据结构,即在存储设备上组织文件的方法。存储设备:(常见的是磁盘,也有基于NAND Flash的固态硬盘)操作系统中负责管理和存储文件信息的软件机构称为文件管理系统,简称“文件系统”平时在计算机上使用的各种文件,都是由操作系统中的文件系统进行统一管理的。各种文件,包括WORD文件、PPT文件、文本文件、音频文件、视频文件等。原创 2024-05-23 19:49:33 · 247 阅读 · 0 评论 -
【项目实战】网络爬虫入门介绍(Scrapy爬虫与反爬机制)
Scrapy是一套基于Twisted的异步处理框架。Scrapy运行于Linux/Windows/MacOS等多种环境。Scrapy具有速度快、扩展性强、使用简便等特点。Scrapy是纯Python实现的爬虫框架。Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求对它进行修改。用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容或者各种图片。即便是新手,也能迅速学会使用Scrapy编写所需要的爬虫程序。原创 2024-05-23 19:15:23 · 777 阅读 · 0 评论 -
【项目实战】数据采集与预处理之数据采集
数据采集,又称“数据获取”。数据采集,是数据分析的入口,也是数据分析过程中相当重要的一个环节。数据采集通过各种技术手段把外部各种数据源产生的数据实时或非实时地采集并加以利用。原创 2024-05-23 17:29:47 · 607 阅读 · 0 评论 -
【项目实战】数据采集与预处理之数据清洗
数据清洗:包括一致性检查、处理缺失值和缺失值、去除重复记录、纠正错误数据等,确保数据质量。原创 2024-05-23 17:17:21 · 707 阅读 · 0 评论 -
【项目实战】数据采集与预处理之常见的数据转换策略
将数据按比例缩放,使之落入一个小的特定区间,如0到1之间。将属性值按比例缩放,使之落入一个特定的区间,比如0.0~1.0。将数据按比例缩放,使其落入一个特定的区间,如[0, 1]或[-1, 1],数据规范化是一种按比例缩放数据的方法,使得所有数据都落入一个特定的小区间,例如0到1之间。数据规范化有助于确保没有单一特征因规模过大而对模型造成不成比例的影响。将数据缩放到特定范围内的过程,通常用于将数据映射到[0,1]或[-1,1]的区间内。原创 2024-05-23 16:24:01 · 247 阅读 · 0 评论 -
【项目实战】数据采集与预处理之数据脱敏,基于Hutool的DesensitizedUtil实现数据脱敏
*** 脱敏策略/*** 身份证脱敏* 手机号脱敏* 地址脱敏* 邮箱脱敏* 银行卡//可自行添加其他脱敏策略 private final Function < String , String > desensitizer;} }/*** 脱敏策略/*** 身份证脱敏* 手机号脱敏* 地址脱敏* 邮箱脱敏* 银行卡//可自行添加其他脱敏策略 private final Function < String , String > desensitizer;原创 2024-05-23 15:11:57 · 401 阅读 · 0 评论 -
【项目实战】分布式理论之CAP模型/CAP理论 与 BASE理论 介绍
CAP 这3个字母代表:一致性/可用性/分区容忍性。原创 2024-05-23 13:01:11 · 166 阅读 · 0 评论 -
【项目实战】大数据在互联网领域的应用(推荐系统)
推荐系统是大数据在互联网领域的典型应用,推荐系统是自动联系用户和物品的一种工具。推荐系统可以通过分析用户的历史记录来了解用户的喜好,从而主动为用户推荐其感兴趣的信息,满足用户的个性化推荐需求。推荐系统可发现用户的兴趣点,帮助用户从海量信息中去发掘自己潜在的需求。原创 2024-05-22 15:06:43 · 123 阅读 · 0 评论 -
【软考】数据库系统 - 数据仓库
数据仓库是一种特殊的数据库;数据库系统在刚刚建立时运行速度很快,但随着时间的推移,其存储的数据量越来越大,速度也将逐步下降,而为了提高速度,人们会优化存储,通常采用删除较久远历史数据来进行优化,而这些数据仍然具有部分价值,因此我们会专门用一个数据库来对其进行存放,而用来存放这种数据的数据库并不需要插入,添加,修改等操作,更多的操作是查询,因此我们将这种特殊用途的数据库称之为数据仓库。原创 2024-05-22 13:15:08 · 242 阅读 · 0 评论 -
【项目实战】使用和管理Apache Kafka集群,Kafka配置中的各个参数及其作用
Kafka集群将记录流存储在称为Topic的类别中Kafka中,每条记录由键值(key-value)和一个时间戳组成。Kafka集群的使用和管理通常涉及对多个broker的协调和监控。对于Kafka集群的使用和管理,除了理解和配置这些参数外,还需要掌握如何启动和停止Kafka集群、如何创建和管理Topic、如何监控集群的性能和健康状况等。同时,由于Kafka是一个分布式系统,因此还需要考虑如何处理故障、如何进行数据备份和恢复等问题。原创 2024-05-18 15:09:44 · 43 阅读 · 0 评论 -
【项目实战】支持大批量的数据交换,并且元数据信息的存储格式的数据序列化框架Avro
Avro使用JSON格式来定义数据的模式(Schema)这使得数据的结构可以在文件外部进行描述,便于数据的交换和存储。原创 2024-05-14 19:27:47 · 35 阅读 · 0 评论 -
【项目实战】Waterdrop
此外,Waterdrop还具备快速数据探查的能力,通过系统自动采集数据库对象详情信息生成简易的数据目录,并提供可视化操作对数据目录进行增删查改,从而使用户能够快速了解、探查数据并进行数据库对象操作。总的来说,Waterdrop作为一个易用、高性能的海量数据处理产品,可以帮助用户更好地管理和分析数据,提升数据处理的效率和准确性,为企业和组织的发展提供有力的支持。社区支持:作为一个开源项目,Waterdrop拥有活跃的社区支持,用户可以从社区获得帮助和资源,也可以参与到项目的发展中来。原创 2024-04-06 16:04:32 · 412 阅读 · 0 评论 -
【项目实战】一个高可靠性、高性能、面向列、可伸缩的分布式存储系统/数据库Apache HBase入门介绍
Apache HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,用于存储大量数据。原创 2024-03-20 21:14:33 · 79 阅读 · 0 评论 -
【项目实战】Dbeaver使用Apache Phoenix来实现连接Hbase的详细指引
DBeaver是一款开源的数据库管理工具,可以连接多种类型的数据库,包括Apache Phoenix和Hbase。通过DBeaver连接Hbase表,可以更方便地进行数据管理和查询。原创 2023-05-12 15:12:23 · 2450 阅读 · 1 评论 -
【项目实战】Phoenix入门介绍
Phoenix最早是saleforce的一个开源项目,后来成为Apache基金的顶级项目。HBase和Phoenix是大数据存储和管理的解决方案Apache Phoenix是一个在HBase之上构建的SQL层Apache Phoenix允许用户使用标准的JDBC API来查询HBase数据。Apache Phoenix是HBase的一个SQL层,可以通过SQL来访问HBase中的数据。原创 2024-03-20 21:08:54 · 231 阅读 · 0 评论 -
【项目实战】Hbase+Phoenix集成Mybatis Plus
HBase和Phoenix是大数据存储和管理的解决方案Apache HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,用于存储大量数据。Apache Phoenix是一个在HBase之上构建的SQL层Apache Phoenix允许用户使用标准的JDBC API来查询HBase数据。Apache Phoenix是HBase的一个SQL层,可以通过SQL来访问HBase中的数据Mybatis是一个Java持久层框架,用于简化数据库操作。原创 2024-03-20 11:54:08 · 182 阅读 · 0 评论 -
【项目实战】Clickstream Analytics on AWS入门介绍
它是一种追踪和分析用户在线行为的技术它通常用于收集、处理和分析用户在网站或应用上的点击、浏览、搜索等交互数据。原创 2024-03-13 22:23:31 · 77 阅读 · 0 评论