stardsd - 博客园

2024年1月6日

摘要： 1. 视频编解码协议和视频传输协议的区别：视频编解码协议是指在视频采集、压缩、存储、传输和显示过程中，对视频数据进行编码和解码的规则和方法。视频编解码协议的目的是为了减少视频数据的冗余，提高视频质量，降低视频码率，节省网络带宽和存储空间。常见的视频编解码协议有 MPEG-4、H.264、H.265 阅读全文

posted @ 2024-01-06 09:38 stardsd 阅读(760) 评论(0) 推荐(0) 编辑

2024年1月5日

语义通信——概念与方法

摘要：通信的三个层面的问题：层面A(技术问题):通讯符号如何准确地加以传输? 层面B(语义问题):传输的符号如何精确地传达含义? 层面C(效用问题):收到的含义如何以期望的方式有效地影响行为? 语义通讯泛指不同的智能体之间进行的以“ 达意” 为目的的通讯.这里的“ 智能体” 可以指人类、智能机器甚至其它阅读全文

posted @ 2024-01-05 21:26 stardsd 阅读(449) 评论(0) 推荐(0) 编辑

特征量化编码入门指南

摘要：推荐论文： https://arxiv.org/abs/2211.13745 论文摘要：本文研究了设备边缘协同推理系统中 CNN 推理的计算卸载。受新兴语义通信范式的启发，我们提出了一种新颖的基于自动编码器的 CNN 架构（AECNN），用于在终端设备上进行有效的特征提取。我们基于CNN中的通道注意阅读全文

posted @ 2024-01-05 20:37 stardsd 阅读(174) 评论(0) 推荐(0) 编辑

视频编解码课程：智能媒体计算（阿里云培训中心）

摘要：课程链接： https://edu.aliyun.com/course/315432/ 课程介绍高校精品课-华中科技大学 -智能媒体计算出品讲师：于俊清课时列表第0章：学习资源领取课时0：免费领取云资源额度第1章：章节一共13课时课时1：科技革命 28:42 课时2：互联网时代、课程简阅读全文

posted @ 2024-01-05 17:31 stardsd 阅读(71) 评论(0) 推荐(0) 编辑

基于 FFmpeg 和 NVIDIA GPU 的视频硬件编解码实验

摘要：【官方文档地址】：使用 FFmpeg 和 NVIDIA GPU 硬件加速 ( PDF ) 从 Kepler 一代开始的所有 NVIDIA® GPU 都支持完全加速的硬件视频编码和解码。在本文档的其余部分中，硬件编码器和硬件解码器分别称为 NVENC 和 NVDEC。 NVENC和NVDEC的硬件能力阅读全文

posted @ 2024-01-05 16:59 stardsd 阅读(2912) 评论(0) 推荐(0) 编辑

2023年7月19日

图片元信息Exif(Exchangeable Image File)的获取和修改

摘要：我们进行图片分类，做一些人工智能的项目或者利用Python来对图片进行分类，都可以利用到Exif信息。什么是Exif？ Exif是一种图像文件格式，实际上Exif格式就是在JPEG格式头部插入了数码照片的信息，包括拍摄时的光圈、快门、白平衡、ISO、焦距、日期时间等各种和拍摄条件以及相机品牌、型号阅读全文

posted @ 2023-07-19 14:46 stardsd 阅读(2097) 评论(0) 推荐(0) 编辑

MIME Type

摘要： MIME 类型媒体类型（通常称为 Multipurpose Internet Mail Extensions 或 MIME 类型）是一种标准，用来表示文档、文件或字节流的性质和格式。它在IETF RFC 6838中进行了定义和标准化。互联网号码分配机构（IANA）是负责跟踪所有官方 MIME 类阅读全文

posted @ 2023-07-19 14:17 stardsd 阅读(155) 评论(0) 推荐(0) 编辑

色度二次采样(Chroma Subsampling)

摘要：在数位图像处理领域中，色度抽样是指在表示图像时使用较亮度信息为低的分辨率来表示色彩（色度）信息。当对模拟分量视频或者YUV讯号进行数字抽样时，一般会用到色度抽样。原理由于存储及发送的限制，信号处理中大多数会偏向被减少（或被压缩）以减低负荷。由于人眼对色度的敏感度不及对亮度的敏感度，图像的色度分量阅读全文

posted @ 2023-07-19 13:51 stardsd 阅读(311) 评论(0) 推荐(0) 编辑

2023年7月17日

lumo库

摘要： lumo 是一个精简高效的库，简化了实验所需的所有组件的管理，并特别关注增强深度学习实践者的体验。实验管理：: 为每次运行分配唯一路径，区分不同类型的文件并存储；通过 git 管理代码快照；记录实验中产生的一切信息，保障可回溯、可复现参数管理：基于 fire 提供比 argparser 更便捷的阅读全文

posted @ 2023-07-17 16:35 stardsd 阅读(77) 评论(0) 推荐(0) 编辑

PyTorch Lightning简约哲学

摘要： PyTorch已经足够简单易用，但是简单易用不等于方便快捷。特别是做大量实验的时候，很多东西都会变得复杂，代码也会变得庞大，这时候就容易出错。针对这个问题，就有了PyTorch Lightning。它可以重构你的PyTorch代码，抽出复杂重复部分，让你专注于核心的构建，让你的实验更快速更便捷地开展阅读全文

posted @ 2023-07-17 16:18 stardsd 阅读(447) 评论(0) 推荐(0) 编辑

Kornia：可微分计算机视觉库

摘要： Kornia 是一款基于 PyTorch 的可微分的计算机视觉库。它由一组用于解决通用计算机视觉问题的操作模块和可微分模块组成。其核心使用 PyTorch 作为主要后端，以提高效率并利用反向模式自动微分来定义和计算复杂函数的梯度。概览受现有开源库的启发，Kornia可以由包含各种可以嵌入神经网阅读全文

posted @ 2023-07-17 15:53 stardsd 阅读(314) 评论(0) 推荐(0) 编辑

2023年7月11日

CoDi: Any-to-Any Generation via Composable Diffusion

摘要：我们介绍了一种名为可组合扩散（CoDi）的新型生成模型，能够从任意输入模态的任意组合中生成任意组合的输出模态，例如语言、图像、视频或音频。与现有的生成人工智能系统不同，CoDi能够同时生成多个模态，并且其输入不限于文本或图像等子集模态。尽管许多模态组合缺乏训练数据集，我们提出在输入和输出空间中对模态阅读全文

posted @ 2023-07-11 17:42 stardsd 阅读(189) 评论(0) 推荐(0) 编辑

向量数据库

摘要： Elasticsearch 从 2022 年 2 月发布的 8.0 版本开始，提供了基于向量的搜索和自然语言处理（NLP）功能。下图清楚地展示了向量搜索引擎的工作原理。它涉及以下几个步骤：将原始实体（如歌曲、图像或文本）转换为数字表示（向量 Embedding）；使用距离度量来表示向量之间的相阅读全文

posted @ 2023-07-11 16:36 stardsd 阅读(345) 评论(0) 推荐(0) 编辑

LZ77数据压缩编码算法

摘要： LZ77简介 Ziv和Lempel于1977年发表题为“顺序数据压缩的一个通用算法（A Universal Algorithm for Sequential Data Compression ）”的论文，论文中描述的算法被后人称为LZ77算法。值得说的是，LZ77严格意义上来说不是一种算法，而是一种阅读全文

posted @ 2023-07-11 14:21 stardsd 阅读(170) 评论(0) 推荐(0) 编辑

2023年7月9日

Web中间件、Web容器、Web服务器

摘要：一、 Web中间件(Web middleware) web中间件是指位于Web服务器和Web应用程序之间的软件组件或库，用于实现附加功能、处理请求和向应用程序提供服务。这些中间件通过提供身份验证、日志记录、路由、缓存、负载平衡等特性，增强了web应用程序的功能和灵活性。二、 web服务器: web 阅读全文

posted @ 2023-07-09 15:15 stardsd 阅读(1240) 评论(0) 推荐(0) 编辑

2023年7月2日

Search-as-a-Service：Algolia

摘要： Algolia是一个搜索和发现API，帮助公司为其网站和移动应用构建搜索体验。Algolia提供后端API客户端和前端小部件，帮助公司管理其数据并构建搜索体验。Algolia是与数据库无关的，因此可以与任何数据源一起使用，包括NoSQL数据库。 Algolia成立于2012年，由Nicolas De 阅读全文

posted @ 2023-07-02 17:11 stardsd 阅读(60) 评论(0) 推荐(0) 编辑

2023年6月27日

上界、下界与确界：Ο/Ω/Θ/ο/ω之间的区别

摘要：一、概述Ο，读音：big-oh；表示上界，小于等于。 Ω，读音：big omega、欧米伽；表示下界，大于等于。 Θ，读音：theta、西塔；既是上界也是下界，称为确界，等于。 ο，读音：small-oh；表示上界，小于。 ω，读音：small omega；表示下界，大于。 Ο是渐进上界，Ω是渐进下阅读全文

posted @ 2023-06-27 17:03 stardsd 阅读(1146) 评论(0) 推荐(0) 编辑

2023年6月26日

5G承载网

摘要： 5G承载网是为5G无线接入网和核心网提供网络连接的基础网络。为了满足5G应用场景的需求，5G承载网采用新的网络架构和关键技术，为5G网络提供超大带宽、超低时延、灵活智能的连接服务。目录 5G对承载网提出了哪些需求？ 5G承载网的网络结构是什么样的？ 5G承载网的关键技术有哪些？ 5G对承载网提出阅读全文

posted @ 2023-06-26 15:05 stardsd 阅读(267) 评论(0) 推荐(0) 编辑

2023年6月16日

Beamr：CABR（闭环内容自适应编码解决方案）

摘要： Content Aware ABR技术本文将简要介绍一下编码优化领域的一位新贵—Beamr的技术动态。 Beamr是内容自适应视频编码与优化解决方案的提供商，致力于为MSO（Multi-System Operator，多系统运营商）和OTT（Over The Top，流媒体服务商）提供视频技术支持阅读全文

posted @ 2023-06-16 16:30 stardsd 阅读(202) 评论(0) 推荐(0) 编辑

Halftone：网目凸版制版法（半色调）

摘要：半色调是一种复印技术，它通过使用点来模拟连续色调图像，点的大小或间距各不相同，从而产生类似渐变的效果。[1] “Halftone”也可以用来特指由此过程产生的图像。[1] 在连续色调图像包含无限范围的颜色或灰色的情况下，半色调过程将视觉再现减少为仅使用一种颜色墨水打印的图像，以不同大小（脉冲宽度调制阅读全文

posted @ 2023-06-16 15:30 stardsd 阅读(358) 评论(0) 推荐(0) 编辑

2023年6月15日

JPEG XL 和 libjxl

摘要： JPEG XL 是一种免版税的图像文件格式，支持有损和无损压缩。它旨在超越现有的栅格格式并成为它们的通用替代品。与其他流行的图像格式（尤其是旧的 JPEG 格式）相比，JPEG XL 旨在提高图像保真度，同时减小文件大小。它提供比传统 JPEG 更好的图像质量和压缩率。JPEG XL 支持现代功阅读全文

posted @ 2023-06-15 16:39 stardsd 阅读(1482) 评论(0) 推荐(0) 编辑

2023年6月13日

Intel Quick Sync Video（QSV）

摘要：安装和使用过程： 1. Install Intel Media Server Studio for Linux. Download from software.intel.com/intel-media-serverstudio. This is a prerequisite for the *_q 阅读全文

posted @ 2023-06-13 11:30 stardsd 阅读(242) 评论(0) 推荐(0) 编辑

NVIDIA NVenc

摘要： NVENC 代表 NVIDIA 编码器。它是一个集成到 Nvidia 专用 GPU 中的硬件视频编码器。 NVENC 负责对来自 CPU 的视频流进行编码，而是使用专用的 Nvidia 显卡。NVENC 于 2012 年 3 月与 Nvidia GeForce GTX 600 系列显卡一起推出。它阅读全文

posted @ 2023-06-13 11:24 stardsd 阅读(1360) 评论(0) 推荐(0) 编辑

Beamr's JPEGmini

摘要： JPEGmini is a desktop application for Mac and Windows that reduces the file size of images and videos without compromising their quality. It was devel 阅读全文

posted @ 2023-06-13 10:55 stardsd 阅读(18) 评论(0) 推荐(0) 编辑

NVIDIA Performance Primitives (NPP)

摘要： NVIDIA Performance Primitives GPU 上的图像和信号处理 NVIDIA Performance Primitives (NPP) 库提供 GPU 加速的图像、视频和信号处理函数，其执行速度比仅使用 CPU 的实现快 30 倍。借助超过 5,000 个用于图像和信号处理的阅读全文

posted @ 2023-06-13 10:47 stardsd 阅读(341) 评论(0) 推荐(0) 编辑

2023年6月12日

并行智能（parallel intelligence）

摘要：并行智能是现实与虚拟现实之间的交互。这是一个复杂的概念，已被应用于许多领域，包括智能交通、艺术创作、计算机视觉和智能传感器。并行智能最早由王飞跃于2004年提出，用于构建可用于验证社会政策、经济战略和军事行动的人工系统。论文地址： https://ieeexplore.ieee.org/docu 阅读全文

posted @ 2023-06-12 14:26 stardsd 阅读(101) 评论(0) 推荐(0) 编辑

使用thop和fvcore计算MACs和FLOPs

摘要：一、计算量常使用乘加计算数衡量，英文为multiply-accumulate operations或multiply-add operations，因此常缩写为MACs, MACC或MADD。由于乘加计算的底层是通过浮点运算实现的，因此还可使用浮点运算数来表示计算量。浮点计算数，英文为Float 阅读全文

posted @ 2023-06-12 10:07 stardsd 阅读(1193) 评论(0) 推荐(0) 编辑

2023年6月10日

linux窗口管理工具 screen

摘要： linux窗口管理工具-screen简明教程前言 screen 是一个用于命令行终端切换的自由软件。用户可以通过该软件同时连接多个本地或远程的命令行会话，并在其间自由切换。其操作非常简洁易懂，这里简要记录一下基本的使用方法。背景介绍 GNU Screen是一款由GNU计划开发的用于命令行终端切换阅读全文

posted @ 2023-06-10 16:00 stardsd 阅读(281) 评论(0) 推荐(0) 编辑

Electron 案例

摘要： Electron简介 Electron是干什么的？简单来讲，Electron 使用 JavaScript，HTML 和 CSS，来构建跨平台的桌面应用程序。按照官方的说法：如果你可以建一个网站，你就可以建一个桌面应用程序。和传统的桌面应用相比，使用Electron开发更容易上手，开发效率更高。阅读全文

posted @ 2023-06-10 14:02 stardsd 阅读(113) 评论(0) 推荐(0) 编辑

2023年6月5日

正则化（regularization）和归一化（normalization）

摘要：正则化：批量归一化和dropout 批量归一化和dropout作为正则化器来克服深度学习模型中的过度拟合问题。来源您遇到过导致过拟合的大型数据集吗？过度拟合的原因之一是网络中的权重很大。具有较大网络权重的网络可能是网络不稳定的标志，其中输入的微小变化可能导致输出发生较大变化。这个问题的解决方案阅读全文

posted @ 2023-06-05 16:12 stardsd 阅读(104) 评论(0) 推荐(0) 编辑

Pytorch中张量的连续性：contiguous

摘要：根据PyTorch文档¹，`t.contiguous()`返回一个包含与`t`张量相同数据的连续张量。如果`t`张量已经是连续的，这个函数返回`t`张量本身。一个张量是连续的，如果张量中的相邻元素在内存中实际上是相邻的³。有些对张量的操作，例如`transpose()`，`permute()`，` 阅读全文

posted @ 2023-06-05 11:45 stardsd 阅读(367) 评论(0) 推荐(0) 编辑

2023年6月2日

NVIDIA Collective Communications Library (NCCL)

摘要：一、简介 NVIDIA Collective Communications Library (NCCL) 是一个多 GPU 和多节点通信原语库，具有拓扑感知能力，可以轻松集成到应用程序中。集体通信算法采用许多协同工作的处理器来聚合数据。 NCCL 不是成熟的并行编程框架；相反，它是一个专注于加速阅读全文

posted @ 2023-06-02 11:51 stardsd 阅读(936) 评论(0) 推荐(0) 编辑

Pytorch 分布式训练

摘要： Pytorch DDP分布式训练介绍近期一直在用torch的分布式训练，本文调研了目前Pytorch的分布式并行训练常使用DDP模式(Distributed DataParallell )，从基本概念，初始化启动，以及第三方的分布式训练框架展开介绍。最后以一个Bert情感分类给出完整的代码例子：t 阅读全文

posted @ 2023-06-02 11:13 stardsd 阅读(846) 评论(0) 推荐(1) 编辑

Pytorch rendezvous 分布式

摘要：一、rendezvous 简介： PyTorch中的rendezvous后端是一种服务，它帮助分布式训练作业中的进程相互发现并协商角色和等级。它还提供了一个屏障和一个一致的作业成员和状态视图。 rendezvous后端是作为torch.distributed.elastic.rendezvous.R 阅读全文

posted @ 2023-06-02 10:25 stardsd 阅读(728) 评论(0) 推荐(0) 编辑

2023年6月1日

Replicate

摘要： You can use Replicate to run machine learning models in the cloud from your own code, without having to set up any servers. Our community has publishe 阅读全文

posted @ 2023-06-01 11:39 stardsd 阅读(93) 评论(0) 推荐(0) 编辑

边缘检测中的ODS(optimal dataset scale)和OIS(optimal image scale)

摘要： Intro目前在做边缘检测，关于评估方法里面的指标ODS-F/OIS-F理解一直比较模糊，网上搜索相关解析也不太明白，这段时间恰好看了一下文献，加深了一下理解，故写本文分享一下，错误之处还烦请批评指正。 PS.最好的方法是查看CVPR 2017文章Richer Convolutional Featu 阅读全文

posted @ 2023-06-01 10:13 stardsd 阅读(438) 评论(0) 推荐(0) 编辑

2023年5月31日

Intel Media SDK and Intel® oneAPI Video Processing Library (oneVPL)

摘要： The Intel Media Software Development Kit (Intel Media SDK) is a cross-platform application programming interface (API) for developing media applicatio 阅读全文

posted @ 2023-05-31 15:04 stardsd 阅读(205) 评论(0) 推荐(0) 编辑

零样本学习（Zero-shot Learning）

摘要：零样本学习是一种机器学习的问题设置，其中模型可以对从未在训练过程中见过的类别的样本进行分类，使用一些形式的辅助信息来关联已见和未见的类别。例如，一个模型可以根据动物的文本描述来识别动物，即使它从未见过那些动物的图像。实现零样本学习有不同的方法，取决于辅助信息的类型和学习方法。以下是一些例子：一种阅读全文

posted @ 2023-05-31 10:52 stardsd 阅读(488) 评论(0) 推荐(0) 编辑

适定问题（Well-posed problem）与不适定问题（ill posed problem）

摘要： Well-posed problem ＆ Ill-posed problem. 适定问题（Well-posed problem）是指满足下列三个要求的问题: a solution exists：解必须存在；the solution is unique：解必须唯一；the solution’s beh 阅读全文

posted @ 2023-05-31 10:01 stardsd 阅读(394) 评论(0) 推荐(0) 编辑

2023年5月24日

凹度（concavity）和凸包（convex hull）

摘要： Mask concavity：在语义分割问题中，mask凹度是指形状或物体的**凹陷程度**的术语。它的计算方法是从mask凸包（convex hull）的**面积**中减去mask的**面积**并除以后者。凸包是包含掩码的最小凸形。 ¹² mask凹度的范围可以从 0 到 1，其中 0 表示阅读全文

posted @ 2023-05-24 15:13 stardsd 阅读(257) 评论(0) 推荐(0) 编辑

赏月斋

慎终如始宁静致远

公告

赏月斋

慎终如始 宁静致远

公告

慎终如始宁静致远