CN108921942B

CN108921942B - 对图像进行2d转制3d的方法及装置

Info

Publication number: CN108921942B
Application number: CN201810759545.9A
Authority: CN
Inventors: 赵天奇; 渠源; 巴君; 段盼
Original assignee: Beijing Juli Dimension Technology Co ltd
Current assignee: Beijing Juli Dimension Technology Co ltd
Priority date: 2018-07-11
Filing date: 2018-07-11
Publication date: 2022-08-02
Anticipated expiration: 2038-07-11
Also published as: CN108921942A

Abstract

本发明实施例公开一种对图像进行2D转制3D的方法及装置，能提高图像2D转制3D的效率和效果。方法包括：S1、获取待处理的2D图像，将所述待处理的2D图像输入预先构建且训练好的视差信息提取模型，得到视差信息图像；S2、通过将所述待处理的2D图像结合所述视差信息图像进行立体渲染，对所述待处理的2D图像进行三维重建。

Description

对图像进行2D转制3D的方法及装置

技术领域

本发明实施例涉及三维显示技术领域，具体涉及一种对图像进行2D转制3D的方法及装置。

背景技术

传统的人工2D内容转制3D过程主要包含以下几个步骤：

1、首先需要对图像中对象进行roto处理，将画面中全部对象用线圈进行边缘描绘，从而区分出不同对象区域。该技术需要技术人员经过长时间培训，能够熟练的通过多个线圈描绘画面中对象，对象边缘的准确度，直接影响最终转制后3D内容的质量。

2、获取2D图像对应的视差图像，2D图像中尽管不存在能用人的双眼视差等生理立体视觉识别的深度信息，却存在着不同对象间深度暗示；人工通过图像中内容判断2D图像中物体间的相对位置和相对深度。根据这一特性，可以提取出2D图像中对象的深度信息，再结合原始2D图像，合成出视差图像。因此，准确提取出2D图像中对象的深度信息，才能得到高品质视差图像。然而，不同人对于图像中对象位置和深度的判别无法做到完全相同，导致人工给定的深度信息千差万别，无法得到统一的结果，从而获取的视差图像效果不稳定。

3、将步骤2提取出的视差图像结合背景补图技术实现三维重建。

4、虚拟摄影机渲染成立体图像

综上所述，人工2D转3D内容制作流程复杂，人员培训周期长，3D内容转制成本消耗极高，转制过程完全由人工操作，人工操作的熟练度和对2D画面中对象相对位置关系理解，直接影响着最终三维重建的质量。

另一种低智能3D转制技术，如YouTube上线的2D视频一键转换3D功能，主要采用色彩前后景做区分，而非仿照真实空间结构，错误率极大，而MIT和卡塔尔计算机研究所提出的一种通过从视频足球游戏中提取的数据，进行仅局限于足球画面中的实时3D转制，但由于局限性大，并且立体效果分割不明显。因此，无法解决3D内容短缺的问题，严重阻碍3D频道和3D终端的发展。

发明内容

针对现有技术存在的不足和缺陷，本发明实施例提供一种对图像进行2D转制3D的方法及装置。

一方面，本发明实施例提出一种对图像进行2D转制3D的方法，包括：

S1、获取待处理的2D图像，将所述待处理的2D图像输入预先构建且训练好的视差信息提取模型，得到视差信息图像；

S2、通过将所述待处理的2D图像结合所述视差信息图像进行立体渲染，对所述待处理的2D图像进行三维重建。

另一方面，本发明实施例提出一种对图像进行2D转制3D的装置，包括：

输入单元，用于获取待处理的2D图像，将所述待处理的2D图像输入预先构建且训练好的视差信息提取模型，得到视差信息图像；

重建单元，用于通过将所述待处理的2D图像结合所述视差信息图像进行立体渲染，对所述待处理的2D图像进行三维重建。

第三方面，本发明实施例提供一种电子设备，包括：处理器、存储器、总线及存储在存储器上并可在处理器上运行的计算机程序；

其中，所述处理器，存储器通过所述总线完成相互间的通信；

所述处理器执行所述计算机程序时实现上述方法。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，所述存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述方法。

本发明实施例提供的对图像进行2D转制3D的方法及装置，获取待处理的2D图像，将所述待处理的2D图像输入预先构建且训练好的视差信息提取模型，得到视差信息图像；通过将所述待处理的2D图像结合所述视差信息图像进行立体渲染，对所述待处理的2D图像进行三维重建，相较于现有技术，本方案能够对任意2D内容进行全自动三维重建，且能提高三维重建的效率和效果。

附图说明

图1为本发明对图像进行2D转制3D的方法一实施例的流程示意图；

图2为多级时空神经网络一实施例的结构示意图；

图3为本发明对图像进行2D转制3D的装置一实施例的结构示意图；

图4为本发明实施例提供的一种电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明实施例保护的范围。

参看图1，本实施例公开一种对图像进行2D转制3D的方法，包括：

本实施例中，所述待处理的2D图像可以为单帧2D图像，也可以为连续帧2D图像。

本发明实施例提供的对图像进行2D转制3D的方法，获取待处理的2D图像，将所述待处理的2D图像输入预先构建且训练好的视差信息提取模型，得到视差信息图像；通过将所述待处理的2D图像结合所述视差信息图像进行立体渲染，对所述待处理的2D图像进行三维重建，相较于现有技术，本方案能够对任意2D内容进行全自动三维重建，且能提高三维重建的效率和效果。

在前述方法实施例的基础上，在所述S1之前，还可以包括：

收集样本数据，对所述样本数据进行预处理；

构建多级时空神经网络；

利用预处理后的样本数据对所述多级时空神经网络进行训练，将训练后的多级时空神经网络作为所述视差信息提取模型。

本实施例中，样本数据包含由现有3D图像和视频提取的原始2D图像和2D连续帧图像及其对应的单帧视差图像及连续帧视差图像。将收集到的数据进行随机选取，分别作为训练样本数据和测试样本数据，其中，训练样本数据用于对多级时空神经网络进行训练，测试样本数据用于对训练后的多级时空神经网络进行测试。

在前述方法实施例的基础上，所述样本数据可以包括2D图像；

其中，所述对所述样本数据进行预处理，可以包括：

通过对所述2D图像进行缩放，对缩放后的2D图像提取像素均值，将所述缩放后的2D图像进行减均值操作，将所说2D图像中像素值归一化为统一分布，其中，所述减均值操作中每个像素点所减去的像素值为提取的像素均值。

本实施例中，缩放操作具体可以为将所述2D图像缩放至1280×960分辨率。

在前述方法实施例的基础上，所述多级时空神经网络的构建采用时空方式或多级方式。

在前述方法实施例的基础上，若所述多级时空神经网络的构建采用时空方式，所述样本数据可以包括单帧图像和连续帧图像。

本实施例中，时空方式主要针对多级时空神经网络训练样本数据输入。样本数据中原始2D内容包含单帧图像及连续帧图像，本发明实施例同时利用单帧图像和连续帧图像作为多级时空神经网络训练样本数据，在多级时空神经网络学习单帧图像中空间维度信息的同时，由连续帧图像数据获取时间维度信息。

在前述方法实施例的基础上，若所述多级时空神经网络的构建采用多级方式，所述多级时空神经网络可以包括至少一个残差学习神经网络，将所述至少一个残差学习神经网络分为多个级别，第一级残差学习神经网络的输入为减均值操作后的2D图像，其余各级残差学习神经网络的输入均包含前一级残差学习神经网络的输出结果和所述减均值操作后的2D图像。

本实施例中，多级方式主要针对在网络结果预测能力中，通过初、中、高多个级别粗糙结果作为输入，不断对其进行修正改进，以取得更好效果。其具体结构由多个残差学习神经网络构成，将多个残差学习神经网络分为多个级别，除第一级神经网络输入为原始2D图像和原始2D连续帧图像外，其余各级神经网络输入均包含前一级神经网络输出结果和原始2D输入样本数据。如图2所示，其网络构造如下：

i.一级残差学习神经网络，网络包含依次连接的第一层，若干中间层以及残差层构成。

1)在第一层使用64个7×7×3的卷积核对输入的2D图像RGB通道进行卷积，并对卷积结果进行批规范化，使用修正线性单元Relu对卷积结果进行非线性化；将第一层结果进行平均池化处理。由于第一层可以更好的提取对象的边缘、角点、尖锐或不平滑区域，因此第一层几乎不包含语义信息，在第一层采用池化操作，可以在不破坏原始语义信息的前提下，提升上述特征的空间位置及缩放不变形，降低卷积层输出的特征维度，显著降低网络参数。

2)将非线性池化结果作为第一个中间层的输入样本，在第一个中间层使用64个3×3×64的卷积核对该输入样本进行卷积，并对卷积结果进行批规范化，使用修正线性单元Relu对卷积结果进行非线性化，将规范化结果作为残差模块输入样本，残差模块共包含三层，在残差模块第一层中首先使用1×1×64的卷积核对残差模块的输入样本进行卷积，使用修正线性单元Relu对卷积结果进行非线性化；再将残差模块第一层结果作为残差模块第二层输入样本，残差模块第二层中使用3×3×64的卷积核对该输入样本进行卷积，使用修正线性单元Relu对卷积结果进行非线性化；再将残差模块第二层结果作为残差模块第三层的输入样本，残差模块第三层中，使用1×1×64的卷积核对该输入样本进行卷积，使用修正线性单元Relu对卷积结果进行非线性化；至此，一个残差模块执行完毕，将残差模块第三层的结果作为第二个中间层的输入样本，在第二个中间层使用64个3×3×64的卷积核对该输出样本进行卷积，对卷积结果进行批规范化，并使用修正线性单元Relu对卷积结果进行非线性化，将第二个中间层的结果作为第二个残差模块的输入样本，送入第二个残差模块，以此循环，直至最后一个中间层，共计135层。

ii.二级、三级以及更多级别的网络构成，包含依次连接的拼接层，第一层，若干中间层及残差层构成：

1)在拼接层中，一级深度残差神经网络的结果进行尺寸修正，使其与原始2D图像尺寸相同；再将尺寸修正后的结果与原始2D图像进行拼接，得到尺寸为1280×960×4的图像作为第一层的输入样本。

2)在第一层使用64个7×7×4的卷积核对输入的2D图像RGB通道进行卷积，并对卷积结果进行批规范化，使用修正线性单元Relu对卷积结果进行非线性化；将第一层结果进行平均池化处理。由于第一层可以更好的提取对象的边缘、角点、尖锐或不平滑区域，因此第一层几乎不包含语义信息，在第一层采用池化操作，可以在不破坏原始语义信息的前提下，提升上述特征的空间位置及缩放不变形，降低卷积层输出的特征维度，显著降低网络参数。

3)将非线性池化结果作为第一个中间层的输入样本，在第一个中间层使用64个3×3×64的卷积核对该输入样本进行卷积，并对卷积结果进行批规范化，使用修正线性单元Relu对卷积结果进行非线性化，将规范化结果作为残差模块输入样本，残差模块共包含三层，在残差模块第一层中首先使用1×1×64的卷积核对残差模块的输入样本进行卷积，使用修正线性单元Relu对卷积结果进行非线性化；再将残差模块第一层结果作为残差模块第二层输入样本，残差模块第二层中使用3×3×64的卷积核对该输入样本进行卷积，使用修正线性单元Relu对卷积结果进行非线性化；再将残差模块第二层结果作为残差模块第三层的输入样本，残差模块第三层中，使用1×1×64的卷积核对该输入样本进行卷积，使用修正线性单元Relu对卷积结果进行非线性化；至此，一个残差模块执行完毕，将残差模块第三层的结果作为第二个中间层的输入样本，在第二个中间层使用64个3×3×64的卷积核对该输出样本进行卷积，对卷积结果进行批规范化，并使用修正线性单元Relu对卷积结果进行非线性化，将第二个中间层的结果作为第二个残差模块的输入样本，送入第二个残差模块，以此循环，直至最后一个中间层，其中间层组成共包含189层。

多级时空神经网络的训练过程如下所述：

a)利用预处理后的训练样本对第一级残差学习神经网络参数进行拟合，得到第一级残差学习神经网络模型。第一级残差学习神经网络模型，可以由原始2D图像提取较为粗糙的视差信息图像。将该模型获取的结果和原始2D图像作为第二级残差学习神经网络的输入样本。

b)将预处理后的训练样本输入第二级残差学习神经网络，并用步骤a中第一级残差学习神经网络模型的输出对第二级残差学习神经网络参数进行拟合，得到第二级残差学习神经网络模型。第二级残差学习神经网络模型，可以由原始2D图像及第一级残差学习神经网络模型的结果提取较第一级残差学习神经网络模型更为准确的视差信息图像。将该模型获取的结果，和原始2D图像作为第三级残差学习神经网络的输入样本。

c)将预处理后的训练样本输入第三级残差学习神经网络，并用步骤b中第二级残差学习神经网络模型的输出对第三级残差学习神经网络参数进行拟合，得到第三级残差学习神经网络模型。第三级残差学习神经网络模型，可以由原始2D图像及第二级残差学习神经网络模型的结果提取到专业人工级别的深度信息图像。

d)循环b、c两步骤，构建更多级别的深度残差学习神经网络。但由于实际应用中，随着网络级别增多，所消耗的资源与时间也随之增加；另外，当网络达到三级时，其结果已经达到人工深度信息提取水平，因此，本发明实施例使用三级深度残差学习网络。

在前述方法实施例的基础上，所述至少一个为三个。

参看图3，本实施例公开一种对图像进行2D转制3D的装置，包括：

输入单元1，用于获取待处理的2D图像，将所述待处理的2D图像输入预先构建且训练好的视差信息提取模型，得到视差信息图像；

重建单元2，用于通过将所述待处理的2D图像结合所述视差信息图像进行立体渲染，对所述待处理的2D图像进行三维重建。

具体地，所述输入单元1获取待处理的2D图像，将所述待处理的2D图像输入预先构建且训练好的视差信息提取模型，得到视差信息图像；所述重建单元2通过将所述待处理的2D图像结合所述视差信息图像进行立体渲染，对所述待处理的2D图像进行三维重建。

本发明实施例提供的对图像进行2D转制3D的装置，获取待处理的2D图像，将所述待处理的2D图像输入预先构建且训练好的视差信息提取模型，得到视差信息图像；通过将所述待处理的2D图像结合所述视差信息图像进行立体渲染，对所述待处理的2D图像进行三维重建，相较于现有技术，本方案能够对任意2D内容进行全自动三维重建，且能提高三维重建的效率和效果。

本实施例的对图像进行2D转制3D的装置，可以用于执行前述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图4示出了本发明实施例提供的一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器11、存储器12、总线13及存储在存储器12上并可在处理器11上运行的计算机程序；

其中，所述处理器11，存储器12通过所述总线13完成相互间的通信；

所述处理器11执行所述计算机程序时实现上述各方法实施例所提供的方法，例如包括：获取待处理的2D图像，将所述待处理的2D图像输入预先构建且训练好的视差信息提取模型，得到视差信息图像；通过将所述待处理的2D图像结合所述视差信息图像进行立体渲染，对所述待处理的2D图像进行三维重建。

本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例所提供的方法，例如包括：获取待处理的2D图像，将所述待处理的2D图像输入预先构建且训练好的视差信息提取模型，得到视差信息图像；通过将所述待处理的2D图像结合所述视差信息图像进行立体渲染，对所述待处理的2D图像进行三维重建。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

本发明的说明书中，说明了大量具体细节。然而能够理解的是，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。类似地，应当理解，为了精简本发明公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释呈反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。本发明并不局限于任何单一的方面，也不局限于任何单一的实施例，也不局限于这些方面和/或实施例的任意组合和/或置换。而且，可以单独使用本发明的每个方面和/或实施例或者与一个或更多其他方面和/或其实施例结合使用。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种对图像进行2D转制3D的方法，其特征在于，包括：

S1、获取待处理的2D图像，将所述待处理的2D图像输入预先构建且训练好的视差信息提取模型，并利用所述视差信息提取模型中的多级时空神经网络基于所述待处理的2D图像进行逐级提取，得到视差信息图像；

所述多级时空神经网络的构建采用时空方式或多级方式；

若所述多级时空神经网络的构建采用多级方式，所述多级时空神经网络包括至少一个残差学习神经网络，将所述至少一个残差学习神经网络分为多个级别，第一级残差学习神经网络的输入为减均值操作后的2D图像，其余各级残差学习神经网络的输入均包含前一级残差学习神经网络的输出结果和所述减均值操作后的2D图像；

2.根据权利要求1所述的方法，其特征在于，在所述S1之前，还包括：

收集样本数据，对所述样本数据进行预处理；

构建多级时空神经网络；

3.根据权利要求2所述的方法，其特征在于，所述样本数据包括2D图像；

其中，所述对所述样本数据进行预处理，包括：

4.根据权利要求 3所述的方法，其特征在于，若所述多级时空神经网络的构建采用时空方式，所述样本数据包括单帧图像和连续帧图像。

5.根据权利要求1所述的方法，其特征在于，所述至少一个为三个。

6.一种对图像进行2D转制3D的装置，其特征在于，包括：

输入单元，用于获取待处理的2D图像，将所述待处理的2D图像输入预先构建且训练好的视差信息提取模型，并利用所述视差信息提取模型中的多级时空神经网络基于所述待处理的2D图像进行逐级提取，得到视差信息图像；

所述多级时空神经网络的构建采用时空方式或多级方式；

7.一种电子设备，其特征在于，包括：处理器、存储器、总线及存储在存储器上并可在处理器上运行的计算机程序；

所述处理器执行所述计算机程序时实现如权利要求1-5中任一项所述的方法。

8.一种非暂态计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，该计算机程序被处理器执行时实现如权利要求1-5中任一项所述的方法。