CN111651635A - 一种基于自然语言描述的视频检索方法 - Google Patents

一种基于自然语言描述的视频检索方法 Download PDF

Info

Publication number
CN111651635A
CN111651635A CN202010467416.XA CN202010467416A CN111651635A CN 111651635 A CN111651635 A CN 111651635A CN 202010467416 A CN202010467416 A CN 202010467416A CN 111651635 A CN111651635 A CN 111651635A
Authority
CN
China
Prior art keywords
picture
video
word
description
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010467416.XA
Other languages
English (en)
Other versions
CN111651635B (zh
Inventor
王春辉
胡勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Polar Intelligence Technology Co ltd
Original Assignee
Polar Intelligence Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Polar Intelligence Technology Co ltd filed Critical Polar Intelligence Technology Co ltd
Priority to CN202010467416.XA priority Critical patent/CN111651635B/zh
Publication of CN111651635A publication Critical patent/CN111651635A/zh
Application granted granted Critical
Publication of CN111651635B publication Critical patent/CN111651635B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于自然语言描述的视频检索方法。所述方法包括:从输入视频文件中按帧提取图片,将图片设置成固定尺寸,以每个图片的帧序号命名并保存图片;提取每个图片的文本描述,针对每个图片,以视频文件路径、图片的帧序号及对应的文本描述为字段,创建视频描述文件;根据用户输入的查询语句对视频描述文件进行搜索,得到匹配的视频文件中的图片。由于每帧图像的文本描述是在查询之前生成的,所以用户在查询已生成文本描述的视频时能快速得到所要查询的视频和时间定位,提高了视频检索的速度。

Description

一种基于自然语言描述的视频检索方法
技术领域
本发明属于自然语言理解技术领域,具体涉及一种基于自然语言描述的视频检索方法。
背景技术
视频检索定位是一个复杂并具有挑战性的问题,在视频中响应文本查询的特定时刻的定位与许多视觉任务有关,这些任务包括视频检索、时间动作定位以及视频描述和问题解答。
视频检索,是给定一组视频候选者和一种语言查询的任务,利用视频检索算法检索与查询匹配的视频。有一种检索模型,将视频中的视觉概念与通过解析句子描述而生成的语义图进行匹配;通过为给定视频的每个句子和一组具有时间顺序的句子分配时间间隔,来解决视频文本对齐问题。最近,Hendricks等人提出了一种联合视频语言模型,用于基于纹理查询来检索视频中的时刻。但是,这些模型只能验证包含相应力矩的线段,返回结果中存在许多背景噪声。尽管可以密集采样不同比例的视频时刻,并利用这些模型来检索相应的视频时刻,但不仅计算量大,而且随着搜索空间的增加,匹配任务也更具挑战性。
关于时间定位,Gaidon等人提出了在未修剪的视频中临时定位动作的问题,重点关注有限的动作。模型3DConvNets提出了一种基于端到端段的3D卷积神经网络(CNN)框架,该框架通过同时捕获时空信息而优于其它基于递归神经网络(RNN)的方法。还有一种新颖的时间单位回归网络模型,该模型可以联合预测动作建议并通过时间坐标回归细化时间边界。由于这些方法仅限于预先定义的动作列表,因此,有学者建议使用自然语言查询来本地化活动。他们利用了当前输入周围的所有上下文时刻,而没有明确考虑输入查询的语义信息。
关于视频问答任务,注意力机制在神经机器翻译、视频字幕和视频问答中取得令人印象深刻的结果。用于视频字幕的视觉注意模型在每个时间步都利用视频帧,而无需明确考虑预测词的语义属性。这是不必要的,甚至是误导的。为了解决这个问题,有人利用分层的长短期记忆(LSTM)网络,该网络具有用于视频字幕的调整后的时间注意模型。后来,对注意力模型进行扩展,使其不仅选择性地参与特定时间或空间区域,而且选择性地参与输入的特定形式,例如图像特征、运动特征和音频特征。最近,一种多模态注意力LSTM网络发展较快,该网络充分利用了多模态流和时间注意力以在句子生成过程中选择性地关注特定元素。
现有视频检索定位的方法,都在一定程度上合并了上文提到的在其它任务中的方法,以提高模型效果。但它们是端到端模式,对于一个新的查询或者新的视频都需要从头开始运行模型,运行时间长,不能快速定位,降低了用户的使用兴趣。
发明内容
为了解决现有技术中存在的上述问题,本发明提出一种基于自然语言描述的视频检索方法。
为实现上述目的,本发明采用如下技术方案:
一种基于自然语言描述的视频检索方法,包括以下步骤:
步骤1,从输入视频文件中按帧提取图片,将图片设置成固定尺寸,以每个图片的帧序号命名并保存图片;
步骤2,提取每个图片的文本描述,每个图片用一句话描述,针对每个图片,以视频文件路径、图片的帧序号及对应的文本描述为字段,创建视频描述文件;
步骤3,根据用户输入的查询语句对视频描述文件进行搜索,得到匹配的文本描述对应的视频文件中的图片。
与现有技术相比,本发明具有以下有益效果:
本发明通过从输入视频文件中按帧提取图片,提取每个图片的文本描述,针对每个图片以视频文件路径、图片的帧序号及对应的文本描述为字段,创建视频描述文件,根据用户输入的查询语句对视频描述文件进行搜索,得到匹配的文本描述对应的视频文件中的图片,实现了基于自然语言描述的视频检索。由于每帧图像的描述是在查询之前生成的,所以用户在查询已生成文本描述的视频时能较快地得到所要查询的视频和时间定位,提高了视频检索的速度。
附图说明
图1为本发明实施例一种基于自然语言描述的视频检索方法的流程图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
本发明实施例一种基于自然语言描述的视频检索方法,包括以下步骤:
S101、从输入视频文件中按帧提取图片,将图片设置成固定尺寸,以每个图片的帧序号命名并保存图片;
S102、提取每个图片的文本描述,每个图片用一句话描述,针对每个图片,以视频文件路径、图片的帧序号及对应的文本描述为字段,创建视频描述文件;
S103、根据用户输入的查询语句对视频描述文件进行搜索,得到匹配的文本描述对应的视频文件中的图片。
在本实施例中,步骤S101主要用于按帧提取视频图像,即以视频文件作为输入得到一系列的图片。可利用python模型的FFmpeg模块按视频帧数取帧,将提取出来的图片处理成相同尺寸,如720×480(像素点×像素点)。以每个图片图片的帧序号命名并保存图片。图片的帧序号即按帧提取图片时的先后顺序号,例如,第一个提取的图片的帧序号为1。
在本实施例中,步骤S102主要用于获取图片的文本描述。可利用DenseCap模型从图片中提取文本描述。文本描述包括全局描述和局部描述,为了提高查询速度,只取模型生成的全局描述,即一张图片对应一句文本描述。DenseCap模型由三部分组成:卷积网络(Convolutional Network)、全卷积定位层(Fully Convolutional Localization Layer)和RNN语言模型。DenseCap模型能将图片中的局部细节用自然语言描述出来。该模型可以说是目标检测和普通图片描述的一种结合,即当描述的对象是一个单词的时候,就可以看作是目标检测;当描述的对象是整幅图片的时候,就成了图片描述生成。本实施例的描述对象都是整幅图片。文本描述生成后,将视频路径、图片的帧序号和图片描述文字组合起来,最后生成以视频帧为单位的视频描述文件。
在本实施例中,步骤S103主要用于根据查询语句对视频描述文件进行搜索获取相应的视频文件及图片。可利用python中的whoosh库搭建搜索框架,该框架基于全文检索方法进行搜索。全文检索包含索引创建和索引搜索两个过程,先建立索引,然后对索引进行搜索,得到与查询语句匹配的文本描述。所述文本描述对应的图片就是所要查询的图片。
作为一种可选实施例,所述步骤S102提取图片的文本描述的方法包括:
S1021、利用DenseCap模型的卷积网络提取每个图片的特征图谱;
S1022、确定候选区域并提取候选区域内的特征向量:首先,将所述特征图谱输入全卷积网络,以特征图谱中的每个像素点为锚点,将其反向映射到原始图像中,然后,基于所述锚点画出不同宽高比和不同大小的锚箱即初始边框,定位层通过回归模型预测初始边框的置信分数和位置信息;采用非极大抑制方式滤除与置信分数极高的区域重叠面积超过70%的初始边框后得到候选边框;最后,采用双线性插值法将每个候选边框内的区域提取为固定大小的特征向量,所有特征向量组成一个特征矩阵;
S1023、利用全连接层将所述特征矩阵展开成一个一维列向量;
S1024、将所述一维列向量输入一个RNN网络,得到一个编码x-1,构建一个长度为T+2的单词向量序列x-1,x0,x1,x2,…,xT,x0为开始标志,x1,x2,…,xT,为图片文本描述的词系列编码;将所述向量序列输出到RNN中训练出一个预测模型;将x-1,x0输入预测模型,得到单词向量y0,根据y0预测出第一个单词,然后将第一个单词再作为下一层RNN网络的输入,预测出第二个单词,直到输出的单词是END标志为止,得到图片的文本描述。
本实施例给出了提取图片文本描述的一种技术方案。共包含4个步骤S1021~S1024。
步骤S1021主要用于利用卷积网络提取图片的特征图谱。特征图包含多种类型特征,比如图片的纹理、光线强度、形状等,每一处的数值代表了某个特征强弱值。由于卷积神经网络的特点,随着层数的加深,获取的特征会越抽象并包含更多的语义信息。DenseCap模型的卷积网络采用了基于VGG-16的网络结构,包含13层卷积核为3×3的卷积层和4层池化核为2×2的最大池化层。对于大小为3×720×480(三维矩阵,三维指红、绿、蓝三个色通道)的图片,经过卷积网络后,输出结果是512×45×30的特征图谱。所述特征图谱是下一层全卷积定位层FCL的输入。
步骤S1022主要用于确定候选区域并提取候选区域内的特征向量。该步骤主要由全卷积网络完成。全卷积定位层是整个模型的核心部分,与Faster R-Cnn类似,用于生成识别图片内物体边框。它的输入是来自卷积网络的特征图谱,输出是定长的多个(如300个)候选区域的特征向量,每个特征向量包含候选区域坐标、置信分数和候选区域特征三个数据。置信分数越大说明越接近真实区域。全卷积定位层的处理过程包括四个步骤:第一步是卷积锚点。首先以来自卷积网络尺寸为C×W’×H’的特征图谱中的每一个像素点作为一个锚点,将该点反向映射到原始图像中,然后基于该锚点画出不同宽高比和大小不同的锚箱,组合出来的锚箱数目为k(如k=12),对于每个锚箱,FCL中的定位层会通过回归模型来预测相应的置信分数和位置信息。具体的计算过程是将特征图片作为输入,经过一个卷积核为3×3的卷积层,然后再经过一个卷积核为1×1的卷积层,卷积核数目为5k,所以这一层的最终输出的是5k×W’×H’的三维数组,包含了所有锚点对应的置信分数和位置信息。第二步进行边框回归。这是对初始边框的一次精修。由于上一步得到的边框与真实区域可能并不特别匹配,在真实区域的监督下利用线性回归得到边框的四个位移值,这四个位移值主要是用来更新候选区域中点坐标的横纵坐标值和候选边框的长与宽。第三步是采样,由于通过前两步得到的候选边框过多,为了降低运行成本,需要对候选边框进行采样,通过非极大抑制的方式选取300个候选边框,其中非极大抑制方法是去掉与具有极高置信分数区域重叠面积超过70%的候选边框,从而减少了重叠区域的输出,更加精细化的地定位目标位置。第四步是进行双线性插值。经采样后得到的各个候选区域是具有不同大小和宽高比的矩形框即候选区域,为了与后续的全连接层即识别网络和RNN语言模型建立连接,模型利用双线性插值法将候选区域提取为固定大小的特征向量,将所有候选区域的特征向量组合成特征矩阵。
步骤S1023主要用于将上一步得到的特征矩阵展开成一个一维列向量,然后将所有正样本一维列向量组合成一个矩阵。该步骤主要由一个全连接的神经网络完成。它将每个候选区域的特征拉展平成一个一维列向量,令其经过两层全连接层,每次都使用ReLU激活函数和Dropout优化原则。最后,每一个候选区域都生成一个长度为D=4096的一维向量。将所有一维向量存储起来,形成一个300×4096的矩阵,将该矩阵传送到下一步的RNN语言模型中。另外,还可以对候选区域的置信分数和位置信息进行二次精修,从而生成每个候选区域最终的置信分数和位置信息。这一次的精修与之前的边界回归基本是一样的,只不过是针对这个长度的向量又进行了一次边界回归而已。
步骤S1024主要用于输出图片的文本描述。该步骤主要由利RNN网络(又称RNN语言模型)完成,它以上一步得到的一维特征向量作为输入,输出基于描述图片内容的自然语言序列。
DenseCap模型的关键点是FCLN结构并利用双线性插值使得定位层可导,从而可以支持从图片区域到自然语言描述之间的端到端训练。实验结果表明,本实施例的网络结构相较于以前的网络结构,不论是在生成的图片描述的质量上,还是在生成速度上,都有一定的提升。鉴于Densecap的优点,本实施例使用了Densecap预训练好了的模型,以图片的文本描述为输出,并构建以视频路径、图片的帧序号、图片的文本描述为字段的文件。由于Densecap是介于物体识别和普通描述之间,所以最后产生的图片描述相比普通的描述生成模型有更多局部区域的信息,提高了视频检索定位的准确性。
作为一种可选实施例,所述步骤S103具体包括:
S1031、读取视频描述文件,将视频描述文件中图片的文本描述输入分词组件,去掉标点符号和停用词、进行分词处理得到词元;将词元输入语言处理组件,将词元变成小写转换成词根形式,所述词根即为索引;
S1032、对用户输入的查询语句进行词法分析,识别单词和关键词;进行语法分析,根据查询语句的语法规则构建语法树;进行语言处理,对查询语句进行加工;搜索索引得到符合语法树的文档即图片的文本描述;
S1033、将得到的每个文档和查询语句均看作是一个词序列,按下式计算每个词的权重:
w=TF×loge(n/d) (1)
式中,w为权重,TF为词在文档中出现的次数,d为包含所述词的文档的数量,n为文档总数;
将每个文档和查询语句中的每个词用其权重替换,得到每个文档和查询语句的向量表示,计算每个文档的向量与查询语句向量的余弦相似度,余弦相似度最大的文档对应的图片即为所要查询的图片。
本实施例给出了从视频描述文件中搜索与查询语句匹配的图片的一种技术方案。共包含3个步骤S1031~S1033。
步骤S1031主要用于创建索引。创建索引是将视频描述文件中的文本描述进行语言处理从而用词元创建索引的过程。主要由分词组件和语言处理组件实现。分词组件去掉文本描述中的标点符号、停用词(无实际意义的词,如a、an等),进行分词处理得到词元。例如,文本“I am driving a car on the road”经分词组件后得到词元“I”、“driving”、“car”、“road”。语言处理组件进一步将词元变成小写转换成词根形式,所述词根即为创建的索引。上面例子得到的索引为“i”、“driving”、“car”、“road”。
步骤S1032主要用于搜索索引。首先对查询语句进行词法分析,即识别单词和关键词;然后对查询语句进行语法分析,即根据查询语句的语法规则构建语法树;还要进行语言处理,即对原始查询语句的进一步加工。最后搜索上一步建立的索引,得到符合语法树的文档,也就是图片的文本描述。
步骤S1033主要用于从上一步得到的文档中筛选出与查询语句最匹配的文档,即图片的文本描述,从而得到所要查询的视频文件及图片。首先按照公式(1)计算每个文档及查询语句中每个词的权重;然后用每个词的权重替换每个词,得到每个文档及查询语句用权重表示的向量;计算每个文档向量与查询语句向量的余弦相似度,余弦相似度最大的文档即为所要查询图片的文本描述。有了图片的文本描述也就有了图片所在的视频文件名和图片的号码。
上述仅对本发明中的几种具体实施例加以说明,但并不能作为本发明的保护范围,凡是依据本发明中的设计精神所做出的等效变化或修饰或等比例放大或缩小等,均应认为落入本发明的保护范围。

Claims (3)

1.一种基于自然语言描述的视频检索方法,其特征在于,包括以下步骤:
步骤1,从输入视频文件中按帧提取图片,将图片设置成固定尺寸,以每个图片的帧序号命名并保存图片;
步骤2,提取每个图片的文本描述,每个图片用一句话描述,针对每个图片,以视频文件路径、图片的帧序号及图片的文本描述为字段,创建视频描述文件;
步骤3,根据用户输入的查询语句对视频描述文件进行搜索,得到匹配的文本描述对应的视频文件中的图片。
2.根据权利要求1所述的基于自然语言描述的视频检索方法,其特征在于,所述步骤2提取图片的文本描述的方法包括:
步骤2.1,利用DenseCap模型的卷积网络提取每个图片的特征图谱;
步骤2.2,确定候选区域并提取候选区域内的特征向量:首先,将所述特征图谱输入全卷积网络,以特征图谱中的每个像素点为锚点,将其反向映射到原始图像中,然后,基于所述锚点画出不同宽高比和不同大小的锚箱即初始边框,定位层通过回归模型预测初始边框的置信分数和位置信息;采用非极大抑制方式滤除与置信分数极高的区域重叠面积超过70%的初始边框后得到候选边框;最后,采用双线性插值法将每个候选边框内的区域提取为固定大小的特征向量,所有特征向量组成一个特征矩阵;
步骤2.3,利用一个全连接层将每个图片的特征矩阵展开成一个一维列向量;
步骤2.4,将所述一维列向量输入一个RNN网络,得到一个编码x-1,构建一个长度为T+2的单词向量序列x-1,x0,x1,x2,…,xT,x0为开始标志,x1,x2,…,xT,为图片文本描述的词系列编码;将所述向量序列输出到RNN中训练出一个预测模型;将x-1,x0输入预测模型,得到单词向量y0,根据y0预测出第一个单词,然后将第一个单词再作为下一层RNN网络的输入,预测出第二个单词,直到输出的单词是END标志为止,得到图片的文本描述。
3.根据权利要求1所述的基于自然语言描述的视频检索方法,其特征在于,所述步骤3具体包括:
步骤3.1,读取视频描述文件,将视频描述文件中图片的文本描述输入分词组件,去掉标点符号和停用词、进行分词处理得到词元;将词元输入语言处理组件,将词元变成小写转换成词根形式,所述词根即为索引;
步骤3.2,对用户输入的查询语句进行词法分析,识别单词和关键词;进行语法分析,根据查询语句的语法规则构建语法树;进行语言处理,对查询语句进行加工;搜索索引得到符合语法树的文档即图片的文本描述;
步骤3.3,将得到的每个文档和查询语句均看作是一个词序列,按下式计算每个词的权重:
w=TF×loge(n/d) (1)
式中,w为权重,TF为词在文档中出现的次数,d为包含所述词的文档的数量,n为文档总数;
将每个文档和查询语句中的每个词用其权重替换,得到每个文档和查询语句的向量表示,计算每个文档的向量与查询语句向量的余弦相似度,余弦相似度最大的文档对应的图片即为所要查询的图片。
CN202010467416.XA 2020-05-28 2020-05-28 一种基于自然语言描述的视频检索方法 Active CN111651635B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010467416.XA CN111651635B (zh) 2020-05-28 2020-05-28 一种基于自然语言描述的视频检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010467416.XA CN111651635B (zh) 2020-05-28 2020-05-28 一种基于自然语言描述的视频检索方法

Publications (2)

Publication Number Publication Date
CN111651635A true CN111651635A (zh) 2020-09-11
CN111651635B CN111651635B (zh) 2023-04-28

Family

ID=72346989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010467416.XA Active CN111651635B (zh) 2020-05-28 2020-05-28 一种基于自然语言描述的视频检索方法

Country Status (1)

Country Link
CN (1) CN111651635B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112925949A (zh) * 2021-02-24 2021-06-08 超参数科技(深圳)有限公司 视频帧数据采样方法、装置、计算机设备和存储介质
CN113468371A (zh) * 2021-07-12 2021-10-01 公安部第三研究所 实现自然语句图像检索的方法、系统、装置、处理器及其计算机可读存储介质
CN113963304A (zh) * 2021-12-20 2022-01-21 山东建筑大学 基于时序-空间图的跨模态视频时序动作定位方法及系统
CN115495615A (zh) * 2022-11-15 2022-12-20 浪潮电子信息产业股份有限公司 视频与文本的互检方法、装置、设备、存储介质及终端

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102207966A (zh) * 2011-06-01 2011-10-05 华南理工大学 基于对象标签的视频内容快速检索方法
KR20160055511A (ko) * 2014-11-10 2016-05-18 주식회사 케이티 리듬을 이용하여 동영상을 검색하는 장치, 방법 및 시스템
US9361523B1 (en) * 2010-07-21 2016-06-07 Hrl Laboratories, Llc Video content-based retrieval
CN105843930A (zh) * 2016-03-29 2016-08-10 乐视控股(北京)有限公司 一种检索视频的方法及装置
KR20160099289A (ko) * 2015-02-12 2016-08-22 대전대학교 산학협력단 영상의 전역 특징과 이동객체의 지역 특징을 융합한 동영상 검색 방법 및 그 시스템
CN106708929A (zh) * 2016-11-18 2017-05-24 广州视源电子科技股份有限公司 视频节目的搜索方法和装置
CN107229737A (zh) * 2017-06-14 2017-10-03 广东小天才科技有限公司 一种视频搜索的方法及电子设备
US20170357720A1 (en) * 2016-06-10 2017-12-14 Disney Enterprises, Inc. Joint heterogeneous language-vision embeddings for video tagging and search
CN108345679A (zh) * 2018-02-26 2018-07-31 科大讯飞股份有限公司 一种音视频检索方法、装置、设备及可读存储介质
CN109145763A (zh) * 2018-07-27 2019-01-04 天津大学 基于自然语言描述的视频监控行人搜索图像文本融合方法
CN109840287A (zh) * 2019-01-31 2019-06-04 中科人工智能创新技术研究院(青岛)有限公司 一种基于神经网络的跨模态信息检索方法和装置
CN110598048A (zh) * 2018-05-25 2019-12-20 北京中科寒武纪科技有限公司 视频检索方法及视频检索映射关系生成方法、装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9361523B1 (en) * 2010-07-21 2016-06-07 Hrl Laboratories, Llc Video content-based retrieval
CN102207966A (zh) * 2011-06-01 2011-10-05 华南理工大学 基于对象标签的视频内容快速检索方法
KR20160055511A (ko) * 2014-11-10 2016-05-18 주식회사 케이티 리듬을 이용하여 동영상을 검색하는 장치, 방법 및 시스템
KR20160099289A (ko) * 2015-02-12 2016-08-22 대전대학교 산학협력단 영상의 전역 특징과 이동객체의 지역 특징을 융합한 동영상 검색 방법 및 그 시스템
CN105843930A (zh) * 2016-03-29 2016-08-10 乐视控股(北京)有限公司 一种检索视频的方法及装置
US20170357720A1 (en) * 2016-06-10 2017-12-14 Disney Enterprises, Inc. Joint heterogeneous language-vision embeddings for video tagging and search
CN106708929A (zh) * 2016-11-18 2017-05-24 广州视源电子科技股份有限公司 视频节目的搜索方法和装置
CN107229737A (zh) * 2017-06-14 2017-10-03 广东小天才科技有限公司 一种视频搜索的方法及电子设备
CN108345679A (zh) * 2018-02-26 2018-07-31 科大讯飞股份有限公司 一种音视频检索方法、装置、设备及可读存储介质
CN110598048A (zh) * 2018-05-25 2019-12-20 北京中科寒武纪科技有限公司 视频检索方法及视频检索映射关系生成方法、装置
CN109145763A (zh) * 2018-07-27 2019-01-04 天津大学 基于自然语言描述的视频监控行人搜索图像文本融合方法
CN109840287A (zh) * 2019-01-31 2019-06-04 中科人工智能创新技术研究院(青岛)有限公司 一种基于神经网络的跨模态信息检索方法和装置

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
LUCA ROSSETTO 等: "Multimodal Video Retrieval with the 2017 IMOTION System" *
VRUSHALI A. WANKHEDE: "Content-based image retrieval from videos using CBIR and ABIR algorithm", 《IEEE》 *
朱爱红等: "基于内容的视频检索关键技术研究", 《情报杂志》 *
胡志军;徐勇;: "基于内容的视频检索综述" *
胡志军等: "基于内容的视频检索综述", 《计算机科学》 *
闫君飞;王嵩;李俊;吴刚;闫清泉;: "一种应用于视频点播系统的视频检索方法" *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112925949A (zh) * 2021-02-24 2021-06-08 超参数科技(深圳)有限公司 视频帧数据采样方法、装置、计算机设备和存储介质
CN112925949B (zh) * 2021-02-24 2024-06-11 超参数科技(深圳)有限公司 视频帧数据采样方法、装置、计算机设备和存储介质
CN113468371A (zh) * 2021-07-12 2021-10-01 公安部第三研究所 实现自然语句图像检索的方法、系统、装置、处理器及其计算机可读存储介质
CN113963304A (zh) * 2021-12-20 2022-01-21 山东建筑大学 基于时序-空间图的跨模态视频时序动作定位方法及系统
CN113963304B (zh) * 2021-12-20 2022-06-28 山东建筑大学 基于时序-空间图的跨模态视频时序动作定位方法及系统
CN115495615A (zh) * 2022-11-15 2022-12-20 浪潮电子信息产业股份有限公司 视频与文本的互检方法、装置、设备、存储介质及终端
CN115495615B (zh) * 2022-11-15 2023-02-28 浪潮电子信息产业股份有限公司 视频与文本的互检方法、装置、设备、存储介质及终端

Also Published As

Publication number Publication date
CN111651635B (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
CN111581510B (zh) 分享内容处理方法、装置、计算机设备和存储介质
CN110866140B (zh) 图像特征提取模型训练方法、图像搜索方法及计算机设备
Karpathy et al. Deep visual-semantic alignments for generating image descriptions
CN109815364B (zh) 一种海量视频特征提取、存储和检索方法及系统
CN111651635B (zh) 一种基于自然语言描述的视频检索方法
CN102549603B (zh) 基于相关性的图像选择
CN110704601A (zh) 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
CN110851641B (zh) 跨模态检索方法、装置和可读存储介质
CN114342353A (zh) 用于视频分割的方法和系统
CN114390217B (zh) 视频合成方法、装置、计算机设备和存储介质
CN113392265A (zh) 多媒体处理方法、装置及设备
CN108509521A (zh) 一种自动生成文本索引的图像检索方法
Li et al. Adapting clip for phrase localization without further training
CN112085120A (zh) 多媒体数据的处理方法、装置、电子设备及存储介质
CN113449066A (zh) 利用知识图谱来存储文物数据的方法、处理器及存储介质
CN114418032A (zh) 一种基于自协调对比学习的五模态商品预训练方法及检索系统
CN116452798A (zh) 基于掩码可分离注意力机制的伪装目标分割方法及系统
CN115455249A (zh) 双引擎驱动的多模态数据检索方法、设备及系统
EP3096243A1 (en) Methods, systems and apparatus for automatic video query expansion
CN115129908A (zh) 一种模型优化方法、装置、设备、存储介质及程序产品
Saleem et al. Stateful human-centered visual captioning system to aid video surveillance
CN112084788B (zh) 一种影像字幕隐式情感倾向自动标注方法及系统
Choe et al. Semantic video event search for surveillance video
CN111506754B (zh) 图片检索方法、装置、存储介质及处理器
CN115269961A (zh) 内容搜索方法以及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant