WO2024176342A1 - 人物検出装置、システム、方法及びプログラムが格納された非一時的なコンピュータ可読媒体 - Google Patents

人物検出装置、システム、方法及びプログラムが格納された非一時的なコンピュータ可読媒体 Download PDF

Info

Publication number
WO2024176342A1
WO2024176342A1 PCT/JP2023/006201 JP2023006201W WO2024176342A1 WO 2024176342 A1 WO2024176342 A1 WO 2024176342A1 JP 2023006201 W JP2023006201 W JP 2023006201W WO 2024176342 A1 WO2024176342 A1 WO 2024176342A1
Authority
WO
WIPO (PCT)
Prior art keywords
person
detection
detected
aspect ratio
area
Prior art date
Application number
PCT/JP2023/006201
Other languages
English (en)
French (fr)
Inventor
雅人 左貝
浩介 遠野
大介 森
久弘 大場
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2023/006201 priority Critical patent/WO2024176342A1/ja
Publication of WO2024176342A1 publication Critical patent/WO2024176342A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding

Definitions

  • the present disclosure relates to a person detection device, a system, a method, and a non-transitory computer-readable medium on which a program is stored.
  • Patent document 1 discloses a technology that determines whether an object captured in an image is a person or not.
  • the present disclosure has been made to solve these problems, and aims to provide a person detection device, system, method, and non-transitory computer-readable medium that stores a program that can detect people with high accuracy.
  • the human detection device comprises: An acquisition unit that acquires the captured image; a detection unit that detects a person from a frame constituting the video based on a predetermined person detection score threshold; an adjustment unit that adjusts a threshold value of the human detection score in accordance with an aspect ratio of an area in which a person is detected when a person is detected from the frame; Equipped with.
  • the human detection system comprises: A camera that captures images of the surroundings; a human detection device capable of communicating with the photographing device,
  • the human detection device includes: an acquisition unit that acquires an image captured by the imaging device; a detection unit that detects a person from a frame constituting the video based on a predetermined person detection score threshold; an adjustment unit that adjusts a threshold value of the human detection score in accordance with an aspect ratio of an area in which a person is detected when a person is detected from the frame; Equipped with.
  • the person detection method includes: The computer acquiring the captured image; detecting people from frames constituting the video based on a predetermined people detection score threshold; When a person is detected from the frame, adjusting a threshold value of the person detection score according to an aspect ratio of an area in which the person is detected; Equipped with.
  • the present disclosure relates to a non-transitory computer readable medium, comprising: On the computer, A process of acquiring the captured image; detecting a person from frames constituting the video based on a predetermined person detection score threshold; When a person is detected from the frame, a threshold value of the person detection score is adjusted according to an aspect ratio of an area in which the person is detected; A person detection program that executes the above is stored.
  • the present disclosure provides a person detection device, system, method, and non-transitory computer-readable medium that stores a program that can accurately detect people.
  • FIG. 1 is a block diagram showing a configuration of a human detection device according to a first embodiment. 4 is a flowchart showing the flow of a human detection method according to the first embodiment.
  • FIG. 11 is a block diagram showing a configuration of a human detection system according to a second embodiment.
  • FIG. 11 is a block diagram showing a configuration of a human detection device according to a second embodiment.
  • FIG. 13 is a diagram showing an example of a frame in which a person is detected.
  • 10 is a flowchart showing the flow of a human detection method according to a second embodiment.
  • FIG. 11 is a block diagram showing a configuration of a human detection device according to a third embodiment.
  • 10 is a flowchart showing the flow of a human detection method according to a third embodiment.
  • ⁇ Embodiment 1> 1 is a block diagram showing a configuration of a human detection device 100 according to a first embodiment.
  • the human detection device 100 includes an acquisition unit 110, a detection unit 120, and an adjustment unit 130.
  • the human detection device 100 is connected to a network 500 (not shown), which may be wired or wireless.
  • An image capture device 300 (not shown) and the like are connected to the network 500.
  • the image capture device 300 is installed in a vehicle 310 (not shown), and is a device that captures images of the surroundings of the vehicle.
  • the image captured by the image capture device 300 is usually a moving image, and includes a plurality of frames.
  • the acquisition unit 110 acquires a video image captured by the imaging device 300 installed in the vehicle 310.
  • the video image includes at least one frame, and usually includes multiple frames.
  • the detection unit 120 detects a person from the frames that make up the video image acquired by the acquisition unit 110 based on a predetermined human detection score threshold.
  • the human detection score is a numerical value calculated for each area in the frame.
  • the human detection score is a numerical value higher in an area where a person is likely to be present than in other areas.
  • the method of calculating the human detection score is not particularly limited, and existing technology can be applied.
  • the predetermined human detection score threshold (hereinafter sometimes referred to as the "threshold”) is a numerical value that is set in advance, and is used when detecting a person from the frames that make up the video image.
  • the threshold may be set to a different value depending on the area in the frame. If the human detection score in an area in the frame is equal to or lower than the threshold in that area, the detection unit 120 determines that
  • the adjustment unit 130 adjusts the threshold value of the human detection score according to the aspect ratio of the area in which the person is detected.
  • FIG. 2 is a flowchart showing the flow of the person detection method according to the first embodiment.
  • the acquisition unit 110 acquires a captured image (step S101).
  • the detection unit 120 detects a person from the frames constituting the image based on a predetermined person detection score threshold (step S102). If a person is detected from the frame in step S102, the adjustment unit 130 adjusts the person detection score threshold (step S103). In this way, the person detection method according to this embodiment adjusts the person detection score threshold according to the aspect ratio of the area in which the person is detected, and therefore can detect people with high accuracy.
  • the human detection device 100 includes a processor, a memory, and a storage device, which are not shown in the figure.
  • the storage device stores a computer program that implements the processing of the human detection method according to this embodiment.
  • the processor then loads the computer program from the storage device into the memory and executes the computer program. In this way, the processor realizes the functions of the acquisition unit 110, the detection unit 120, and the adjustment unit 130.
  • the acquisition unit 110, detection unit 120, and adjustment unit 130 may each be realized by dedicated hardware.
  • some or all of the components of each device may be realized by general-purpose or dedicated circuits, processors, etc., or a combination of these. These may be configured by a single chip, or may be configured by multiple chips connected via a bus. Some or all of the components of each device may be realized by a combination of the above-mentioned circuits, etc., and programs.
  • a CPU Central Processing Unit
  • GPU Graphics Processing Unit
  • FPGA Field-Programmable Gate Array
  • the multiple information processing devices, circuits, etc. may be centrally arranged or distributed.
  • the information processing devices, circuits, etc. may be realized as a client-server system, cloud computing system, etc., in a form in which each is connected via a communication network.
  • the functions of the human detection device 100 may be provided in the form of SaaS (Software as a Service).
  • the second embodiment is a specific example of the first embodiment.
  • Fig. 3 is a block diagram showing a configuration of a human detection system 200 according to the second embodiment.
  • the human detection system 200 includes a photographing device 300 and a human detection device 400.
  • the photographing device 300 is connected to the human detection device 400 via a network 500. Note that descriptions that overlap with the first embodiment will be omitted as appropriate.
  • the person detection system 200 is a system for detecting a person from an image captured by a vehicle 310.
  • the vehicle 310 is, for example, an automobile, but may be a vehicle other than an automobile, such as a motorcycle or a bicycle.
  • the vehicle 310 is equipped with a photographing device 300.
  • the photographing device 300 is a device that captures the scenery around the vehicle 310, for example, a drive recorder.
  • the photographing device 300 includes a photographing unit 301 and a communication unit 302.
  • the photographing unit 301 is a camera.
  • the photographing unit 301 captures, for example, the scenery in front of the vehicle 310, that is, the scenery that can be seen by a driver seated in the driver's seat of the vehicle 310.
  • the communication unit 302 is a communication interface with the network 500.
  • the communication unit 302 transmits the image captured by the photographing unit 301 to the person detection device 400 via the network 500.
  • FIG. 4 is a block diagram showing the configuration of the human detection device 400.
  • the human detection device 400 includes a memory 410, a communication unit 420, a storage unit 430, and a control unit 440.
  • the memory 410 is a storage area that temporarily stores the processing contents of the control unit 440, and is, for example, a volatile storage device such as a RAM (Random Access Memory).
  • the communication unit 420 is an interface that communicates with the outside of the human detection device 400.
  • the storage unit 430 is a storage device that stores a threshold value 431, a program 432, and the like.
  • the threshold value 431 is a numerical value used when detecting a person based on the human detection score, and a different value may be set depending on the area within the frame.
  • the program 432 is a computer program in which the human detection process according to this embodiment is implemented.
  • the control unit 440 includes an acquisition unit 441, a detection unit 442, and an adjustment unit 443.
  • the control unit 440 is a control device that controls the operation of the human detection device 400, and is, for example, a processor such as a CPU.
  • the control unit 440 loads the program 432 from the storage unit 430 into the memory 410 and executes it. In this way, the control unit 440 realizes the functions of the acquisition unit 441, the detection unit 442, the adjustment unit 443, and the determination unit 444.
  • the acquisition unit 441 acquires the video transmitted from the image capture device 300.
  • the video usually contains multiple frames.
  • the video may also contain identification information, etc.
  • the identification information is information for identifying the vehicle 310 in which the image capture device 300 that captured the video is installed.
  • the detection unit 442 detects people from the video acquired by the acquisition unit 441. Specifically, the detection unit 442 calculates a person detection score for each frame constituting the video acquired by the acquisition unit 441. Next, the detection unit 442 determines whether the person detection score is equal to or less than the threshold 431. The detection unit 442 calculates and determines the person detection score for each of the multiple frames.
  • the threshold 431 is a preset numerical value used when detecting people based on the person detection score, and different values may be set depending on the area within the frame. The detection unit 442 determines that a person is included in a location within the frame where the person detection score is equal to or greater than the threshold.
  • FIG. 5 is a diagram showing an example of a frame in which a person has been detected.
  • Frame 10 shown in FIG. 5 is a frame constituting an image acquired by acquisition unit 441.
  • the person detection score in the vicinity of person 20 is calculated to be higher than the person detection score in other areas.
  • detection unit 442 determines that a person appears in area 30.
  • the region 30 is rectangular as shown in FIG. 5.
  • the direction perpendicular to the ground in the frame is the vertical direction
  • the direction parallel to the ground is the horizontal direction.
  • the side of the region 30 extending vertically is the vertical side 30a
  • the side extending horizontally is the horizontal side 30b.
  • the determination unit 444 calculates the aspect ratio by dividing the length of the vertical side 30a by the length of the horizontal side 30b, and determines that human detection has been successful if the aspect ratio is within a predetermined range.
  • the predetermined range is 1 or more, preferably 1 to 4, and more preferably 2 to 3.5.
  • the determination unit 444 determines that human detection has been successful if the aspect ratio is 1 or more, that is, if the region 30 is vertically elongated. Also, as shown in FIG. 5, a person is usually detected as an area 30 with an aspect ratio of 1 to 4, and a person who is walking in particular is detected as an area 30 with an aspect ratio of 2 to 3.5. Therefore, if the predetermined range is set to 1 to 4, and more preferably 2 to 3.5, a person can be determined with greater accuracy.
  • the adjustment unit 443 adjusts the threshold of the person detection score. Specifically, when the determination unit 444 determines that the aspect ratio of the area 30 is less than 1, the adjustment unit 443 raises the threshold of the person detection score.
  • the detection unit 442 performs person detection again from the frames constituting the video based on the adjusted threshold. When the threshold of the person detection score is raised, the detection unit 442 compares it with the threshold before the raising and detects a smaller area as an area where a person is likely to be photographed. When an area is detected again by performing the person detection again, the determination unit 444 may calculate the aspect ratio of the area and determine whether the aspect ratio is within a predetermined range.
  • the human detection device 400 determines whether the object included in the area is a person by determining whether the aspect ratio of the area is within a predetermined range. Therefore, the human detection device 400 can detect people with high accuracy. Furthermore, when it is determined that human detection has failed, the human detection device 400 increases the threshold value of the human detection score and detects the person again. Therefore, it is possible to detect people with high accuracy compared to a case in which the threshold value of the human detection score is not adjusted.
  • FIG. 6 is a flowchart showing the flow of the human detection process.
  • a case where a video includes multiple frames will be described.
  • the acquisition unit 441 acquires an image from the imaging device 300 (step S201).
  • the detection unit 442 detects a person based on the threshold value 431 set in advance for each frame constituting the image acquired in step S201 (step S202). If a person is not detected in any of the multiple frames constituting the image (step S202 No), the person detection ends. If a person is detected in any frame (step S202 Yes), the determination unit 444 calculates the aspect ratio of the area in which the person is detected and determines whether the aspect ratio is within a predetermined range (step S203). If the aspect ratio is within the predetermined range (step S203 Yes), the person detection ends.
  • the adjustment unit 443 raises the threshold value of the person detection score (step S204).
  • the detection unit 442 performs person detection again for each frame constituting the image based on the raised threshold value (step S205). In this way, when it is determined that human detection has failed, the human detection device 400 according to this embodiment increases the threshold value of the human detection score and performs human detection again, thereby enabling accurate detection of humans.
  • the determination unit 444 may calculate the aspect ratio of the area in which the person is detected again, and determine whether or not the aspect ratio is within a predetermined range. Furthermore, if the aspect ratio of the area in which the person is detected again is outside the predetermined range, the adjustment unit 443 may further increase the threshold of the person detection score, and the detection unit 442 may perform person detection again for each frame constituting the video based on the further increased threshold. In this way, by repeatedly detecting people and adjusting the threshold, the human detection device 400 can detect people with greater accuracy.
  • FIG. 7 is a block diagram showing the configuration of the human detection device 600 according to the third embodiment.
  • the human detection device 600 differs from the human detection device 400 shown in FIG. 4 in that it includes a control unit 640 instead of the control unit 440.
  • the control unit 640 includes a processing unit 645 in addition to the components included in the control unit 440. The other components overlap with those of the first or second embodiment, and therefore the description will be omitted as appropriate.
  • the control unit 640 includes an acquisition unit 441, a detection unit 442, an adjustment unit 443, a determination unit 444, and a processing unit 645.
  • the acquisition unit 441 acquires video from the image capture device 300.
  • the detection unit 442 detects people from frames constituting the video acquired by the acquisition unit 441 based on a threshold value of the person detection score.
  • the determination unit 444 calculates the aspect ratio of the detected area 30, and determines that the person detection has been successful if the aspect ratio is within a predetermined range. If the determination unit 444 determines that the person detection has failed, the adjustment unit 443 adjusts the threshold value of the person detection score. If the determination unit 444 determines that the person detection has been successful, the processing unit 645 performs a masking process on the determined area 30, i.e., blurs it.
  • the method of the masking process is not particularly limited, and is processed using existing technology.
  • FIG. 12 is a flowchart showing the flow of the human detection process.
  • the acquisition unit 441 acquires an image from the imaging device 300 (step S301).
  • the detection unit 442 detects a person based on the threshold value 431 set in advance for the frames constituting the image acquired in step S301 (step S302). If a person is not detected from the frames constituting the image (step S302 No), the person detection ends. If a person is detected from the frames constituting the image (step S302 Yes), the determination unit 444 calculates the aspect ratio of the area 30 in which the person is detected and determines whether the aspect ratio is within a predetermined range (step S303). If the aspect ratio of the area 30 is within the predetermined range (step S303 Yes), the processing unit 645 performs a masking process on the area 30 (step S307).
  • step S303 No If the aspect ratio of the area 30 is outside the predetermined range (step S303 No), the adjustment unit 443 increases the threshold value of the person detection score (step S304). Next, the detection unit 442 performs human detection again for the frames that make up the video based on the increased threshold (step S305).
  • the determination unit 444 calculates the aspect ratio for the region detected in step S305 and determines whether the aspect ratio is within a predetermined range (step S306). If the aspect ratio of the region 30 is outside the predetermined range (step S306 No), human detection ends. If the aspect ratio of the region 30 is within the predetermined range (step S306 Yes), the processing unit 645 performs a masking process on the region 30 (step S307).
  • the human detection device 600 determines whether or not a detected object is a human based on the aspect ratio of the area. Therefore, the human detection device 600 can perform masking processing only on areas where it is determined that a human has been successfully detected, without performing masking processing on areas where an object other than a human has been erroneously detected.
  • the configuration has been described as hardware, but the present disclosure is not limited to this. Any process in the present disclosure can also be realized by having a CPU execute a computer program.
  • Non-transitory computer readable medium includes various types of tangible storage medium.
  • Examples of non-transitory computer readable medium include magnetic recording media (e.g., flexible disks, magnetic tapes, hard disk drives), magneto-optical recording media (e.g., magneto-optical disks), CD-ROM (Read Only Memory), CD-R, CD-R/W, DVD (Digital Versatile Disc), and semiconductor memory (e.g., mask ROM, PROM (Programmable ROM), EPROM (Erasable PROM), flash ROM, RAM (Random Access Memory)).
  • magnetic recording media e.g., flexible disks, magnetic tapes, hard disk drives
  • magneto-optical recording media e.g., magneto-optical disks
  • CD-ROM Read Only Memory
  • CD-R Compact Only Memory
  • CD-R/W Compact Disc
  • DVD Digital Versatile Disc
  • semiconductor memory e.g., mask ROM, PROM (Programmable ROM), EPROM (Erasable
  • the program may also be provided to the computer by various types of transitory computer readable medium.
  • Examples of transitory computer readable medium include electrical signals, optical signals, and electromagnetic waves.
  • the temporary computer-readable medium can provide the program to the computer via a wired communication path, such as an electric wire or optical fiber, or via a wireless communication path.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Closed-Circuit Television Systems (AREA)

Abstract

本開示は、人物を精度良く検出可能な人物検出装置を提供することを目的とする。人物検出装置(100)は、映像を取得する取得部(110)と、所定の人物検出スコアの閾値に基づいて前記映像を構成するフレームから人物を検出する検出部(120)と、前記フレームから人物が検出された場合に、前記人物が検出された領域の縦横比に応じて前記人物検出スコアの閾値を調整する調整部(130)と、を備える。人物検出装置(100)は、前記領域の縦横比に応じて前記人物検出スコアの閾値を調整しているため、人物を精度良く検出可能である。

Description

人物検出装置、システム、方法及びプログラムが格納された非一時的なコンピュータ可読媒体
 本開示は、人物検出装置、システム、方法及びプログラムが格納された非一時的なコンピュータ可読媒体に関する。
 車載カメラ等によって車両走行時に撮影された映像に人物等の人物が含まれる場合、個人情報保護の観点から、当該人物にぼかしを入れる必要がある場合がある。映像に含まれる人物にぼかしを入れるために、撮影された映像から人物を精度良く検出することが求められている。
 特許文献1には、映像に写った物体が人物であるか否かを判定する技術が開示されている。
国際公開第2010/073929号
 映像から人物を検出する際に誤検出が発生すると、当該映像内において人物が無い領域すなわちぼかしを入れる必要が無い領域にぼかしが入る虞がある。そのため、映像に含まれる人物の検出精度を向上させることが求められている。
 本開示は、このような問題点を解決するためになされたものであり、人物を精度良く検出可能な人物検出装置、システム、方法及びプログラムが格納された非一時的なコンピュータ可読媒体を提供することを目的とする。
 本開示に係る人物検出装置は、
 撮影された映像を取得する取得部と、
 所定の人物検出スコアの閾値に基づいて前記映像を構成するフレームから人物を検出する検出部と、
 前記フレームから人物が検出された場合に、前記人物が検出された領域の縦横比に応じて前記人物検出スコアの閾値を調整する調整部と、
 を備える。
 本開示に係る人物検出システムは、
 周囲の映像を撮影する撮影装置と、
 前記撮影装置と通信可能な人物検出装置と、を備え、
 前記人物検出装置は、
 前記撮影装置において撮影された映像を取得する取得部と、
 所定の人物検出スコアの閾値に基づいて前記映像を構成するフレームから人物を検出する検出部と、
 前記フレームから人物が検出された場合に、前記人物が検出された領域の縦横比に応じて前記人物検出スコアの閾値を調整する調整部と、
 を備える。
 本開示に係る人物検出方法は、
 コンピュータが、
 撮影された映像を取得する工程と、
 所定の人物検出スコアの閾値に基づいて前記映像を構成するフレームから人物を検出する工程と、
 前記フレームから人物が検出された場合に、前記人物が検出された領域の縦横比に応じて前記人物検出スコアの閾値を調整する工程と、
 を備える。
 本開示に係る非一時的なコンピュータ可読媒体は、
 コンピュータに、
 撮影された映像を取得する処理と、
 所定の人物検出スコアの閾値に基づいて前記映像を構成するフレームから人物を検出する処理と、
 前記フレームから人物が検出された場合に、前記人物が検出された領域の縦横比に応じて前記人物検出スコアの閾値を調整する処理と、
 を実行させる人物検出プログラムが格納される。
 本開示により、人物を精度良く検出可能な人物検出装置、システム、方法及びプログラムが格納された非一時的なコンピュータ可読媒体を提供することができる。
実施形態1に係る人物検出装置の構成を示すブロック図である。 実施形態1に係る人物検出方法の流れを示すフローチャートである。 実施形態2に係る人物検出システムの構成を示すブロック図である。 実施形態2に係る人物検出装置の構成を示すブロック図である。 人物が検出されたフレームの一例を示す図である。 実施形態2に係る人物検出方法の流れを示すフローチャートである。 実施形態3に係る人物検出装置の構成を示すブロック図である。 実施形態3に係る人物検出方法の流れを示すフローチャートである。
 以下では、本開示の実施形態について、図面を参照しながら詳細に説明する。各図面において、同一又は対応する要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略される。
<実施形態1>
 図1は、実施形態1に係る人物検出装置100の構成を示すブロック図である。人物検出装置100は、取得部110、検出部120及び調整部130を備える。人物検出装置100は、図示しないネットワーク500に接続されている、ネットワーク500は、有線であってもよいし、無線であってもよい。ネットワーク500には、図示しない撮影装置300等が接続されている。撮影装置300は、図示しない車両310に設置されており、当該車両の周囲を撮影する装置である。撮影装置300が撮影した映像は、通常動画であり、複数のフレームを含む。
 取得部110は、車両310に設置された撮影装置300において撮影された映像を取得する。尚、映像は、少なくとも1つのフレームを含み、通常複数のフレームを含むものとする。検出部120は、所定の人物検出スコアの閾値に基づいて、取得部110が取得した映像を構成するフレームから人物を検出する。人物検出スコアは、フレーム内の領域ごとに算出される数値である。人物検出スコアは、人物が存在している可能性が高い領域において、他の領域に比較して数値が高くなる。尚、人物検出スコアの算出方法は、特に限定されず、既存の技術を適用可能である。所定の人物検出スコアの閾値(以下、「閾値」と称することがある)は、予め設定された数値であり、映像を構成するフレームから人物を検出する際に使用される。閾値は、フレーム内の領域に応じて異なる値が設定されていてもよい。検出部120は、フレーム内の領域における人物検出スコアが当該領域における閾値以下である場合、当該領域に人物が存在すると判断する。
 人物検出スコアの閾値を下げると、フレームから人物が検出されやすくなる一方、人物以外の物体を誤検出する虞が高くなる。そこで、調整部130は、検出部120が人物を検出した場合に、人物が検出された領域の縦横比に応じて前記人物検出スコアの閾値を調整する。
 図2は、実施形態1に係る人物検出方法の流れを示すフローチャートである。まず、取得部110は、撮影された映像を取得する(ステップS101)。次に、検出部120は、所定の人物検出スコアの閾値に基づいて映像を構成するフレームから人物を検出する(ステップS102)。ステップS102においてフレームから人物が検出された場合、調整部130は、人物検出スコアの閾値を調整する(ステップS103)。このように、本実施形態に係る人物検出方法は、人物が検出された領域の縦横比に応じて人物検出スコアの閾値を調整しているため、人物を精度良く検出することができる。
 尚、人物検出装置100は、図示しない構成としてプロセッサ、メモリ及び記憶装置を備えるものである。また、当該記憶装置には、本実施形態に係る人物検出方法の処理が実装されたコンピュータプログラムが記憶されている。そして、当該プロセッサは、記憶装置からコンピュータプログラムを前記メモリへ読み込ませ、当該コンピュータプログラムを実行する。これにより、前記プロセッサは、取得部110、検出部120及び調整部130としての機能を実現する。
 また、取得部110、検出部120及び調整部130は、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路(circuitry)、プロセッサ等やこれらの組合せによって実現されてもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。また、プロセッサとして、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、FPGA(Field-Programmable Gate Array)等を用いることができる。
 また、人物検出装置100の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。また、人物検出装置100の機能は、SaaS(Software as a Service)形式で提供されてもよい。
<実施形態2>
 実施形態2は、上述した実施形態1の具体例である。図3は、実施形態2に係る人物検出システム200の構成を示すブロック図である。人物検出システム200は、撮影装置300及び人物検出装置400を備える。撮影装置300は、ネットワーク500を介して人物検出装置400に接続されている。なお、実施形態1と重複する説明については適宜省略する。
 人物検出システム200は、車両310において撮影された映像から人物を検出するためのシステムである。車両310は、例えば自動車であるが、バイク又は自転車等の自動車以外の車両であってもよい。車両310には、撮影装置300が設置されている。撮影装置300は、車両310の周囲の景色を撮影する装置であり、例えばドライブレコーダーである。撮影装置300は、撮影部301及び通信部302を備える。撮影部301は、カメラである。撮影部301は、例えば、車両310の前方の景色すなわち、車両310の運転席に着席した状態の運転手が見ることができる景色を撮影する。通信部302は、ネットワーク500との通信インタフェースである。通信部302は、撮影部301において撮影された映像をネットワーク500を介して人物検出装置400に送信する。
 次に、図4を参照して、人物検出装置400の構成について詳細に説明する。図4は、人物検出装置400の構成を示すブロック図である。人物検出装置400は、メモリ410、通信部420、記憶部430及び制御部440を備える。
 メモリ410は、制御部440の処理内容を一時的に記憶する記憶領域であり、例えばRAM(Random Access Memory)等の揮発性記憶装置である。通信部420は、人物検出装置400の外部との通信を行うインターフェースである。記憶部430は、閾値431及びプログラム432等を記憶する記憶装置である。閾値431は、人物検出スコアに基づいて人物を検出する際に用いられる数値であり、フレーム内の領域に応じて異なる値が設定されていてもよい。プログラム432は、本実施形態に係る人物検出処置が実装されたコンピュータプログラムである。
 制御部440は、取得部441、検出部442及び調整部443を備える。制御部440は、人物検出装置400の動作を制御する制御装置であり、例えばCPU等のプロセッサである。制御部440は、記憶部430からプログラム432をメモリ410へ読み込ませ、実行する。これにより、制御部440は、取得部441、検出部442、調整部443及び判定部444としての機能を実現する。
 取得部441は、撮影装置300から送信された映像を取得する。映像には、通常複数のフレームが含まれている。また、映像には、識別情報等が含まれていてもよいものとする。識別情報は、映像を撮影した撮影装置300が設置されている車両310を識別するための情報である。
 検出部442は、取得部441が取得した映像から、人物を検出する。具体的には、検出部442は、取得部441が取得した映像を構成する各フレームについて、人物検出スコアを算出する。次に、検出部442は、人物検出スコアが閾値431以下であるか否かを判定する。検出部442は、複数のフレームのそれぞれに対して人物検出スコアの算出及び判定を行う。閾値431は、人物検出スコアに基づいて人物を検出する際に用いられる予め設定された数値であり、フレーム内の領域に応じて異なる値が設定されていてもよい。検出部442は、フレーム内において人物検出スコアが閾値以上である箇所に人物が写っていると判定する。
 図5は、人物が検出されたフレームの一例を示す図である。図5に示すフレーム10は、取得部441が取得した映像を構成するフレームである。図5に示すようにフレーム10に人物20が写っている場合、人物20の近傍における人物検出スコアは、他の領域における人物検出スコアよりも高く算出される。検出部442は、人物20の近傍すなわち領域30における人物検出スコアが閾値以上である場合、領域30に人物が写っていると判定する。
 領域30は、図5に示すように矩形状である。ここで、フレーム内における地面に垂直な方向を縦方向とし、地面に平行な方向を横方向とする。また、領域30の縦方向に延びる辺を縦辺30aとし、横方向に延びる辺を横辺30bとする。判定部444は、縦辺30aの長さを横辺30bの長さで除すことによって縦横比を算出し、当該縦横比が所定の範囲内である場合に人物検出に成功したと判定する。ここで、所定の範囲は、1以上であり、好ましくは1以上4以下、さらに好ましくは2以上3.5以下である。縦横比が1未満となる、すなわち領域30が正方形状又は横長状である場合、領域30には、人物以外の物体が写っている、又は、人物の一部分のみが写っていると考えられる。そこで、判定部444は、縦横比が1以上である、すなわち領域30が縦長状である場合を、人物検出に成功したと判定する。また、図5に示すように、人物は、通常縦横比が1以上4以下程度の領域30として検出され、特に、歩行中の人物は、縦横比が2以上3.5以下程度の領域30として検出される。そこで、所定の範囲を1以上4以下、さらに好ましくは2以上3.5以下とすると、人物をより精度良く判定することができる。
 図4に戻り、説明を続ける。
 調整部443は、判定部444が人物検出に失敗したと判定すると、人物検出スコアの閾値を調整する。具体的には、調整部443は、判定部444によって領域30の縦横比が1未満であると判定された場合に、人物検出スコアの閾値を上げる。検出部442は、調整された閾値に基づいて、映像を構成するフレームから人物の検出を再度行う。人物検出スコアの閾値が上げられると、上げられる前に比較し、検出部442は、より少ない領域を人物が写っている可能性が高い領域として検出する。人物の検出を再度行うことによって領域が再度検出された場合、判定部444は、当該領域の縦横比を算出し、当該縦横比が所定の範囲内であるか否かを判定してもよい。
 このように、本実施形態に係る人物検出装置400は、人物が写っている可能性が高い領域が検出された際に当該領域の縦横比が所定の範囲内である否かを判定することによって、当該領域に写っている物体が人物であるか否かを判定する。そのため、人物検出装置400は、人物の検出を精度良く行うことができる。また、人物検出装置400は、人物検出に失敗したと判定した場合、人物検出スコアの閾値を上げ、人物の検出を再度行う。そのため、人物検出スコアの閾値を調整しない場合に比較して、人物の検出を精度良く行うことができる。
 次に、図6を参照して、人物検出時における人物検出装置400の動作を説明する。図6は、人物検出処理の流れを示すフローチャートである。図6に示す例では、映像が複数のフレームを含んでいる場合について説明を行う。
 まず、取得部441は、撮影装置300から映像を取得する(ステップS201)。次に、検出部442は、ステップS201において取得された映像を構成する各フレームについて予め設定された閾値431に基づいて人物の検出を行う(ステップS202)。映像を構成する複数のフレームのいずれにおいても人物が検出されなかった場合(ステップS202No)、人物の検出を終了する。いずれかのフレームにおいて人物が検出されると(ステップS202Yes)、判定部444は、人物が検出された領域の縦横比を算出し、当該縦横比が所定の範囲内であるか否かを判定する(ステップS203)。縦横比が所定の範囲内であった場合(ステップS203Yes)、人物の検出を終了する。縦横比が所定の範囲外であった場合(ステップS203No)、調整部443は、人物検出スコアの閾値を上げる(ステップS204)。次に、検出部442は、上げられた閾値に基づいて、映像を構成する各フレームについて人物検出を再度行う(ステップS205)。このように、本実施形態に係る人物検出装置400は、人物検出に失敗したと判定した場合に人物検出スコアの閾値を上げて人物の検出を再度行うため、人物を精度良く検出することができる。
 また、ステップS205において人物が再度検出された場合、判定部444は、人物が再度検出された領域の縦横比を算出し、当該縦横比が所定の範囲内であるか否かを判定してもよい。さらに、再度検出された領域の縦横比が所定の範囲外であった場合、調整部443は、人物検出スコアの閾値をさらに上げ、検出部442は、さらに上げられた閾値に基づいて、映像を構成する各フレームについて人物検出を再度行ってもよい。このように、人物の検出と閾値の調整とを繰り返し行うことによって、人物検出装置400は、より精度良く人物を検出することができる。
<実施形態3>
 実施形態3は、上述した実施形態2の変形例である。本実施形態に係る人物検出装置600は、人物の検出に成功したと判定した場合、人物が検出された領域にマスキング処理を行う。図7は、実施形態3に係る人物検出装置600の構成を示すブロック図である。人物検出装置600は、図4に示した人物検出装置400に比較して、制御部440に代えて制御部640を備える点で異なる。制御部640は、制御部440が備える各構成に加えて、処理部645を備える。他の構成については実施形態1又は2と重複するため、説明についてを適宜省略する。
 制御部640は、取得部441、検出部442、調整部443、判定部444及び処理部645を備える。取得部441は、撮影装置300から映像を取得する。検出部442は、取得部441が取得した映像を構成するフレームについて、人物検出スコアの閾値に基づいて人物の検出を行う。判定部444は、検出された領域30について縦横比を算出し、当該縦横比が所定の範囲内である場合に人物検出に成功したと判定する。調整部443は、判定部444が人物検出に失敗したと判定すると、人物検出スコアの閾値を調整する。処理部645は、判定部444が人物検出に成功したと判定すると、判定された領域30にマスキング処理を行う、すなわちぼかしを入れる。マスキング処理の方法は、特に限定されず、既存の技術によって処理される。
 次に、図8を参照して、人物検出時における人物検出装置600の動作を説明する。図12は、人物検出処理の流れを示すフローチャートである。
 まず、取得部441は、撮影装置300から映像を取得する(ステップS301)。次に、検出部442は、ステップS301において取得された映像を構成するフレームについて予め設定された閾値431に基づいて人物の検出を行う(ステップS302)。映像を構成するフレームから人物が検出されなかった場合(ステップS302No)、人物の検出を終了する。映像を構成するフレームから人物が検出された場合(ステップS302Yes)、判定部444は、人物が検出された領域30の縦横比を算出し、当該縦横比が所定の範囲内であるか否かを判定する(ステップS303)。領域30の縦横比が所定の範囲内であった場合(ステップS303Yes)、処理部645は、領域30にマスキング処理を行う(ステップS307)。領域30の縦横比が所定の範囲外であった場合(ステップS303No)、調整部443は、人物検出スコアの閾値を上げる(ステップS304)。次に、検出部442は、上げられた閾値に基づいて、映像を構成するフレームについて人物検出を再度行う(ステップS305)。判定部444は、ステップS305において検出された領域について縦横比を算出し、当該縦横比が所定の範囲内であるか否かを判定する(ステップS306)。領域30の縦横比が所定の範囲外であった場合(ステップS306No)、人物の検出を終了する。領域30の縦横比が所定の範囲内であった場合(ステップS306Yes)、処理部645は、領域30にマスキング処理を行う(ステップS307)。
 このように、本実施形態に係る人物検出装置600は、領域の縦横比によって検出された物体が人物であるか否かを判定している。そのため、人物検出装置600は、人物以外の物体を誤検出していた領域にマスキング処理を行わずに人物の検出に成功したと判定された領域のみにマスキング処理を行うことができる。
 尚、上述の実施形態では、ハードウェアの構成として説明したが、これに限定されるものではない。本開示は、任意の処理を、CPUにコンピュータプログラムを実行させることにより実現することも可能である。
 上述の例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、DVD(Digital Versatile Disc)、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
 なお、本開示は上記実施形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。また、本開示は、それぞれの実施形態を適宜組み合わせて実施されてもよい。
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 10 フレーム
 20 人物
 30 領域
 30a 縦辺
 30b 横辺
 100 人物検出装置
 110 取得部
 120 検出部
 130 調整部
 200 人物検出システム
 300 撮影装置
 301 撮影部
 302 通信部
 310 車両
 400 人物検出装置
 410 メモリ
 420 通信部
 430 記憶部
 431 閾値
 432 プログラム
 440 制御部
 441 取得部
 442 検出部
 443 調整部
 444 判定部
 500 ネットワーク
 600 人物検出装置
 640 制御部
 645 処理部

Claims (9)

  1.  撮影された映像を取得する取得手段と、
     所定の人物検出スコアの閾値に基づいて前記映像を構成するフレームから人物を検出する検出手段と、
     前記フレームから人物が検出された場合に、前記人物が検出された領域の縦横比に応じて前記人物検出スコアの閾値を調整する調整手段と、を備える、
     人物検出装置。
  2.  さらに、前記縦横比が所定の範囲内である場合に、人物検出に成功したと判定する判定手段を備え、
     前記縦横比は、前記人物が検出された領域において地面に垂直な方向の辺を縦辺とし、前記縦辺に直交する方向の辺を横辺として、前記縦辺を前記横辺で除した値であり、
     前記所定の範囲は、前記縦横比が1以上である、
     請求項1に記載の人物検出装置。
  3.  人物検出に失敗したと判定された場合、
     前記調整手段は、前記人物検出スコアの閾値を上げ、
     前記検出手段は、調整された前記人物検出スコアの閾値に基づいて、前記映像を構成するフレームから人物を再度検出する、
     請求項2に記載の人物検出装置。
  4.  前記フレームから人物が再度検出された場合、
     前記判定手段は、人物が再度検出された領域の前記縦横比が所定の範囲内である場合に、人物検出に成功したと判定する、
     請求項3に記載の人物検出装置。
  5.  さらに、人物検出に成功したと判定された場合に、前記人物が検出された前記領域にマスキング処理を行う処理手段を備える、
     請求項2に記載の人物検出装置。
  6.  周囲の映像を撮影する撮影装置と、
     前記撮影装置と通信可能な人物検出装置と、を備え、
     前記人物検出装置は、
     前記撮影装置において撮影された映像を取得し、
     所定の人物検出スコアの閾値に基づいて前記映像を構成するフレームから人物を検出し、
     前記フレームから人物が検出された場合に、前記人物が検出された領域の縦横比に応じて前記人物検出スコアの閾値を調整する、
     人物検出システム。
  7.  前記人物検出装置は、
     前記縦横比が所定の範囲内である場合に、人物検出に成功したと判定し、
     前記縦横比は、前記人物が検出された領域において地面に垂直な方向の辺を縦辺とし、前記縦辺に直交する方向の辺を横辺として、前記縦辺を前記横辺で除した値であり、
     前記所定の範囲は、前記縦横比が1以上である、
     請求項6に記載の人物検出システム。
  8.  コンピュータが、
     撮影された映像を取得し、
     所定の人物検出スコアの閾値に基づいて前記映像を構成するフレームから人物を検出し、
     前記フレームから人物が検出された場合に、前記人物が検出された領域の縦横比に応じて前記人物検出スコアの閾値を調整する、
     人物検出方法。
  9.  コンピュータに、
     映像を取得する処理と、
     所定の人物検出スコアの閾値に基づいて前記映像を構成するフレームから人物を検出する処理と、
     前記フレームから人物が検出された場合に、前記人物が検出された領域の縦横比に応じて前記人物検出スコアの閾値を調整する処理と、
     を実行させる人物検出プログラムが格納された非一時的なコンピュータ可読媒体。
PCT/JP2023/006201 2023-02-21 2023-02-21 人物検出装置、システム、方法及びプログラムが格納された非一時的なコンピュータ可読媒体 WO2024176342A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2023/006201 WO2024176342A1 (ja) 2023-02-21 2023-02-21 人物検出装置、システム、方法及びプログラムが格納された非一時的なコンピュータ可読媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2023/006201 WO2024176342A1 (ja) 2023-02-21 2023-02-21 人物検出装置、システム、方法及びプログラムが格納された非一時的なコンピュータ可読媒体

Publications (1)

Publication Number Publication Date
WO2024176342A1 true WO2024176342A1 (ja) 2024-08-29

Family

ID=92500345

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/006201 WO2024176342A1 (ja) 2023-02-21 2023-02-21 人物検出装置、システム、方法及びプログラムが格納された非一時的なコンピュータ可読媒体

Country Status (1)

Country Link
WO (1) WO2024176342A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005128815A (ja) * 2003-10-24 2005-05-19 Matsushita Electric Ind Co Ltd 人物検出装置及び人物検出方法
JP2009266052A (ja) * 2008-04-28 2009-11-12 Hitachi Ltd 異常行動検知装置
JP2012048690A (ja) * 2010-08-30 2012-03-08 Secom Co Ltd 監視装置
WO2016199749A1 (ja) * 2015-06-10 2016-12-15 コニカミノルタ株式会社 画像処理システム、画像処理装置、画像処理方法、および画像処理プログラム
JP2018200698A (ja) * 2013-09-13 2018-12-20 コニカミノルタ株式会社 被監視者監視装置および該方法ならびに被監視者監視システム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005128815A (ja) * 2003-10-24 2005-05-19 Matsushita Electric Ind Co Ltd 人物検出装置及び人物検出方法
JP2009266052A (ja) * 2008-04-28 2009-11-12 Hitachi Ltd 異常行動検知装置
JP2012048690A (ja) * 2010-08-30 2012-03-08 Secom Co Ltd 監視装置
JP2018200698A (ja) * 2013-09-13 2018-12-20 コニカミノルタ株式会社 被監視者監視装置および該方法ならびに被監視者監視システム
WO2016199749A1 (ja) * 2015-06-10 2016-12-15 コニカミノルタ株式会社 画像処理システム、画像処理装置、画像処理方法、および画像処理プログラム

Similar Documents

Publication Publication Date Title
CN107705552B (zh) 一种应急车道占用行为检测方法、装置及系统
KR101704830B1 (ko) 영상에서 물체 검출 장치 및 방법
JP2017033554A (ja) ビデオデータ分析方法、装置及び駐車場モニタリングシステム
US20160055389A1 (en) Video processing apparatus, video processing method, and recording medium
US11301974B2 (en) Image processing apparatus, image processing method, image capturing apparatus, and storage medium
US20160134810A1 (en) Image capturing apparatus, method of controlling the same, monitoring camera system, and storage medium
JP4592744B2 (ja) 画像処理方法、画像処理システム、画像処理装置及びコンピュータプログラム
KR20210022995A (ko) 터널 판단 장치 및 터널 판단 방법
JP4364275B2 (ja) 画像処理方法、画像処理装置及びコンピュータプログラム
KR101341243B1 (ko) 기상 현상으로 인해 훼손된 영상을 복원하는 장치 및 방법
CN113762220B (zh) 目标识别方法、电子设备、计算机可读存储介质
WO2024176342A1 (ja) 人物検出装置、システム、方法及びプログラムが格納された非一時的なコンピュータ可読媒体
JP2015103249A (ja) 画像中のゼブラクロッシングの検出装置及び方法
JP7167325B2 (ja) 運転者在席状態検出方法及び装置、機器並びにコンピュータ記憶媒体
KR20190024511A (ko) 도로 상황 공유 방법 및 이를 실행하기 위해 기록매체에 기록된 컴퓨터 프로그램
JP2019040389A (ja) 障害物検知装置、障害物検知方法、及び、障害物検知プログラム
JP2019041248A (ja) 障害物検知装置、障害物検知方法、及び、障害物検知プログラム
US20240089415A1 (en) Information processing apparatus, information processing method, computer-readable medium, and information processing system
US11763596B2 (en) Image capturing support apparatus, image capturing support method, and computer-readable recording medium
WO2024176339A1 (ja) 移動体検出装置、システム、方法及びプログラムが格納された非一時的なコンピュータ可読媒体
WO2024176352A1 (ja) 人物検出装置、人物検出システム、人物検出方法及び非一時的なコンピュータ可読媒体
WO2024176354A1 (ja) 人物検出装置、人物検出システム、人物検出方法及び非一時的なコンピュータ可読媒体
WO2024176340A1 (ja) 移動体検出装置、システム、方法及びプログラムが格納された非一時的なコンピュータ可読媒体
JP7415327B2 (ja) 携帯端末制御方法、携帯端末制御装置、プログラム
WO2024195126A1 (ja) 画像処理装置、画像処理方法及び非一時的なコンピュータ可読媒体

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23923996

Country of ref document: EP

Kind code of ref document: A1