WO2021140959A1 - 符号化装置および方法、復号装置および方法、並びにプログラム - Google Patents

符号化装置および方法、復号装置および方法、並びにプログラム Download PDF

Info

Publication number
WO2021140959A1
WO2021140959A1 PCT/JP2020/048729 JP2020048729W WO2021140959A1 WO 2021140959 A1 WO2021140959 A1 WO 2021140959A1 JP 2020048729 W JP2020048729 W JP 2020048729W WO 2021140959 A1 WO2021140959 A1 WO 2021140959A1
Authority
WO
WIPO (PCT)
Prior art keywords
distance
audio data
feeling control
control information
information
Prior art date
Application number
PCT/JP2020/048729
Other languages
English (en)
French (fr)
Inventor
辻 実
徹 知念
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to CN202080083336.2A priority Critical patent/CN114762041A/zh
Priority to KR1020227019705A priority patent/KR20220125225A/ko
Priority to EP20912607.7A priority patent/EP4089673A4/en
Priority to JP2021570021A priority patent/JPWO2021140959A1/ja
Priority to BR112022013235A priority patent/BR112022013235A2/pt
Priority to US17/790,455 priority patent/US20230056690A1/en
Publication of WO2021140959A1 publication Critical patent/WO2021140959A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation

Definitions

  • the present technology relates to a coding device and a method, a decoding device and a method, and a program, and a coding device and a method, a decoding device and a method capable of realizing a sense of distance control particularly based on the intention of the content creator. , And about the program.
  • object audio data is composed of a waveform signal for an audio object and metadata indicating localization information of the audio object represented by a position relative to a predetermined reference listening position.
  • the waveform signal of the audio object is rendered into a signal having a desired number of channels by, for example, VBAP (Vector Based Amplitude Panning) based on the metadata, and reproduced (see, for example, Non-Patent Document 1 and Non-Patent Document 2). ..
  • VBAP Vector Based Amplitude Panning
  • Patent Document 1 a technique for realizing audio reproduction with a higher degree of freedom in which a user can specify an arbitrary listening position has been proposed (see, for example, Patent Document 1).
  • the position information of the audio object is corrected according to the listening position, and gain control and filtering are performed according to the change in the distance from the listening position to the audio object, so that the listening position of the user is changed. Changes in frequency characteristics and volume, that is, a sense of distance to the audio object, are reproduced.
  • the gain control and the filtering process for reproducing the change in the frequency characteristic and the volume according to the distance from the listening position to the audio object are predetermined.
  • This technology was made in view of such a situation, and makes it possible to realize the sense of distance control based on the intention of the content creator.
  • the coding device of the first aspect of the present technology includes an object coding unit that encodes audio data of an object, a metadata coding unit that encodes metadata including position information of the object, and the audio data.
  • a distance sensation control information determining unit that determines the distance sensation control information for the distance sensation control processing performed on the data, a distance sensation control information coding unit that encodes the distance sensation control information, and the encoded version. It includes audio data, the encoded metadata, and a multiplexing unit that multiplexes the encoded distance feeling control information and generates encoded data.
  • the coding method or program of the first aspect of the present technology encodes the audio data of the object, encodes the metadata including the position information of the object, and is used for the distance feeling control process performed on the audio data.
  • the distance feeling control information is determined, the distance feeling control information is encoded, and the encoded audio data, the encoded metadata, and the encoded distance feeling control information are multiplexed and encoded. Includes steps to generate data.
  • the audio data of the object is encoded, the metadata including the position information of the object is encoded, and the sense of distance for the sense of distance control process performed on the audio data.
  • the control information is determined, the distance feeling control information is encoded, and the encoded audio data, the encoded metadata, and the encoded distance feeling control information are multiplexed and encoded data. Is generated.
  • the decoding device of the second aspect of the present technology demultiplexes the encoded data, and with respect to the encoded audio data of the object, the encoded metadata including the position information of the object, and the audio data.
  • a non-multiplexing unit that extracts encoded distance feeling control information for the distance feeling control processing to be performed, an object decoding unit that decodes the encoded audio data, and a decoding unit that decodes the encoded metadata.
  • the distance feeling control processing for the audio data of the object based on the metadata decoding unit, the distance feeling control information decoding unit that decodes the encoded distance feeling control information, and the distance feeling control information.
  • Rendering is performed based on the distance feeling control processing unit, the audio data obtained by the distance feeling control processing, and the metadata, and the reproduction audio data for reproducing the sound of the object is generated. It is equipped with a processing unit.
  • the decoding method or program of the second aspect of the present technology demultiplexes the encoded data into the encoded audio data of the object, the encoded metadata including the position information of the object, and the audio data.
  • the encoded distance feeling control information for the distance feeling control processing performed on the subject is extracted, the encoded audio data is decoded, the encoded metadata is decoded, and the encoded data is decoded.
  • the distance feeling control information is decoded, the distance feeling control processing is performed on the audio data of the object based on the distance feeling control information, and the audio data obtained by the distance feeling control processing and the metadata
  • the rendering process is performed based on the above, and the step of generating the reproduced audio data for reproducing the sound of the object is included.
  • the encoded data is demultiplexed with respect to the encoded audio data of the object, the encoded metadata including the position information of the object, and the audio data.
  • the encoded distance feeling control information for the performed distance feeling control processing is extracted, the encoded audio data is decoded, the encoded metadata is decoded, and the encoded distance feeling is decoded.
  • the control information is decoded, the distance feeling control processing is performed on the audio data of the object based on the distance feeling control information, and the audio data obtained by the distance feeling control processing and the metadata
  • the rendering process is performed based on the above, and the reproduced audio data for reproducing the sound of the object is generated.
  • the present technology relates to the reproduction of audio content of object-based audio, which consists of the sounds of one or more audio objects.
  • audio objects will be referred to simply as objects, and audio content will also be referred to simply as content.
  • the sense of distance control information for the sense of distance control process that reproduces the sense of distance from the listening position to the object, which is set by the content creator is transmitted to the decoding side together with the audio data of the object.
  • the sense of distance control information for the sense of distance control process that reproduces the sense of distance from the listening position to the object, which is set by the content creator
  • the sense of distance control process is a process for reproducing the sense of distance from the listening position to the object when reproducing the sound of the object, that is, a process of adding a sense of distance to the sound of the object, which is arbitrary. It is a signal processing realized by executing one or a plurality of processings in combination.
  • gain control processing for audio data for example, gain control processing for audio data, filter processing for adding frequency characteristics and various sound effects, reverb processing, and the like are performed.
  • the information for enabling such a sense of distance control process to be reconstructed on the decoding side is the sense of distance control information, and the sense of distance control information includes configuration information and control rule information.
  • the sense of distance control information consists of configuration information and control rule information.
  • the configuration information constituting the distance feeling control information is one or more combined to realize the distance feeling control processing obtained by parameterizing the configuration of the distance feeling control processing set by the content creator.
  • Information indicating signal processing is one or more combined to realize the distance feeling control processing obtained by parameterizing the configuration of the distance feeling control processing set by the content creator.
  • the configuration information indicates how many signal processes the distance feeling control process is composed of, what kind of process these signal processes are, and in what order they are executed.
  • the distance sense control information does not necessarily have to include the configuration information. Absent.
  • control rule information is used in each signal process constituting the distance sense control process, which is obtained by parameterizing the control rule in each signal process constituting the distance sense control process set by the content creator. Information for obtaining parameters.
  • control rule information constitutes a sense of distance. What kind of parameters are used for each signal processing, and how these parameters are according to the distance from the listening position to the object. It shows whether it changes with various control rules.
  • the distance sense control process is reconfigured based on the distance sense control information, and the distance sense control process is performed on the audio data of each object.
  • the rendering process of 3D audio is performed based on the audio data obtained by the sense of distance control process, and the reproduced audio data for reproducing the sound of the content, that is, the sound of the object is generated.
  • a content playback system to which this technology is applied supplies a coding device that encodes audio data and distance feeling control information of one or more objects constituting the content to generate coded data, and supplies the coded data. It consists of a decoding device that receives and generates playback audio data.
  • the coding device that constitutes such a content reproduction system is configured as shown in FIG. 1, for example.
  • the coding device 11 shown in FIG. 1 includes an object coding unit 21, a metadata coding unit 22, a distance feeling control information determining unit 23, a distance feeling control information coding unit 24, and a multiplexing unit 25. ..
  • the object coding unit 21 is supplied with audio data of one or a plurality of objects constituting the content.
  • This audio data is a waveform signal (audio signal) for reproducing the sound of an object.
  • the object coding unit 21 encodes the audio data of each supplied object, and supplies the coded audio data obtained as a result to the multiplexing unit 25.
  • the metadata of the audio data of each object is supplied to the metadata coding unit 22.
  • the metadata contains at least position information that indicates the absolute position of the object in space.
  • This position information is an absolute coordinate system, that is, coordinates indicating the position of an object in a three-dimensional Cartesian coordinate system based on a predetermined position in space, for example.
  • the metadata may include gain information for performing gain control (gain correction) on the audio data of the object.
  • the metadata coding unit 22 encodes the metadata of each supplied object, and supplies the coded metadata obtained as a result to the multiplexing unit 25.
  • the distance sense control information determination unit 23 determines the distance sense control information according to a designated operation or the like by the user, and supplies the determined distance sense control information to the distance sense control information coding unit 24.
  • the distance sense control information determination unit 23 acquires the configuration information and the control rule information specified by the user in response to the designated operation by the user, and obtains the distance sense control information composed of the configuration information and the control rule information. decide.
  • the distance feeling control information determination unit 23 determines the distance feeling control information based on the audio data of each object of the content, the information about the content such as the genre of the content, the information about the playback space of the content, and the like. May be good.
  • the distance feeling control information may not include the configuration information.
  • the distance sense control information coding unit 24 encodes the distance sense control information supplied from the distance sense control information determination unit 23, and supplies the coded distance sense control information obtained as a result to the multiplexing unit 25.
  • the multiplexing unit 25 includes the coded audio data supplied from the object coding unit 21, the coded metadata supplied from the metadata coding unit 22, and the coding provided by the distance feeling control information coding unit 24.
  • the sense of distance control information is multiplexed to generate coded data (code string).
  • the multiplexing unit 25 transmits (transmits) the coded data obtained by multiplexing to the decoding device via a communication network or the like.
  • the decoding device constituting the content reproduction system is configured as shown in FIG. 2, for example.
  • the decoding device 51 shown in FIG. 2 includes a non-multiplexing unit 61, an object decoding unit 62, a metadata decoding unit 63, a distance feeling control information decoding unit 64, a user interface 65, a distance calculation unit 66, and a distance feeling control processing unit 67. It also has a 3D audio rendering processing unit 68.
  • the non-multiplexing unit 61 receives the coded data transmitted from the coding device 11 and demultiplexes the received coded data to obtain the coded audio data, the coded metadata, and the coded data from the coded data. And the coded distance feeling control information is extracted.
  • the non-multiplexing unit 61 supplies the encoded audio data to the object decoding unit 62, supplies the encoded metadata to the metadata decoding unit 63, and supplies the coded distance feeling control information to the distance feeling control information decoding unit 64. To do.
  • the object decoding unit 62 decodes the coded audio data supplied from the non-multiplexing unit 61, and supplies the audio data obtained as a result to the distance feeling control processing unit 67.
  • the metadata decoding unit 63 decodes the coded metadata supplied from the non-multiplexing unit 61, and supplies the resulting metadata to the distance feeling control processing unit 67 and the distance calculation unit 66.
  • the distance feeling control information decoding unit 64 decodes the coded distance feeling control information supplied from the non-multiplexing unit 61, and supplies the distance feeling control information obtained as a result to the distance feeling control processing unit 67.
  • the user interface 65 supplies listening position information indicating a listening position designated by the user to the distance calculation unit 66, the distance feeling control processing unit 67, and the 3D audio rendering processing unit 68, for example, in response to a user operation or the like.
  • the listening position indicated by the listening position information is the absolute position of the listener who listens to the sound of the content in the playback space.
  • the listening position information is a coordinate indicating a listening position in the same absolute coordinate system as the position information of the object included in the metadata.
  • the distance calculation unit 66 calculates the distance from the listening position to the object for each object based on the metadata supplied from the metadata decoding unit 63 and the listening position information supplied from the user interface 65, and the distance calculation unit 66 calculates the distance from the listening position to the object.
  • the distance information indicating the calculation result is supplied to the distance feeling control processing unit 67.
  • the distance sensation control processing unit 67 includes metadata supplied from the metadata decoding unit 63, distance sensation control information supplied from the distance sensation control information decoding unit 64, listening position information supplied from the user interface 65, and distance calculation. Based on the distance information supplied from the unit 66, the distance feeling control process is performed on the audio data supplied from the object decoding unit 62.
  • the distance feeling control processing unit 67 obtains a parameter based on the control rule information and the distance information, and performs the distance feeling control processing for the audio data based on the obtained parameter.
  • the audio data of the dry component is audio data such as the direct sound component of the object obtained by performing one or more processes on the audio data of the original object.
  • the metadata of the audio data of this dry component the metadata of the original object, that is, the metadata output from the metadata decoding unit 63 is used.
  • the audio data of the wet component is audio data such as the reverberation component of the sound of the object obtained by performing one or more processes on the audio data of the original object.
  • generating the audio data of the wet component is generating the audio data of a new object related to the original object.
  • the necessary ones of the original object metadata, control rule information, distance information, and listening position information are appropriately used to generate the metadata of the audio data of the wet component.
  • This metadata contains at least position information indicating the position of the wet component object.
  • the position information of a wet component object includes a horizontal angle (horizontal angle), a height angle (vertical angle), and a listening position to the object, which indicate the position of the object as seen by the listener in the playback space. It is said to be polar coordinates expressed by a radius indicating a distance.
  • the distance feeling control processing unit 67 supplies the audio data and metadata of the dry component and the audio data and metadata of the wet component to the 3D audio rendering processing unit 68.
  • the 3D audio rendering processing unit 68 performs 3D audio rendering processing based on the audio data and metadata supplied from the distance feeling control processing unit 67 and the listening position information supplied from the user interface 65, and reproduces the audio data. To generate.
  • VBAP which is a rendering process in a polar coordinate system, is performed as a rendering process of 3D audio.
  • the 3D audio rendering processing unit 68 generates the position information expressed in polar coordinates based on the position information included in the metadata of the object of the dry component and the listening position information for the audio data of the dry component. Then, the obtained position information is used for the rendering process.
  • This position information is polar coordinates represented by a horizontal angle and a vertical angle indicating the relative position of the object as seen by the listener, and a radius indicating the distance from the listening position to the object.
  • multi-channel playback audio data consisting of audio data of channels corresponding to each of a plurality of speakers constituting the output destination speaker system is generated.
  • the 3D audio rendering processing unit 68 outputs the reproduced audio data obtained by the rendering processing to the subsequent stage.
  • the configuration of the distance feeling control processing unit 67 that is, one or a plurality of processes constituting the distance feeling control processing, and an example in which the order of those processes is predetermined will be described.
  • the distance feeling control processing unit 67 is configured as shown in FIG. 3, for example.
  • the distance feeling control processing unit 67 shown in FIG. 3 includes a gain control unit 101, a high shelf filter processing unit 102, a low shelf filter processing unit 103, and a reverb processing unit 104.
  • the gain control process, the filter process by the high shelf filter, the filter process by the low shelf filter, and the reverb process are executed in order as the sense of distance control process.
  • the gain control unit 101 performs gain control on the audio data of the object supplied from the object decoding unit 62 with parameters (gain values) corresponding to the control rule information and the distance information, and obtains the audio data obtained as a result. It is supplied to the high shelf filter processing unit 102.
  • the high shelf filter processing unit 102 filters the audio data supplied from the gain control unit 101 by the high shelf filter determined by the parameters according to the control rule information and the distance information, and the audio data obtained as a result. Is supplied to the low shelf filter processing unit 103.
  • the gain of the high frequency range of the audio data is suppressed according to the distance from the listening position to the object.
  • the low shelf filter processing unit 103 performs filter processing on the audio data supplied from the high shelf filter processing unit 102 by the low shelf filter determined by the parameters corresponding to the control rule information and the distance information.
  • the low frequency range of the audio data is boosted (emphasized) according to the distance from the listening position to the object.
  • the low shelf filter processing unit 103 supplies the audio data obtained by the filter processing to the 3D audio rendering processing unit 68 and the reverb processing unit 104.
  • the audio data output from the low shelf filter processing unit 103 is the audio data of the original object described above, that is, the audio data of the dry component of the object.
  • the reverb processing unit 104 performs reverb processing on the audio data supplied from the low shelf filter processing unit 103 with parameters (gains) corresponding to the control rule information and the distance information, and the audio data obtained as a result is 3D. It is supplied to the audio rendering processing unit 68.
  • the audio data output from the reverb processing unit 104 is the audio data of the wet component which is the reverberation component of the original object described above. In other words, it is the audio data of the wet component object.
  • reverb processing unit 104 is configured as shown in FIG. 4, for example.
  • the reverb processing unit 104 includes a gain control unit 141, a delay generation unit 142, a comb filter group 143, an all-pass filter group 144, an addition unit 145, an addition unit 146, a delay generation unit 147, and a comb filter group 148. It has an all-pass filter group 149, an addition unit 150, and an addition unit 151.
  • the reverb processing generates stereo reverberation components, that is, audio data of two wet components located on the left and right of the original object, with respect to monaural audio data.
  • the gain control unit 141 performs gain control processing (gain correction processing) based on the wet gain value obtained from the control rule information and the distance information on the audio data of the dry component supplied from the low shelf filter processing unit 103.
  • the audio data obtained as a result is supplied to the delay generation unit 142 and the delay generation unit 147.
  • the delay generation unit 142 delays the audio data supplied from the gain control unit 141 by holding it for a certain period of time, and supplies the audio data to the comb filter group 143.
  • the delay generation unit 142 has a different delay amount from the audio data supplied to the comb filter group 143, which is obtained by delaying the audio data supplied from the gain control unit 141, and the delay amounts are different from each other2. Two audio data are supplied to the addition unit 145.
  • the comb filter group 143 is composed of a plurality of comb filters, performs filtering processing by the plurality of comb filters on the audio data supplied from the delay generation unit 142, and transmits the resulting audio data to the all-pass filter group 144. Supply.
  • the all-pass filter group 144 is composed of a plurality of all-pass filters, performs filtering processing by a plurality of all-pass filters on the audio data supplied from the comb filter group 143, and supplies the audio data obtained as a result to the addition unit 146. To do.
  • the addition unit 145 adds the two audio data supplied from the delay generation unit 142 and supplies the two audio data to the addition unit 146.
  • the addition unit 146 adds the audio data supplied from the all-pass filter group 144 and the audio data supplied from the addition unit 145, and supplies the audio data of the wet component obtained as a result to the 3D audio rendering processing unit 68. To do.
  • the delay generation unit 147 delays the audio data supplied from the gain control unit 141 by holding it for a certain period of time, and supplies the audio data to the comb filter group 148.
  • the delay generation unit 147 has a delay amount different from that of the audio data supplied to the comb filter group 148, which is obtained by delaying the audio data supplied from the gain control unit 141, and the delay amounts are different from each other. Two audio data are supplied to the addition unit 150.
  • the comb filter group 148 is composed of a plurality of comb filters, and the audio data supplied from the delay generation unit 147 is filtered by the plurality of comb filters, and the resulting audio data is combined with the all-pass filter group 149. Supply.
  • the all-pass filter group 149 is composed of a plurality of all-pass filters, performs filtering processing by a plurality of all-pass filters on the audio data supplied from the comb filter group 148, and supplies the audio data obtained as a result to the addition unit 151. To do.
  • the addition unit 150 adds the two audio data supplied from the delay generation unit 147 and supplies the two audio data to the addition unit 151.
  • the addition unit 151 adds the audio data supplied from the all-pass filter group 149 and the audio data supplied from the addition unit 150, and supplies the audio data of the wet component obtained as a result to the 3D audio rendering processing unit 68. To do.
  • the configuration of the reverb processing unit 104 is not limited to the configuration shown in FIG. 4, and may be any other configuration.
  • the gain value used for the gain control process is determined as a parameter according to the distance from the listening position to the object.
  • the gain value changes according to the distance from the listening position to the object, for example, as shown in FIG.
  • the part indicated by arrow Q11 shows the change in the gain value according to the distance. That is, the vertical axis shows the gain value as a parameter, and the horizontal axis shows the distance from the listening position to the object.
  • the gain value is 0.0 dB while the distance d from the listening position to the object is a predetermined minimum value Min to D 0 , and when the distance d is between D 0 and D 1 , the distance d As the value increases, the gain value decreases linearly.
  • the gain value is -40.0 dB when the distance d is between D 1 and the predetermined maximum value Max.
  • the gain value can be changed linearly up to -40.0 dB.
  • the filter processing unit 102 for example, as shown by arrow Q21 in FIG. 6, as the distance d from the listening position to the object increases, the filter processing that suppresses the gain in the high frequency band is performed.
  • the vertical axis indicates the gain value as a parameter
  • the horizontal axis indicates the distance d from the listening position to the object.
  • the high shelf filter realized by the high shelf filter processing unit 102 is determined by the cutoff frequency Fc, the Q value indicating the sharpness, and the gain value at the cutoff frequency Fc.
  • the high shelf filter processing unit 102 performs filtering by the high shelf filter determined by the parameters cutoff frequency Fc, Q value, and gain value.
  • the polygonal line L21 at the part indicated by the arrow Q21 indicates the gain value at the cutoff frequency Fc defined for the distance d.
  • the gain value is 0.0 dB while the distance d is from the minimum value Min to D 0 , and when the distance d is between D 0 and D 1 , the gain value is linear as the distance d increases. It becomes smaller.
  • the gain value decreases linearly as the distance d increases, and similarly, the distance d is between D 2 and D 3 , and the distance d is from D 3. Even during D 4, the gain value decreases linearly as the distance d increases. Furthermore, the gain value is -12.0 dB when the distance d is between D 4 and the maximum value Max.
  • the frequency component of 6kHz or higher can be changed to -12.0dB as the distance d increases.
  • cutoff frequency Fc is 6 kHz and the Q value is 2.0 will be described regardless of the distance d, but these cutoff frequency Fc and Q value should also change according to the distance d. You may.
  • the filter processing for amplifying the gain in the low frequency band is performed.
  • the vertical axis indicates the gain value as a parameter
  • the horizontal axis indicates the distance d from the listening position to the object.
  • the low shelf filter realized by the low shelf filter processing unit 103 is determined by the cutoff frequency Fc, the Q value indicating sharpness, and the gain value at the cutoff frequency Fc.
  • the low shelf filter processing unit 103 performs filtering by the low shelf filter determined by the parameters cutoff frequency Fc, Q value, and gain value.
  • the polygonal line L31 at the part indicated by the arrow Q31 indicates the gain value at the cutoff frequency Fc defined for the distance d.
  • the gain value is 3.0 dB while the distance d is from the minimum value Min to D 0, and when the distance d is between D 0 and D 1 , the gain value is linear as the distance d increases. It becomes smaller.
  • the gain value is 0.0 dB when the distance d is between D 1 and the maximum value Max.
  • the frequency component of 200 Hz or less can be changed to +3.0 dB as the distance d becomes smaller.
  • the Q value and the gain value may be transmitted.
  • cutoff frequency Fc is 200 Hz and the Q value is 2.0 will be described regardless of the distance d, but these cutoff frequency Fc and Q value should also change according to the distance d. You may.
  • the reverb processing unit 104 as shown by an arrow Q41 in FIG. 8, for example, as the distance d from the listening position to the object increases, the reverb processing in which the gain of the wet component (wet gain value) increases is performed.
  • the wet gain value referred to here is, for example, a gain value used in the gain control by the gain control unit 141 shown in FIG.
  • the vertical axis shows the wet gain value as a parameter
  • the horizontal axis shows the distance d from the listening position to the object.
  • the polygonal line L41 indicates a wet gain value determined for the distance d.
  • the wet gain value is minus infinity (-InfdB) while the distance d from the listening position to the object is the minimum value Min to D 0 , and the distance d is between D 0 and D 1. Then, as the distance d increases, the wet gain value increases linearly.
  • the wet gain value is -3.0 dB when the distance d is between D 1 and the maximum value Max.
  • the wet component is controlled to increase as the distance d increases.
  • audio data of an arbitrary number of wet components can be generated.
  • stereo reverberation component audio data for audio data of one object, that is, monaural audio data.
  • the origin O of the XYZ coordinate system which is a three-dimensional Cartesian coordinate system in the reproduction space, is the listening position, and one object OB11 is arranged in the reproduction space.
  • the position of an arbitrary object in the playback space is represented by a horizontal angle indicating the horizontal position seen from the origin O and a vertical angle indicating the vertical position seen from the origin O, and the position of the object OB11. Is expressed as (az, el) from the horizontal angle az and the vertical angle el.
  • the horizontal angle az is formed by the straight line LN'and the Z axis when the straight line connecting the origin O and the object OB11 is LN and the straight line obtained by projecting the straight line LN onto the XZ plane is LN'.
  • the vertical angle el is the angle formed by the straight line LN and the XZ plane.
  • two objects OB12 and an object OB13 are generated as wet component objects with respect to the object OB11.
  • the object OB12 and the object OB13 are arranged symmetrically with respect to the object OB11 when viewed from the origin O.
  • the object OB12 and the object OB13 are arranged at positions that are relatively offset by 60 degrees to the left and right with respect to the object OB11.
  • the position of the object OB12 is the position represented by the horizontal angle (az + 60) and the vertical angle el (az + 60, el), and the position of the object OB13 is the position of the horizontal angle (az-60) and the vertical angle. It is the position represented by el (az-60, el).
  • the positions of those wet components can be specified by the offset angle with respect to the position of the object OB11.
  • the offset angle ⁇ 60 degrees of the horizontal angle may be specified.
  • wet components produced may be any number.
  • the offset angle for designating the position of the wet component is changed according to the distance from the listening position to the object as shown in FIG. You may.
  • the portion indicated by the arrow Q51 in FIG. 10 shows the offset angle of the horizontal angle between the object OB12 and the object OB13, which are the wet components shown in FIG.
  • the vertical axis indicates the offset angle of the horizontal angle
  • the horizontal axis indicates the distance d from the listening position to the object OB11.
  • the polygonal line L51 indicates the offset angle of the object OB12, which is the wet component on the left side, which is defined for each distance d.
  • the smaller the distance d the larger the offset angle, and the object is placed farther from the original object OB11.
  • the polygonal line L52 indicates the offset angle of the object OB13, which is the wet component on the right side, which is defined for each distance d.
  • the smaller the distance d the smaller the offset angle, and the object is placed farther from the original object OB11.
  • the wet component can be generated at the intended position.
  • the sense of distance control process is performed with the configuration and parameters according to the distance d from the listening position to the object, the sense of distance can be appropriately reproduced. That is, the listener can feel a sense of distance from the object.
  • the parameter control rule according to the distance d explained above is just an example, and by allowing the content creator to freely specify the control rule, the feeling of distance from the object can be changed. Can be made to.
  • the parameters used for the distance feeling control processing can be further adjusted according to the playback environment of the content (reproduced audio data).
  • the gain of the wet component used in the reverb processing that is, the above-mentioned wet gain value can be adjusted according to the playback environment of the content.
  • the reverberation of the sound output from the speaker or the like occurs in the real space.
  • how much reverberation is generated depends on the real space in which the content is reproduced, that is, the reproduction environment.
  • the listener may feel a sense of distance realized by the sense of distance control process, that is, a sense of distance farther than the sense of distance intended by the content creator.
  • the distance feeling control process is performed according to the preset control rule, that is, the control rule information, but when the reverberation in the reproduction environment is relatively large, the determination is made according to the control rule.
  • the wet gain value may be fine-tuned.
  • the user interface 65 is operated by a user or the like, and information on the reverberation of the playback environment, such as information on the type of the playback environment such as outdoors or indoors, and information indicating whether or not the playback environment has a lot of reverberation, is provided. Suppose it is entered. In such a case, the user interface 65 supplies the information regarding the reverberation of the reproduction environment input by the user or the like to the distance feeling control processing unit 67.
  • the distance feeling control processing unit 67 calculates the wet gain value based on the control rule information, the distance information, and the information regarding the reverberation of the reproduction environment supplied from the user interface 65.
  • the distance feeling control processing unit 67 calculates the wet gain value based on the control rule information and the distance information, and whether or not the reproduction environment has a lot of reverberation based on the information on the reverberation of the reproduction environment. Judgment processing is performed.
  • the distance feeling control processing unit 67 determines that the reproduction environment does not have a lot of reverberation, that is, the reproduction environment has a little reverberation, the calculated wet gain value is used as the final wet gain value in the reverb processing unit 67. Supply to 104.
  • the distance sense control processing unit 67 corrects (adjusts) the calculated wet gain value with a predetermined correction value such as -6 dB, and corrects the calculated wet gain value.
  • the later wet gain value is supplied to the reverb processing unit 104 as the final wet gain value.
  • the correction value of the wet gain value may be a predetermined value, or is calculated by the distance feeling control processing unit 67 based on the information on the reverberation in the reproduction environment, that is, the degree of reverberation in the reproduction environment. You may do so.
  • the distance feeling control information encoded by the distance feeling control information coding unit 24 can have the configuration shown in FIG. 11, for example.
  • “DistanceRender_Attn ()” shows parameter configuration information indicating the control rules of the parameters used in the gain control unit 101.
  • “DistanceRender_Filt ()” indicates parameter configuration information indicating a parameter control rule used by the high shelf filter processing unit 102 or the low shelf filter processing unit 103.
  • the sense of distance control information includes the parameter configuration information DistanceRender_Filt () of the high shelf filter processing unit 102 and the parameter configuration information DistanceRender_Filt () of the low shelf filter processing unit 103.
  • “DistanceRender_Revb ()” shows the parameter configuration information indicating the control rule of the parameter used in the reverb processing unit 104.
  • the parameter configuration information DistanceRender_Attn (), the parameter configuration information DistanceRender_Filt (), and the parameter configuration information DistanceRender_Revb () included in the distance feeling control information correspond to the control rule information.
  • the parameter configuration information of the four processes constituting the distance feeling control process is stored in an order in which the processes are performed.
  • the decoding device 51 can specify the configuration of the distance feeling control processing unit 67 shown in FIG. 3 based on the distance feeling control information.
  • the distance feeling control information substantially includes the configuration information.
  • the parameter configuration information DistanceRender_Attn (), the parameter configuration information DistanceRender_Filt (), and the parameter configuration information DistanceRender_Revb () shown in FIG. 11 are configured as shown in FIGS. 12 to 14, for example.
  • FIG. 12 is a diagram showing a configuration example of the parameter configuration information DistanceRender_Attn () of the gain control process, that is, a Syntax example.
  • FIG. 13 is a diagram showing a configuration example of the parameter configuration information DistanceRender_Filt () for filtering, that is, a Syntax example.
  • filt_type indicates an index indicating the filter type.
  • index filt_type “0” indicates a low shelf filter
  • index filt_type “1” indicates a high shelf filter
  • index filt_type “2” indicates a peak filter
  • index filt_type "3" indicates a low-pass filter
  • index filt_type "4" indicates a high-pass filter
  • this parameter configuration information DistanceRender_Filt () contains information regarding the parameters for specifying the configuration of the low shelf filter.
  • a high shelf filter and a low shelf filter have been described as filter examples of the filter processing that constitutes the sense of distance control processing.
  • a peak filter, a low-pass filter, a high-pass filter, and the like can also be used.
  • the filter for the filter processing constituting the sense of distance control processing only some of the low-shelf filter, the high-shelf filter, the peak filter, the low-pass filter, and the high-pass filter may be used. Other filters may also be available.
  • the area after the index filt_type includes parameters for specifying the filter configuration indicated by the index filt_type.
  • number_points indicates the number of control change points of the filtering parameters.
  • the parameters frequency “freq [i]”, Q value “Q [i]”, and gain value “gain [i]” are shown in FIG. Corresponds to the cutoff frequencies Fc, Q, and gain values shown.
  • the frequency freq [i] is the cutoff frequency when the filter type is a low shelf filter, high shelf filter, low pass filter, or high pass filter, but it is the center frequency when the filter type is a peak filter.
  • the decoding device 51 can be used.
  • the high shelf filter shown in FIG. 6 and the low shelf filter shown in FIG. 7 can be realized.
  • FIG. 14 is a diagram showing a configuration example of the parameter configuration information DistanceRender_Revb () for reverb processing, that is, a Syntax example.
  • “num_points” indicates the number of control change points of the parameters of the reverb processing, and in this example, “distance [i” indicating the distance d corresponding to those control change points by the number of control change points. ] ”And the wet gain value“ wet_gain [i] ”as a parameter at that distance d are included.
  • This wet gain value wet_gain [i] corresponds to, for example, the wet gain value shown in FIG.
  • number_wetobjs indicates the number of wet components generated, that is, the number of objects of the wet components, and offset angles indicating the positions of the wet components are stored by the number of those wet components. ..
  • wet_azimuth_offset [i] [j] indicates the offset angle of the horizontal angle of the j-th wet component (object) at the distance distance [i] corresponding to the i-th control change point.
  • This offset angle wet_azimuth_offset [i] [j] corresponds to, for example, the offset angle of the horizontal angle shown in FIG.
  • wet_elevation_offset [i] [j] indicates the offset angle of the vertical angle of the j-th wet component at the distance distance [i] corresponding to the i-th control change point.
  • the number of wet components to be generated is determined by the reverb processing to be performed by the decoding device 51. For example, the number of wet components, num_wetobjs, is given from the outside.
  • the distance distance [i] and the wet gain value wet_gain [i] at each control change point, the offset angle wet_azimuth_offset [i] [j] and the offset angle wet_elevation_offset [i] [of each wet component. j] is transmitted to the decoding device 51.
  • the decoding device 51 can realize, for example, the reverb processing unit 104 shown in FIG. 4, and can obtain audio data of dry components and audio data and metadata of each wet component.
  • step S11 the object coding unit 21 encodes the audio data of each supplied object and supplies the obtained coded audio data to the multiplexing unit 25.
  • step S12 the metadata coding unit 22 encodes the metadata of each supplied object and supplies the obtained coded metadata to the multiplexing unit 25.
  • step S13 the distance sensation control information determination unit 23 determines the distance sensation control information according to a designated operation or the like by the user, and supplies the determined distance sensation control information to the distance sensation control information coding unit 24.
  • step S14 the distance sense control information coding unit 24 encodes the distance sense control information supplied from the distance sense control information determination unit 23, and supplies the obtained coded distance sense control information to the multiplexing unit 25.
  • the distance feeling control information shown in FIG. 11 is obtained and supplied to the multiplexing unit 25.
  • the multiplexing unit 25 includes the coded audio data from the object coding unit 21, the coded metadata from the metadata coding unit 22, and the coded distance feeling control from the distance feeling control information coding unit 24. It multiplexes information and generates coded data.
  • step S16 the multiplexing unit 25 transmits the coded data obtained by the multiplexing to the decoding device 51 via the communication network or the like, and the coding process is completed.
  • the coding device 11 generates the coded data including the sense of distance control information and transmits it to the decoding device 51.
  • the distance feeling control information By transmitting the distance feeling control information to the decoding device 51 in addition to the audio data and metadata of each object in this way, the distance feeling control based on the intention of the content creator can be realized on the decoding device 51 side. Will be.
  • step S41 the non-multiplexing unit 61 receives the coded data transmitted from the coding device 11.
  • step S42 the non-multiplexing unit 61 demultiplexes the received coded data and extracts the coded audio data, the coded metadata, and the coded distance feeling control information from the coded data.
  • the non-multiplexing unit 61 supplies the encoded audio data to the object decoding unit 62, supplies the encoded metadata to the metadata decoding unit 63, and supplies the coded distance feeling control information to the distance feeling control information decoding unit 64. To do.
  • step S43 the object decoding unit 62 decodes the coded audio data supplied from the non-multiplexing unit 61, and supplies the obtained audio data to the distance feeling control processing unit 67.
  • step S44 the metadata decoding unit 63 decodes the coded metadata supplied from the non-multiplexing unit 61, and supplies the obtained metadata to the distance feeling control processing unit 67 and the distance calculation unit 66.
  • step S45 the distance feeling control information decoding unit 64 decodes the coded distance feeling control information supplied from the non-multiplexing unit 61, and supplies the obtained distance feeling control information to the distance feeling control processing unit 67.
  • step S46 the distance calculation unit 66 calculates the distance from the listening position to the object based on the metadata supplied from the metadata decoding unit 63 and the listening position information supplied from the user interface 65, and the calculation result thereof.
  • the distance information indicating the above is supplied to the distance feeling control processing unit 67.
  • step S46 distance information is obtained for each object.
  • the distance feeling control processing unit 67 includes audio data supplied from the object decoding unit 62, metadata supplied from the metadata decoding unit 63, and distance feeling control information supplied from the distance feeling control information decoding unit 64.
  • the distance feeling control process is performed based on the listening position information supplied from the user interface 65 and the distance information supplied from the distance calculation unit 66.
  • the distance feeling control processing unit 67 when the distance feeling control processing unit 67 has the configuration shown in FIG. 3 and the distance feeling control information shown in FIG. 11 is supplied, the distance feeling control processing unit 67 is based on the distance feeling control information and the distance information. Calculate the parameters used in the process.
  • the distance feeling control processing unit 67 obtains the gain value at the distance d indicated by the distance information based on the distance distance [i] and the gain value gain [i] of each control change point, and gain control. It is supplied to the unit 101.
  • the distance feeling control processing unit 67 is a distance based on the distance distance [i], the frequency freq [i], the Q value Q [i], and the gain value gain [i] of each control change point of the high shelf filter.
  • the cutoff frequency, Q value, and gain value at the distance d indicated by the information are obtained and supplied to the high shelf filter processing unit 102.
  • the high shelf filter processing unit 102 can construct a high shelf filter according to the distance d indicated by the distance information.
  • the distance feeling control processing unit 67 obtains the cutoff frequency, the Q value, and the gain value of the low shelf filter at the distance d indicated by the distance information in the same manner as in the case of the high shelf filter, and causes the low shelf filter processing unit 103 to obtain the cutoff frequency, the Q value, and the gain value. Supply.
  • the low shelf filter processing unit 103 can construct a low shelf filter according to the distance d indicated by the distance information.
  • the distance feeling control processing unit 67 obtains the wet gain value at the distance d indicated by the distance information based on the distance distance [i] and the wet gain value wet_gain [i] of each control change point, and causes the reverb processing unit 104 to obtain the wet gain value. Supply.
  • the distance feeling control processing unit 67 shown in FIG. 3 was constructed from the distance feeling control information.
  • the distance feeling control processing unit 67 reverb-processes the offset angle wet_azimuth_offset [i] [j] of the horizontal angle, the offset angle wet_elevation_offset [i] [j] of the vertical angle, the metadata of the object, and the listening position information. It is supplied to the unit 104.
  • the gain control unit 101 performs gain control processing on the audio data of the object based on the gain value supplied from the distance feeling control processing unit 67, and transmits the resulting audio data to the high shelf filter processing unit 102. Supply.
  • the high shelf filter processing unit 102 filters the audio data supplied from the gain control unit 101 by the high shelf filter determined by the cutoff frequency, the Q value, and the gain value supplied from the distance feeling control processing unit 67. Is performed, and the audio data obtained as a result is supplied to the low shelf filter processing unit 103.
  • the low shelf filter processing unit 103 receives the audio data supplied from the high shelf filter processing unit 102 by the low shelf filter determined by the cutoff frequency, the Q value, and the gain value supplied from the distance feeling control processing unit 67. Perform filtering.
  • the distance feeling control processing unit 67 supplies the audio data obtained by the filter processing by the low shelf filter processing unit 103 as the audio data of the dry component to the 3D audio rendering processing unit 68 together with the metadata of the object of the dry component.
  • the metadata of this dry component is the metadata supplied from the metadata decoding unit 63.
  • the low shelf filter processing unit 103 supplies the audio data obtained by the filter processing to the reverb processing unit 104.
  • the reverb processing unit 104 for example, gain control based on the wet gain value for the audio data of the dry component, delay processing for the audio data, filter processing by the comb filter or the all-pass filter, and the like are performed. This is done and audio data of the wet component is generated.
  • the reverb processing unit 104 determines the position of the wet component based on the offset angle wet_azimuth_offset [i] [j], the offset angle wet_elevation_offset [i] [j], the metadata of the object (dry component), and the listening position information. The information is calculated and the metadata of the wet component including the position information is generated.
  • the reverb processing unit 104 supplies the audio data and metadata of each wet component generated in this way to the 3D audio rendering processing unit 68.
  • step S48 the 3D audio rendering processing unit 68 performs rendering processing based on the audio data and metadata supplied from the distance feeling control processing unit 67 and the listening position information supplied from the user interface 65, and reproduces the audio data.
  • rendering processing based on the audio data and metadata supplied from the distance feeling control processing unit 67 and the listening position information supplied from the user interface 65, and reproduces the audio data.
  • VBAP or the like is performed as a rendering process.
  • the 3D audio rendering processing unit 68 When the playback audio data is generated, the 3D audio rendering processing unit 68 outputs the generated playback audio data to the subsequent stage, and the decoding process ends.
  • the decoding device 51 performs the distance feeling control process based on the distance feeling control information included in the coded data, and generates the reproduced audio data. By doing so, it is possible to realize the sense of distance control based on the intention of the content creator.
  • a table or a function for obtaining a parameter for the distance d from the listening position to the object is prepared in advance, and an index indicating the table or the function is prepared. Can be included in the parameter configuration information.
  • the index indicating the table or function becomes the control rule information indicating the control rule of the parameter.
  • the index indicating the table or function for obtaining the parameter is used as the control rule information in this way, for example, as shown in FIG. 17, a plurality of tables or functions for obtaining the gain value of the gain control process as the parameter are prepared. Can be kept.
  • a table for obtaining the gain value of the gain control processing is prepared for the index value "2", and when this table is used, the larger the distance d, the smaller the gain value as a parameter. ..
  • the distance feeling control processing unit 67 of the decoding device 51 holds tables and functions in advance in association with each such index.
  • the parameter configuration information DistanceRender_Attn () shown in FIG. 11 has the configuration shown in FIG.
  • the parameter configuration information DistanceRender_Attn () includes an index "index" indicating a function or table specified by the content creator.
  • the distance feeling control processing unit 67 reads out the table or function associated with and held in this index index, and is based on the read out table or function and the distance d from the listening position to the object. The gain value as a parameter is obtained.
  • the content creator specifies (selects) a desired one from those patterns.
  • the distance feeling control process that suits one's own intention.
  • parameter control rules can be specified by an index in the same manner.
  • the sense of distance control information has the configuration shown in FIG. 19, for example.
  • "num_objs" indicates the number of objects constituting the content.
  • the number of objects num_objs is given to the distance feeling control information determination unit 23 from the outside.
  • the distance feeling control information includes the flag "isDistanceRenderFlg" indicating whether or not the object is the target of the distance feeling control for the number num_objs of this object.
  • the object is considered to be the target of the sense of distance control, and the sense of distance control process is performed on the audio data of the object.
  • the distance feeling control information includes the parameter configuration information DistanceRender_Attn () of the object, the two parameter configuration information DistanceRender_Filt (), and the parameter configuration information DistanceRender_Revb ( )It is included.
  • the distance feeling control processing unit 67 performs the distance feeling control processing on the audio data of the target object, and the obtained dry component and wet component audio data and meta. Data is output.
  • the object is not the target of distance control, that is, it is not the target, and the audio data of the object is not subject to the control.
  • the sense of distance control process is not performed.
  • the audio data and metadata of the object are directly supplied from the distance feeling control processing unit 67 to the 3D audio rendering processing unit 68.
  • the distance feeling control information includes the parameter configuration information DistanceRender_Attn (), the parameter configuration information DistanceRender_Filt (), and the parameter configuration information DistanceRender_Revb () of the object. Not done.
  • the parameter configuration information is encoded for each object in the distance sense control information coding unit 24.
  • the sense of distance control information is encoded for each object.
  • the parameter control rule may be set (specified) not for each object but for each object group consisting of one or a plurality of objects.
  • the sense of distance control information has the configuration shown in FIG. 20, for example.
  • "num_obj_groups" indicates the number of object groups constituting the content.
  • the number of object groups num_obj_groups is given to the distance feeling control information determination unit 23 from the outside.
  • the distance feeling control information includes the flag "isDistanceRenderFlg" indicating whether or not the object group, more specifically, the object belonging to the object group is subject to the distance feeling control for the number of this object group num_obj_groups. ..
  • the object group is considered to be the target of the sense of distance control, and the sense of distance control process is performed on the audio data of the objects belonging to the object group. Will be done.
  • the distance feeling control information includes the parameter configuration information DistanceRender_Attn () of the object group, the two parameter configuration information DistanceRender_Filt (), and the parameter configuration information. Contains DistanceRender_Revb ().
  • the distance feeling control processing unit 67 performs the distance feeling control processing on the audio data of the objects belonging to the target object group.
  • the audio data and metadata of the objects are directly supplied from the distance feeling control processing unit 67 to the 3D audio rendering processing unit 68.
  • the distance feeling control information includes the parameter configuration information DistanceRender_Attn () of the object group, the parameter configuration information DistanceRender_Filt (), and the parameter configuration information DistanceRender_Revb (). Is not included.
  • the distance sense control information coding unit 24 encodes the parameter configuration information for each object group.
  • the sense of distance control information is encoded for each object group.
  • the content creator puts the objects of those multiple percussion instruments together into one object group. Can be.
  • the same control rule can be set for each object belonging to the same object group and corresponding to each of a plurality of percussion instruments constituting the drum set. That is, the same control rule information can be given to each of a plurality of objects. Further, as in the example shown in FIG. 20, by transmitting the parameter configuration information for each object group, the amount of information such as parameters to be transmitted to the decoding side, that is, the distance feeling control information can be further reduced. ..
  • the present invention is not limited to this, and the configuration of the distance feeling control processing unit 67 may be freely changed depending on the configuration information of the distance feeling control information.
  • the distance feeling control processing unit 67 is configured as shown in FIG. 21, for example.
  • the distance sensation control processing unit 67 executes a program according to the distance sensation control information, and signals processing unit 201-1 to signal processing unit 201-3, and reverb processing unit 202-1 to reverb processing. Realize some processing blocks of part 202-4.
  • the signal processing unit 201-1 reverbs the audio data obtained by the signal processing when the reverb processing unit 202-2 is functioning, that is, when the reverb processing unit 202-2 is realized. It is also supplied to the processing unit 202-2.
  • the signal processing unit 201-2 was supplied from the signal processing unit 201-1 based on the distance information supplied from the distance calculation unit 66 and the distance feeling control information supplied from the distance feeling control information decoding unit 64. Signal processing is performed on the audio data, and the audio data obtained as a result is supplied to the signal processing unit 201-3. At this time, when the reverb processing unit 202-3 is functioning, the signal processing unit 201-2 also supplies the audio data obtained by the signal processing to the reverb processing unit 202-3.
  • the signal processing unit 201-3 was supplied from the signal processing unit 201-2 based on the distance information supplied from the distance calculation unit 66 and the distance feeling control information supplied from the distance feeling control information decoding unit 64. Signal processing is performed on the audio data, and the audio data obtained as a result is supplied to the 3D audio rendering processing unit 68. At this time, when the reverb processing unit 202-4 is functioning, the signal processing unit 201-3 also supplies the audio data obtained by the signal processing to the reverb processing unit 202-4.
  • the signal processing unit 201 when it is not necessary to distinguish between the signal processing unit 211-1 and the signal processing unit 201-3, they are also simply referred to as the signal processing unit 201.
  • the signal processing performed by the signal processing unit 211-1, the signal processing unit 201-2, and the signal processing unit 201-3 is the processing indicated by the configuration information of the sense of distance control information.
  • the signal processing performed by the signal processing unit 201 is, for example, gain control processing, filter processing by a high shelf filter, a low shelf filter, or the like.
  • the audio data of the wet component is generated.
  • the reverb processing unit 202-1 is based on the distance feeling control information supplied from the distance feeling control information decoding unit 64, the metadata supplied from the metadata decoding unit 63, and the listening position information supplied from the user interface 65. To generate metadata including the position information of wet components. In the reverb processing unit 202-1, metadata of the wet component is generated by using the distance information as needed.
  • the reverb processing unit 202-1 supplies the metadata and audio data of the wet component generated in this way to the 3D audio rendering processing unit 68.
  • the reverb processing unit 202-2 includes distance information from the distance calculation unit 66, distance feeling control information from the distance feeling control information decoding unit 64, audio data from the signal processing unit 2011-1, and meta from the metadata decoding unit 63. Based on the data and the listening position information from the user interface 65, the metadata and audio data of the wet component are generated and supplied to the 3D audio rendering processing unit 68.
  • the reverb processing unit 202-3 includes distance information from the distance calculation unit 66, distance feeling control information from the distance feeling control information decoding unit 64, audio data from the signal processing unit 201-2, and metadata from the metadata decoding unit 63. Based on the data and the listening position information from the user interface 65, the metadata and audio data of the wet component are generated and supplied to the 3D audio rendering processing unit 68.
  • the reverb processing unit 202-4 includes distance information from the distance calculation unit 66, distance feeling control information from the distance feeling control information decoding unit 64, audio data from the signal processing unit 201-3, and metadata from the metadata decoding unit 63. Based on the data and the listening position information from the user interface 65, the metadata and audio data of the wet component are generated and supplied to the 3D audio rendering processing unit 68.
  • reverb processing units 202-2 In these reverb processing units 202-2, reverb processing unit 202-3, and reverb processing unit 202-4, the same processing as in the case of reverb processing unit 202-1 is performed, and metadata and audio data of wet components are generated. Will be done.
  • the reverb processing unit 202-1 when it is not necessary to distinguish the reverb processing unit 202-1 to the reverb processing unit 202-4, it is also simply referred to as the reverb processing unit 202.
  • the distance feeling control processing unit 67 may be configured such that no reverb processing unit 202 functions, or one or a plurality of reverb processing units 202 may function.
  • the distance feeling control processing unit 67 includes a reverb processing unit 202 that generates wet components located on the left and right sides of the object (dry component), and a reverb processing unit 202 that generates wet components located above and below the object. It may be configured to have and.
  • the content creator can freely specify each signal processing that constitutes the sense of distance control processing and the order in which the signal processing is performed. As a result, it is possible to realize the sense of distance control based on the intention of the content creator.
  • the distance feeling control information is, for example, the configuration shown in FIG. 22.
  • num_objs indicates the number of objects constituting the content
  • the distance sense control information includes whether or not the objects are subject to the sense of distance control by the number of these objects num_objs.
  • the flag "isDistanceRenderFlg" is included.
  • the distance feeling control information includes the id information indicating the signal processing for each signal processing constituting the distance feeling control processing performed on the object. "Proc_id” and parameter configuration information are included.
  • the parameter configuration information "DistanceRender_Revb ()” for reverb processing, or the parameter configuration information "DistanceRender_UserDefine ()” for user-defined processing is included in the sense of distance control information.
  • the parameter configuration information "DistanceRender_Attn ()" of the gain control process is included in the sense of distance control information.
  • parameter configuration information "DistanceRender_UserDefine ()" indicates the parameter configuration information indicating the control rules of the parameters used in the user-defined processing, which is the signal processing arbitrarily defined by the user.
  • the number of signal processes constituting the distance sense control process is four is described here as an example, the number of signal processes constituting the distance sense control process may be any number.
  • the 0th signal processing constituting the distance feeling control processing is a gain control processing
  • the first signal processing is a filter processing by a high shelf filter
  • the second signal processing is If the filter processing is performed by the low shelf filter and the third signal processing is the reverb processing, the distance feeling control processing unit 67 having the same configuration as that shown in FIG. 3 is realized.
  • the signal processing unit 201-1 to the signal processing unit 201-3 and the reverb processing unit 202-4 are realized, and the reverb processing unit 202-1 to 202-1 to The reverb processing unit 202-3 is not realized (does not function).
  • the signal processing units 211-1 to the signal processing unit 201-3 and the reverb processing unit 202-4 are the gain control unit 101, the high shelf filter processing unit 102, the low shelf filter processing unit 103, and the low shelf filter processing unit 103 shown in FIG. It functions as a reverb processing unit 104.
  • the coding device 11 performs the coding process described with reference to FIG. 15, and the decoding device 51 performs the coding process described with reference to FIG.
  • the decoding process described with reference to 16 is performed.
  • step S13 whether or not to be the target of the distance sense control process, the configuration of the distance sense control process, and the like are determined for each object, and in step S14, the distance of the configuration shown in FIG. 22 is determined.
  • the sensory control information is encoded.
  • step S47 the configuration of the distance sense control processing unit 67 is determined for each object based on the distance sense control information of the configuration shown in FIG. 22, and the distance sense control process is appropriately performed.
  • the sense of distance control information is transmitted to the decoding side together with the audio data of the object according to the settings of the content creator, so that the intention of the content creator is achieved in the object-based audio. It is possible to realize a sense of distance control based on this.
  • the series of processes described above can be executed by hardware or software.
  • the programs that make up the software are installed on the computer.
  • the computer includes a computer embedded in dedicated hardware and, for example, a general-purpose personal computer capable of executing various functions by installing various programs.
  • FIG. 23 is a block diagram showing a configuration example of computer hardware that executes the above-mentioned series of processes programmatically.
  • the CPU Central Processing Unit
  • the ROM ReadOnly Memory
  • the RAM RandomAccessMemory
  • An input / output interface 505 is further connected to the bus 504.
  • An input unit 506, an output unit 507, a recording unit 508, a communication unit 509, and a drive 510 are connected to the input / output interface 505.
  • the input unit 506 includes a keyboard, a mouse, a microphone, an image sensor, and the like.
  • the output unit 507 includes a display, a speaker, and the like.
  • the recording unit 508 includes a hard disk, a non-volatile memory, and the like.
  • the communication unit 509 includes a network interface and the like.
  • the drive 510 drives a removable recording medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 501 loads the program recorded in the recording unit 508 into the RAM 503 via the input / output interface 505 and the bus 504 and executes the above-described series. Is processed.
  • the program executed by the computer (CPU501) can be recorded and provided on a removable recording medium 511 as a package medium or the like, for example. Programs can also be provided via wired or wireless transmission media such as local area networks, the Internet, and digital satellite broadcasting.
  • the program can be installed in the recording unit 508 via the input / output interface 505 by mounting the removable recording medium 511 in the drive 510. Further, the program can be received by the communication unit 509 and installed in the recording unit 508 via a wired or wireless transmission medium. In addition, the program can be pre-installed in the ROM 502 or the recording unit 508.
  • the program executed by the computer may be a program that is processed in chronological order according to the order described in this specification, or may be a program that is processed in parallel or at a necessary timing such as when a call is made. It may be a program in which processing is performed.
  • the embodiment of the present technology is not limited to the above-described embodiment, and various changes can be made without departing from the gist of the present technology.
  • this technology can have a cloud computing configuration in which one function is shared by a plurality of devices via a network and processed jointly.
  • each step described in the above flowchart can be executed by one device or shared by a plurality of devices.
  • one step includes a plurality of processes
  • the plurality of processes included in the one step can be executed by one device or shared by a plurality of devices.
  • this technology can also have the following configurations.
  • An object coding unit that encodes the audio data of an object, A metadata coding unit that encodes metadata including the position information of the object, and A distance sense control information determination unit that determines the distance sense control information for the distance sense control process performed on the audio data, and a distance sense control information determination unit.
  • a distance feeling control information coding unit that encodes the distance feeling control information, A coding device including a multiplexing unit that multiplexes the encoded audio data, the encoded metadata, and the encoded distance feeling control information to generate the encoded data.
  • control rule information is an index indicating a function or table for obtaining the parameter.
  • the distance feeling control information includes configuration information indicating one or a plurality of processes performed in combination to realize the distance feeling control process. Coding device.
  • the configuration information is information indicating the order in which the one or more processes and the one or a plurality of processes are performed.
  • the processing is a gain control processing, a filtering processing, or a reverb processing.
  • the coding device encodes the distance feeling control information for each of a plurality of the objects.
  • the distance feeling control information coding unit encodes the distance feeling control information for each object group composed of one or a plurality of the objects.
  • the coding device Encodes the audio data of an object and The metadata including the position information of the object is encoded and The distance feeling control information for the distance feeling control processing performed on the audio data is determined, and the distance feeling control information is determined.
  • the distance feeling control information is encoded and A coding method for generating coded data by multiplexing the coded audio data, the coded metadata, and the coded distance feeling control information.
  • (11) Encodes the audio data of an object and The metadata including the position information of the object is encoded and The distance feeling control information for the distance feeling control processing performed on the audio data is determined, and the distance feeling control information is determined.
  • the distance feeling control information is encoded and A program that causes a computer to perform a process including a step of multiplexing the encoded audio data, the encoded metadata, and the encoded distance feeling control information to generate the encoded data.
  • the encoded data is demultiplexed and encoded for the object's encoded audio data, the encoded metadata containing the object's position information, and the distance feeling control process performed on the audio data.
  • a non-multiplexed part that extracts the sense of distance control information
  • An object decoding unit that decodes the encoded audio data, and A metadata decoding unit that decodes the encoded metadata,
  • a distance feeling control information decoding unit that decodes the encoded distance feeling control information, and a distance feeling control information decoding unit.
  • a distance feeling control processing unit that performs the distance feeling control processing on the audio data of the object based on the distance feeling control information, and a distance feeling control processing unit.
  • a decoding device including a rendering processing unit that performs rendering processing based on the audio data obtained by the distance feeling control processing and the metadata to generate reproduced audio data for reproducing the sound of the object.
  • the distance feeling control processing unit performs the distance feeling control processing based on parameters obtained from the control rule information included in the distance feeling control information and the listening position.
  • the parameter changes according to the distance from the listening position to the object.
  • the distance feeling control processing unit adjusts the parameters according to the reproduction environment of the reproduced audio data.
  • the distance feeling control processing unit performs the distance feeling control processing by combining one or a plurality of processes indicated by the distance feeling control information based on the parameter, according to any one of (13) to (15).
  • the decoding device according to (16), wherein the processing is a gain control processing, a filtering processing, or a reverb processing.
  • the decryption device The coded data is demultiplexed and coded for the coded audio data of the object, the coded metadata containing the position information of the object, and the sense of distance control process performed on the audio data.
  • the encoded audio data is decoded and Decrypt the encoded metadata and Decoding the encoded distance feeling control information, Based on the distance feeling control information, the distance feeling control process is performed on the audio data of the object.
  • a decoding method that performs rendering processing based on the audio data obtained by the distance feeling control process and the metadata to generate reproduced audio data for reproducing the sound of the object.
  • the coded data is demultiplexed and coded for the coded audio data of the object, the coded metadata containing the position information of the object, and the sense of distance control process performed on the audio data.
  • the encoded audio data is decoded and Decrypt the encoded metadata and Decoding the encoded distance feeling control information, Based on the distance feeling control information, the distance feeling control process is performed on the audio data of the object.
  • a program that causes a computer to perform processing including a step of performing rendering processing based on the audio data obtained by the distance feeling control processing and the metadata and generating playback audio data for reproducing the sound of the object. ..

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Error Detection And Correction (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本技術は、コンテンツ制作者の意図に基づいた距離感制御を実現することができるようにする符号化装置および方法、復号装置および方法、並びにプログラムに関する。 符号化装置は、オブジェクトのオーディオデータを符号化するオブジェクト符号化部と、オブジェクトの位置情報を含むメタデータを符号化するメタデータ符号化部と、オーディオデータに対して行われる距離感制御処理のための距離感制御情報を決定する距離感制御情報決定部と、距離感制御情報を符号化する距離感制御情報符号化部と、符号化されたオーディオデータ、符号化されたメタデータ、および符号化された距離感制御情報を多重化し、符号化データを生成する多重化部とを備える。本技術はコンテンツ再生システムに適用することができる。

Description

符号化装置および方法、復号装置および方法、並びにプログラム
 本技術は、符号化装置および方法、復号装置および方法、並びにプログラムに関し、特にコンテンツ制作者の意図に基づいた距離感制御を実現することができるようにした符号化装置および方法、復号装置および方法、並びにプログラムに関する。
 近年、オブジェクトベースのオーディオ技術が注目されている。
 オブジェクトベースオーディオでは、オーディオオブジェクトに対する波形信号と、所定の基準となる聴取位置からの相対位置により表されるオーディオオブジェクトの定位情報を示すメタデータとによりオブジェクトオーディオのデータが構成されている。
 そして、オーディオオブジェクトの波形信号が、メタデータに基づいて例えばVBAP(Vector Based Amplitude Panning)により所望のチャンネル数の信号にレンダリングされて再生される(例えば、非特許文献1および非特許文献2参照)。
 また、オブジェクトベースオーディオに関する技術として、例えばユーザが任意の聴取位置を指定可能な、より自由度の高いオーディオ再生を実現する技術も提案されている(例えば、特許文献1参照)。
 この技術では、オーディオオブジェクトの位置情報を聴取位置に応じて補正するとともに、聴取位置からオーディオオブジェクトまでの距離の変化に応じたゲイン制御やフィルタ処理を行うことで、ユーザの聴取位置の変更に伴う周波数特性や音量の変化、すなわちオーディオオブジェクトまでの距離感が再現されている。
ISO/IEC 23008-3 Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio Ville Pulkki, "Virtual Sound Source Positioning Using Vector Base Amplitude Panning", Journal of AES, vol.45, no.6, pp.456-466, 1997
国際公開第2015/107926号
 しかしながら、上述した技術では、聴取位置からオーディオオブジェクトまでの距離に応じた周波数特性や音量の変化を再現するためのゲイン制御やフィルタ処理は、予め既定されたものであった。
 そのため、コンテンツ制作者がそれとは異なる周波数特性や音量の変化による距離感の再現をしたくても、そのような距離感の再現を行うことはできなかった。すなわち、コンテンツ制作者の意図に基づいた距離感制御を実現することはできなかった。
 本技術は、このような状況に鑑みてなされたものであり、コンテンツ制作者の意図に基づいた距離感制御を実現することができるようにするものである。
 本技術の第1の側面の符号化装置は、オブジェクトのオーディオデータを符号化するオブジェクト符号化部と、前記オブジェクトの位置情報を含むメタデータを符号化するメタデータ符号化部と、前記オーディオデータに対して行われる距離感制御処理のための距離感制御情報を決定する距離感制御情報決定部と、前記距離感制御情報を符号化する距離感制御情報符号化部と、符号化された前記オーディオデータ、符号化された前記メタデータ、および符号化された前記距離感制御情報を多重化し、符号化データを生成する多重化部とを備える。
 本技術の第1の側面の符号化方法またはプログラムは、オブジェクトのオーディオデータを符号化し、前記オブジェクトの位置情報を含むメタデータを符号化し、前記オーディオデータに対して行われる距離感制御処理のための距離感制御情報を決定し、前記距離感制御情報を符号化し、符号化された前記オーディオデータ、符号化された前記メタデータ、および符号化された前記距離感制御情報を多重化し、符号化データを生成するステップを含む。
 本技術の第1の側面においては、オブジェクトのオーディオデータが符号化され、前記オブジェクトの位置情報を含むメタデータが符号化され、前記オーディオデータに対して行われる距離感制御処理のための距離感制御情報が決定され、前記距離感制御情報が符号化され、符号化された前記オーディオデータ、符号化された前記メタデータ、および符号化された前記距離感制御情報が多重化されて符号化データが生成される。
 本技術の第2の側面の復号装置は、符号化データを非多重化し、オブジェクトの符号化されたオーディオデータ、前記オブジェクトの位置情報を含む符号化されたメタデータ、および前記オーディオデータに対して行われる距離感制御処理のための符号化された距離感制御情報を抽出する非多重化部と、前記符号化されたオーディオデータを復号するオブジェクト復号部と、前記符号化されたメタデータを復号するメタデータ復号部と、前記符号化された距離感制御情報を復号する距離感制御情報復号部と、前記距離感制御情報に基づいて、前記オブジェクトの前記オーディオデータに対して前記距離感制御処理を行う距離感制御処理部と、前記距離感制御処理により得られたオーディオデータと、前記メタデータとに基づいてレンダリング処理を行い、前記オブジェクトの音を再生するための再生オーディオデータを生成するレンダリング処理部とを備える。
 本技術の第2の側面の復号方法またはプログラムは、符号化データを非多重化し、オブジェクトの符号化されたオーディオデータ、前記オブジェクトの位置情報を含む符号化されたメタデータ、および前記オーディオデータに対して行われる距離感制御処理のための符号化された距離感制御情報を抽出し、前記符号化されたオーディオデータを復号し、前記符号化されたメタデータを復号し、前記符号化された距離感制御情報を復号し、前記距離感制御情報に基づいて、前記オブジェクトの前記オーディオデータに対して前記距離感制御処理を行い、前記距離感制御処理により得られたオーディオデータと、前記メタデータとに基づいてレンダリング処理を行い、前記オブジェクトの音を再生するための再生オーディオデータを生成するステップを含む。
 本技術の第2の側面においては、符号化データが非多重化されて、オブジェクトの符号化されたオーディオデータ、前記オブジェクトの位置情報を含む符号化されたメタデータ、および前記オーディオデータに対して行われる距離感制御処理のための符号化された距離感制御情報が抽出され、前記符号化されたオーディオデータが復号され、前記符号化されたメタデータが復号され、前記符号化された距離感制御情報が復号され、前記距離感制御情報に基づいて、前記オブジェクトの前記オーディオデータに対して前記距離感制御処理が行われ、前記距離感制御処理により得られたオーディオデータと、前記メタデータとに基づいてレンダリング処理が行われ、前記オブジェクトの音を再生するための再生オーディオデータが生成される。
符号化装置の構成例を示す図である。 復号装置の構成例を示す図である。 距離感制御処理部の構成例を示す図である。 リバーブ処理部の構成例を示す図である。 ゲイン制御処理の制御ルール例について説明する図である。 ハイシェルフフィルタによるフィルタ処理の制御ルール例について説明する図である。 ローシェルフフィルタによるフィルタ処理の制御ルール例について説明する図である。 リバーブ処理の制御ルール例について説明する図である。 ウェット成分の生成について説明する図である。 ウェット成分の生成について説明する図である。 距離感制御情報の例を示す図である。 ゲイン制御のパラメタ構成情報の例を示す図である。 フィルタ処理のパラメタ構成情報の例を示す図である。 リバーブ処理のパラメタ構成情報の例を示す図である。 符号化処理を説明するフローチャートである。 復号処理を説明するフローチャートである。 ゲイン値を得るためのテーブルと関数の例を示す図である。 ゲイン制御のパラメタ構成情報の例を示す図である。 距離感制御情報の例を示す図である。 距離感制御情報の例を示す図である。 距離感制御処理部の構成例を示す図である。 距離感制御情報の例を示す図である。 コンピュータの構成例を示す図である。
 以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈符号化装置の構成例〉
 本技術は、1または複数のオーディオオブジェクトの音からなる、オブジェクトベースオーディオのオーディオコンテンツの再生に関するものである。
 以下では、オーディオオブジェクトを単にオブジェクトとも称し、オーディオコンテンツを単にコンテンツとも称することとする。
 本技術では、コンテンツ制作者が設定した、聴取位置からオブジェクトまでの距離感を再現する距離感制御処理のための距離感制御情報がオブジェクトのオーディオデータとともに復号側に伝送される。これにより、コンテンツ制作者の意図に基づいた距離感制御を実現することができるようになる。
 ここで、距離感制御処理とは、オブジェクトの音を再生する際に聴取位置からオブジェクトまでの距離感を再現するための処理、すなわちオブジェクトの音に対して距離感を付加する処理であり、任意の1または複数の処理を組み合わせて実行することにより実現される信号処理である。
 具体的には、例えば距離感制御処理では、オーディオデータに対するゲイン制御処理、周波数特性や各種の音響効果を付加するフィルタ処理、リバーブ処理などが行われる。
 このような距離感制御処理を復号側において再構成できるようにするための情報が距離感制御情報であり、距離感制御情報には構成情報と制御ルール情報が含まれている。換言すれば、距離感制御情報は構成情報および制御ルール情報からなる。
 例えば距離感制御情報を構成する構成情報は、コンテンツ制作者が設定した、距離感制御処理の構成をパラメタ化することで得られる、距離感制御処理を実現するために組み合わせて行う1または複数の信号処理を示す情報である。
 より具体的には、構成情報は距離感制御処理が何個の信号処理により構成されているか、それらの信号処理はどのような処理で、どのような順番で実行されるかを示している。
 なお、距離感制御処理を構成する1または複数の信号処理や、それらの信号処理を行う順番が予め定められている場合には、距離感制御情報には必ずしも構成情報が含まれている必要はない。
 また、制御ルール情報は、コンテンツ制作者が設定した、距離感制御処理を構成する各信号処理での制御ルールをパラメタ化することで得られる、距離感制御処理を構成する各信号処理で用いられるパラメタを得るための情報である。
 より具体的には、制御ルール情報は距離感制御処理を構成する各信号処理には、どのようなパラメタが用いられるか、それらのパラメタは、聴取位置からオブジェクトまでの距離に応じて、どのような制御ルールで変化するかを示している。
 符号化側では、このような距離感制御情報と、各オブジェクトのオーディオデータとが符号化されて復号側へと伝送される。
 また、復号側では、距離感制御情報に基づいて距離感制御処理が再構成され、各オブジェクトのオーディオデータに対して距離感制御処理が行われる。
 このとき、距離感制御情報に含まれる制御ルール情報に基づいて、聴取位置からオブジェクトまでの距離に応じたパラメタが決定され、そのパラメタに基づいて距離感制御処理を構成する信号処理が行われる。
 そして、距離感制御処理により得られたオーディオデータに基づいて3Dオーディオのレンダリング処理が行われ、コンテンツの音、すなわちオブジェクトの音を再生するための再生オーディオデータが生成される。
 それでは、以下、本技術を適用したより具体的な実施の形態について説明する。
 例えば本技術を適用したコンテンツ再生システムは、コンテンツを構成する1または複数の各オブジェクトのオーディオデータや距離感制御情報を符号化して符号化データを生成する符号化装置と、符号化データの供給を受けて再生オーディオデータを生成する復号装置とからなる。
 このようなコンテンツ再生システムを構成する符号化装置は、例えば図1に示すように構成される。
 図1に示す符号化装置11は、オブジェクト符号化部21、メタデータ符号化部22、距離感制御情報決定部23、距離感制御情報符号化部24、および多重化部25を有している。
 オブジェクト符号化部21には、コンテンツを構成する1または複数の各オブジェクトのオーディオデータが供給される。このオーディオデータは、オブジェクトの音を再生するための波形信号(オーディオ信号)である。
 オブジェクト符号化部21は、供給された各オブジェクトのオーディオデータを符号化し、その結果得られた符号化オーディオデータを多重化部25に供給する。
 メタデータ符号化部22には、各オブジェクトのオーディオデータのメタデータが供給される。
 メタデータには、空間内におけるオブジェクトの絶対的な位置を示す位置情報が少なくとも含まれている。この位置情報は、絶対座標系、すなわち、例えば空間内の所定の位置を基準とする3次元直交座標系におけるオブジェクトの位置を示す座標などとされる。また、メタデータには、オブジェクトのオーディオデータに対するゲイン制御(ゲイン補正)を行うためのゲイン情報などが含まれているようにしてもよい。
 メタデータ符号化部22は、供給された各オブジェクトのメタデータを符号化し、その結果得られた符号化メタデータを多重化部25に供給する。
 距離感制御情報決定部23は、ユーザによる指定操作等に応じて距離感制御情報を決定し、決定した距離感制御情報を距離感制御情報符号化部24に供給する。
 例えば距離感制御情報決定部23は、ユーザによる指定操作に応じて、ユーザにより指定された構成情報および制御ルール情報を取得することで、それらの構成情報および制御ルール情報からなる距離感制御情報を決定する。
 また、例えば距離感制御情報決定部23が、コンテンツの各オブジェクトのオーディオデータや、コンテンツのジャンル等のコンテンツに関する情報、コンテンツの再生空間に関する情報などに基づいて距離感制御情報を決定するようにしてもよい。
 なお、復号側において距離感制御処理を構成する各信号処理やそれらの信号処理の処理順が既知である場合には、距離感制御情報に構成情報が含まれていなくてもよい。
 距離感制御情報符号化部24は、距離感制御情報決定部23から供給された距離感制御情報を符号化し、その結果得られた符号化距離感制御情報を多重化部25に供給する。
 多重化部25は、オブジェクト符号化部21から供給された符号化オーディオデータ、メタデータ符号化部22から供給された符号化メタデータ、および距離感制御情報符号化部24から供給された符号化距離感制御情報を多重化し、符号化データ(符号列)を生成する。多重化部25は、多重化により得られた符号化データを、通信網等を介して復号装置に送信(伝送)する。
〈復号装置の構成例〉
 また、コンテンツ再生システムを構成する復号装置は、例えば図2に示すように構成される。
 図2に示す復号装置51は、非多重化部61、オブジェクト復号部62、メタデータ復号部63、距離感制御情報復号部64、ユーザインターフェース65、距離計算部66、距離感制御処理部67、および3Dオーディオレンダリング処理部68を有している。
 非多重化部61は、符号化装置11から送信されてきた符号化データを受信し、受信した符号化データを非多重化することで、符号化データから符号化オーディオデータ、符号化メタデータ、および符号化距離感制御情報を抽出する。
 非多重化部61は、符号化オーディオデータをオブジェクト復号部62に供給し、符号化メタデータをメタデータ復号部63に供給し、符号化距離感制御情報を距離感制御情報復号部64に供給する。
 オブジェクト復号部62は、非多重化部61から供給された符号化オーディオデータを復号し、その結果得られたオーディオデータを距離感制御処理部67に供給する。
 メタデータ復号部63は、非多重化部61から供給された符号化メタデータを復号し、その結果得られたメタデータを距離感制御処理部67および距離計算部66に供給する。
 距離感制御情報復号部64は、非多重化部61から供給された符号化距離感制御情報を復号し、その結果得られた距離感制御情報を距離感制御処理部67に供給する。
 ユーザインターフェース65は、例えばユーザの操作等に応じて、ユーザにより指定された聴取位置を示す聴取位置情報を距離計算部66、距離感制御処理部67、および3Dオーディオレンダリング処理部68に供給する。
 ここで、聴取位置情報により示される聴取位置は、再生空間内でコンテンツの音を聴取する聴取者の絶対的な位置である。例えば聴取位置情報は、メタデータに含まれているオブジェクトの位置情報と同じ絶対座標系における聴取位置を示す座標などとされる。
 距離計算部66は、メタデータ復号部63から供給されたメタデータと、ユーザインターフェース65から供給された聴取位置情報とに基づいて、オブジェクトごとに、聴取位置からオブジェクトまでの距離を計算し、その計算結果を示す距離情報を距離感制御処理部67に供給する。
 距離感制御処理部67は、メタデータ復号部63から供給されたメタデータ、距離感制御情報復号部64から供給された距離感制御情報、ユーザインターフェース65から供給された聴取位置情報、および距離計算部66から供給された距離情報に基づいて、オブジェクト復号部62から供給されたオーディオデータに対して距離感制御処理を行う。
 このとき、距離感制御処理部67は、制御ルール情報および距離情報に基づいてパラメタを求め、得られたパラメタに基づいてオーディオデータに対する距離感制御処理を行う。
 このような距離感制御処理により、オブジェクトのドライ成分のオーディオデータとウェット成分のオーディオデータとが生成される。
 ここで、ドライ成分のオーディオデータとは、もとのオブジェクトのオーディオデータに対して1または複数の処理を行うことで得られた、オブジェクトの直接音成分等のオーディオデータである。
 このドライ成分のオーディオデータのメタデータとして、もとのオブジェクトのメタデータ、すなわちメタデータ復号部63から出力されたメタデータが用いられる。
 また、ウェット成分のオーディオデータは、もとのオブジェクトのオーディオデータに対して1または複数の処理を行うことで得られた、オブジェクトの音の残響成分等のオーディオデータである。
 したがって、ウェット成分のオーディオデータを生成することは、もとのオブジェクトに関連する新たなオブジェクトのオーディオデータを生成することであるといえる。
 距離感制御処理部67では、もとのオブジェクトのメタデータ、制御ルール情報、距離情報、および聴取位置情報のうちの必要なものが適宜用いられて、ウェット成分のオーディオデータのメタデータが生成される。
 このメタデータには、少なくともウェット成分のオブジェクトの位置を示す位置情報が含まれている。
 例えばウェット成分のオブジェクトの位置情報は、再生空間内における聴取者から見たオブジェクトの位置を示す水平方向の角度(水平角)、高さ方向の角度(垂直角)、および聴取位置からオブジェクトまでの距離を示す半径により表現される極座標などとされる。
 距離感制御処理部67は、ドライ成分のオーディオデータおよびメタデータと、ウェット成分のオーディオデータおよびメタデータとを3Dオーディオレンダリング処理部68に供給する。
 3Dオーディオレンダリング処理部68は、距離感制御処理部67から供給されたオーディオデータおよびメタデータと、ユーザインターフェース65から供給された聴取位置情報とに基づいて3Dオーディオのレンダリング処理を行い、再生オーディオデータを生成する。
 例えば3Dオーディオレンダリング処理部68では、3Dオーディオのレンダリング処理として、極座標系でのレンダリング処理であるVBAPなどが行われる。
 この場合、3Dオーディオレンダリング処理部68は、ドライ成分のオーディオデータについては、そのドライ成分のオブジェクトのメタデータに含まれる位置情報と、聴取位置情報とに基づいて極座標で表現された位置情報を生成し、得られた位置情報をレンダリング処理に用いる。この位置情報は、聴取者から見たオブジェクトの相対的な位置を示す水平角、垂直角、および聴取位置からオブジェクトまでの距離を示す半径により表現される極座標である。
 このようなレンダリング処理により、例えば出力先となるスピーカシステムを構成する複数の各スピーカに対応するチャンネルのオーディオデータからなるマルチチャンネルの再生オーディオデータが生成される。
 3Dオーディオレンダリング処理部68は、レンダリング処理により得られた再生オーディオデータを後段に出力する。
〈距離感制御処理部の構成例〉
 次に、復号装置51の距離感制御処理部67の具体的な構成例について説明する。
 なお、ここでは距離感制御処理部67の構成、つまり距離感制御処理を構成する1または複数の処理と、それらの処理の順番が予め定められている例について説明する。
 そのような場合、距離感制御処理部67は、例えば図3に示すように構成される。
 図3に示す距離感制御処理部67はゲイン制御部101、ハイシェルフフィルタ処理部102、ローシェルフフィルタ処理部103、およびリバーブ処理部104を有している。
 この例では、距離感制御処理としてゲイン制御処理、ハイシェルフフィルタによるフィルタ処理、ローシェルフフィルタによるフィルタ処理、およびリバーブ処理が順番に実行される。
 ゲイン制御部101は、オブジェクト復号部62から供給されたオブジェクトのオーディオデータに対して、制御ルール情報と距離情報に応じたパラメタ(ゲイン値)でゲイン制御を行い、その結果得られたオーディオデータをハイシェルフフィルタ処理部102に供給する。
 ハイシェルフフィルタ処理部102は、制御ルール情報と距離情報に応じたパラメタにより定まるハイシェルフフィルタにより、ゲイン制御部101から供給されたオーディオデータに対してフィルタ処理を行い、その結果得られたオーディオデータをローシェルフフィルタ処理部103に供給する。
 ハイシェルフフィルタによるフィルタ処理では、聴取位置からオブジェクトまでの距離に応じて、オーディオデータの高域のゲインが抑制される。
 ローシェルフフィルタ処理部103は、制御ルール情報と距離情報に応じたパラメタにより定まるローシェルフフィルタにより、ハイシェルフフィルタ処理部102から供給されたオーディオデータに対してフィルタ処理を行う。
 ローシェルフフィルタによるフィルタ処理では、聴取位置からオブジェクトまでの距離に応じて、オーディオデータの低域がブースト(強調)される。
 ローシェルフフィルタ処理部103は、フィルタ処理により得られたオーディオデータを3Dオーディオレンダリング処理部68およびリバーブ処理部104に供給する。
 ここで、ローシェルフフィルタ処理部103から出力されるオーディオデータは、上述したもとのオブジェクトのオーディオデータ、すなわちオブジェクトのドライ成分のオーディオデータである。
 リバーブ処理部104は、ローシェルフフィルタ処理部103から供給されたオーディオデータに対して、制御ルール情報と距離情報に応じたパラメタ(ゲイン)でリバーブ処理を行い、その結果得られたオーディオデータを3Dオーディオレンダリング処理部68に供給する。
 ここで、リバーブ処理部104から出力されるオーディオデータは、上述したもとのオブジェクトの残響成分等であるウェット成分のオーディオデータである。換言すれば、ウェット成分のオブジェクトのオーディオデータである。
〈リバーブ処理部の構成例〉
 また、より詳細にはリバーブ処理部104は、例えば図4に示すように構成される。
 図4に示す例では、リバーブ処理部104はゲイン制御部141、ディレイ生成部142、コムフィルタ群143、オールパスフィルタ群144、加算部145、加算部146、ディレイ生成部147、コムフィルタ群148、オールパスフィルタ群149、加算部150、および加算部151を有している。
 この例では、リバーブ処理によって、モノラルのオーディオデータに対して、ステレオの残響成分、すなわち、もとのオブジェクトの左右に位置する2つのウェット成分のオーディオデータが生成される。
 ゲイン制御部141は、ローシェルフフィルタ処理部103から供給されたドライ成分のオーディオデータに対して、制御ルール情報と距離情報から得られるウェットゲイン値に基づくゲイン制御処理(ゲイン補正処理)を行い、その結果得られたオーディオデータをディレイ生成部142およびディレイ生成部147に供給する。
 ディレイ生成部142は、ゲイン制御部141から供給されたオーディオデータを一定時間だけ保持することで遅延させ、コムフィルタ群143に供給する。
 また、ディレイ生成部142は、ゲイン制御部141から供給されたオーディオデータを遅延させることで得られる、コムフィルタ群143に供給されるオーディオデータとは遅延量が異なり、かつ互いに遅延量が異なる2つのオーディオデータを加算部145に供給する。
 コムフィルタ群143は、複数のコムフィルタからなり、ディレイ生成部142から供給されたオーディオデータに対して、複数のコムフィルタによるフィルタ処理を行い、その結果得られたオーディオデータをオールパスフィルタ群144に供給する。
 オールパスフィルタ群144は、複数のオールパスフィルタからなり、コムフィルタ群143から供給されたオーディオデータに対して、複数のオールパスフィルタによるフィルタ処理を行い、その結果得られたオーディオデータを加算部146に供給する。
 加算部145は、ディレイ生成部142から供給された2つのオーディオデータを加算し、加算部146に供給する。
 加算部146は、オールパスフィルタ群144から供給されたオーディオデータと、加算部145から供給されたオーディオデータとを加算し、その結果得られたウェット成分のオーディオデータを3Dオーディオレンダリング処理部68に供給する。
 ディレイ生成部147は、ゲイン制御部141から供給されたオーディオデータを一定時間だけ保持することで遅延させ、コムフィルタ群148に供給する。
 また、ディレイ生成部147は、ゲイン制御部141から供給されたオーディオデータを遅延させることで得られる、コムフィルタ群148に供給されるオーディオデータとは遅延量が異なり、かつ互いに遅延量が異なる2つのオーディオデータを加算部150に供給する。
 コムフィルタ群148は、複数のコムフィルタからなり、ディレイ生成部147から供給されたオーディオデータに対して、複数のコムフィルタによるフィルタ処理を行い、その結果得られたオーディオデータをオールパスフィルタ群149に供給する。
 オールパスフィルタ群149は、複数のオールパスフィルタからなり、コムフィルタ群148から供給されたオーディオデータに対して、複数のオールパスフィルタによるフィルタ処理を行い、その結果得られたオーディオデータを加算部151に供給する。
 加算部150は、ディレイ生成部147から供給された2つのオーディオデータを加算し、加算部151に供給する。
 加算部151は、オールパスフィルタ群149から供給されたオーディオデータと、加算部150から供給されたオーディオデータとを加算し、その結果得られたウェット成分のオーディオデータを3Dオーディオレンダリング処理部68に供給する。
 なお、ここでは1つのオブジェクトに対して、ステレオ(2つ)のウェット成分が生成される例について説明したが、1つのオブジェクトに対して1つのウェット成分が生成されるようにしてもよいし、3以上のウェット成分が生成されるようにしてもよい。また、リバーブ処理部104の構成は、図4に示した構成に限らず、他のどのような構成であってもよい。
〈パラメタの制御ルールについて〉
 以上のように距離感制御処理部67を構成する各処理ブロックでは、聴取位置からオブジェクトまでの距離に応じて、それらの処理ブロックでの処理に用いられるパラメタ、すなわち処理の特性が変化する。
 ここで、聴取位置からオブジェクトまでの距離に応じたパラメタの例、すなわちパラメタの制御ルールの例について説明する。
 例えばゲイン制御部101では、聴取位置からオブジェクトまでの距離に応じたパラメタとして、ゲイン制御処理に用いるゲイン値が決定される。
 この場合、ゲイン値は、例えば図5に示すように聴取位置からオブジェクトまでの距離に応じて変化する。
 例えば矢印Q11に示す部分には、距離に応じたゲイン値の変化が示されている。すなわち、縦軸はパラメタとしてのゲイン値を示しており、横軸は聴取位置からオブジェクトまでの距離を示している。
 折れ線L11に示すように、聴取位置からオブジェクトまでの距離dが所定の最小値MinからD0である間はゲイン値は0.0dBであり、距離dがD0からD1の間では、距離dが大きくなるにしたがってゲイン値は直線的に小さくなる。また、距離dがD1から所定の最大値Maxの間ではゲイン値は-40.0dBとなっている。
 このことから、図5に示す例では距離dが大きくなるにつれて、オーディオデータのゲインが抑制される制御が行われることが分かる。
 具体的な例としては、例えば距離dが1m(=D0)以下である場合にはゲイン値を0.0dBとし、距離dが1mから100m(=D1)までの間では、距離dが大きくなるにつれて-40.0dBまで直線的にゲイン値を変化させることができる。
 ここで、パラメタが変化する点を制御変化点と呼ぶこととすると、図5の例では折れ線L11における距離d=D0である点(位置)、および距離d=D1である点が制御変化点となる。
 この場合、例えば矢印Q12に示すように制御変化点に対応する距離d=D0におけるゲイン値「0.0」と距離d=D1におけるゲイン値「-40.0」とを復号装置51に伝送すれば、復号装置51では、任意の距離dにおけるゲイン値を得ることができる。
 また、ハイシェルフフィルタ処理部102では、例えば図6の矢印Q21に示すように、聴取位置からオブジェクトまでの距離dが大きくなるにつれて、高域のゲインを抑制するフィルタ処理が行われる。
 なお、矢印Q21に示す部分では、縦軸はパラメタとしてのゲイン値を示しており、横軸は聴取位置からオブジェクトまでの距離dを示している。
 特に、この例ではハイシェルフフィルタ処理部102により実現されるハイシェルフフィルタは、カットオフ周波数Fc、尖鋭度を示すQ値、およびカットオフ周波数Fcにおけるゲイン値により定まるものである。
 換言すれば、ハイシェルフフィルタ処理部102では、パラメタであるカットオフ周波数Fc、Q値、およびゲイン値により定まるハイシェルフフィルタによるフィルタ処理が行われる。
 矢印Q21に示す部分における折れ線L21は、距離dに対して定められた、カットオフ周波数Fcにおけるゲイン値を示している。
 この例では、距離dが最小値MinからD0である間はゲイン値は0.0dBであり、距離dがD0からD1の間では、距離dが大きくなるにしたがってゲイン値は直線的に小さくなる。
 また、距離dがD1からD2の間では、距離dが大きくなるにしたがってゲイン値は直線的に小さくなり、同様に距離dがD2からD3の間、および距離dがD3からD4の間でも距離dが大きくなるにしたがってゲイン値は直線的に小さくなる。さらに、距離dがD4から最大値Maxの間ではゲイン値は-12.0dBとなっている。
 このことから、図6に示す例では距離dが大きくなるにつれて、オーディオデータにおけるカットオフ周波数Fc付近の周波数成分のゲインが抑制される制御が行われることが分かる。
 具体的な例としては、例えば距離dが1m(=D0)以下である場合には、カットオフ周波数Fc である6kHz以上の周波数成分をパススルーとし、距離dが1mから100m(=D4)までの間では、距離dが大きくなるにつれて6kHz以上の周波数成分を-12.0dBまで変化させるようにすることができる。
 また、このようなハイシェルフフィルタを復号装置51において実現するには、例えば矢印Q22に示すように距離d=D0,D1,D2,D3,D4の5つの制御変化点についてのみ、パラメタであるカットオフ周波数Fc、Q値、およびゲイン値を伝送すればよい。
 なお、ここでは距離dによらず、カットオフ周波数Fcは6kHzであり、Q値は2.0である例について説明するが、これらのカットオフ周波数FcやQ値も距離dに応じて変化するようにしてもよい。
 さらに、ローシェルフフィルタ処理部103では、例えば図7の矢印Q31に示すように、聴取位置からオブジェクトまでの距離dが小さくなるにつれて、低域のゲインを増幅させるフィルタ処理が行われる。
 なお、矢印Q31に示す部分では、縦軸はパラメタとしてのゲイン値を示しており、横軸は聴取位置からオブジェクトまでの距離dを示している。
 特に、この例ではローシェルフフィルタ処理部103により実現されるローシェルフフィルタは、カットオフ周波数Fc、尖鋭度を示すQ値、およびカットオフ周波数Fcにおけるゲイン値により定まるものである。
 換言すれば、ローシェルフフィルタ処理部103では、パラメタであるカットオフ周波数Fc、Q値、およびゲイン値により定まるローシェルフフィルタによるフィルタ処理が行われる。
 矢印Q31に示す部分における折れ線L31は、距離dに対して定められた、カットオフ周波数Fcにおけるゲイン値を示している。
 この例では、距離dが最小値MinからD0である間はゲイン値は3.0dBであり、距離dがD0からD1の間では、距離dが大きくなるにしたがってゲイン値は直線的に小さくなる。また、距離dがD1から最大値Maxの間ではゲイン値は0.0dBとなっている。
 このことから、図7に示す例では距離dが小さくなるにつれて、オーディオデータにおけるカットオフ周波数Fc付近の周波数成分のゲインが増幅される制御が行われることが分かる。
 具体的な例としては、例えば距離dが3m(=D1)以上である場合には、カットオフ周波数Fc である200Hz以下の周波数成分をパススルーとし、距離dが3mから10cm(=D0)までの間では、距離dが小さくなるにつれて200Hz以下の周波数成分を+3.0dBまで変化させるようにすることができる。
 また、このようなローシェルフフィルタを復号装置51において実現するには、例えば矢印Q32に示すように距離d=D0,D1の2つの制御変化点についてのみ、パラメタであるカットオフ周波数Fc、Q値、およびゲイン値を伝送すればよい。
 なお、ここでは距離dによらず、カットオフ周波数Fcは200Hzであり、Q値は2.0である例について説明するが、これらのカットオフ周波数FcやQ値も距離dに応じて変化するようにしてもよい。
 さらに、リバーブ処理部104では、例えば図8の矢印Q41に示すように、聴取位置からオブジェクトまでの距離dが大きくなるにつれて、ウェット成分のゲイン(ウェットゲイン値)が大きくなるリバーブ処理が行われる。
 換言すれば、距離dが大きくなるにつれて、リバーブ処理で生成するウェット成分(残響成分)のドライ成分に対する割り合いが増加していくような制御が行われる。なお、ここでいうウェットゲイン値は、例えば図4に示したゲイン制御部141でのゲイン制御で用いられるゲイン値である。
 矢印Q41に示す部分では、縦軸はパラメタとしてのウェットゲイン値を示しており、横軸は聴取位置からオブジェクトまでの距離dを示している。また、折れ線L41は、距離dに対して定められたウェットゲイン値を示している。
 折れ線L41に示すように、聴取位置からオブジェクトまでの距離dが最小値MinからD0である間はウェットゲイン値はマイナス無限大(-InfdB)であり、距離dがD0からD1の間では、距離dが大きくなるにしたがってウェットゲイン値は直線的に大きくなる。また、距離dがD1から最大値Maxの間ではウェットゲイン値は-3.0dBとなっている。
 このことから、図8に示す例では距離dが大きくなるにつれて、ウェット成分が大きくなるような制御が行われることが分かる。
 具体的な例としては、例えば距離dが1m(=D0)以下である場合には、ウェット成分のゲイン(ウェットゲイン値)を-InfdBとし、距離dが1mから50m(=D1)までの間では、距離dが大きくなるにつれて-3.0dBまで直線的にゲインを変化させることができる。
 さらに、このようなリバーブ処理を復号装置51において実現するには、例えば矢印Q42に示すように距離d=D0,D1の2つの制御変化点についてのみ、パラメタであるウェットゲイン値を伝送すればよい。
 また、リバーブ処理においては、任意の数のウェット成分(残響成分)のオーディオデータを生成することができる。
 具体的には、例えば図9に示すように1つのオブジェクトのオーディオデータ、すなわちモノラルのオーディオデータに対して、ステレオの残響成分のオーディオデータを生成することができる。
 この例では、再生空間内における3次元直交座標系であるXYZ座標系の原点Oが聴取位置となっており、再生空間内には1つのオブジェクトOB11が配置されている。
 いま、再生空間内の任意のオブジェクトの位置を、原点Oから見た水平方向の位置を示す水平角と、原点Oから見た垂直方向の位置を示す垂直角で表すこととし、オブジェクトOB11の位置が水平角azと垂直角elから(az,el)と表されるものとする。
 なお、水平角azは、原点OとオブジェクトOB11とを結ぶ直線をLNとし、その直線LNをXZ平面に射影して得られる直線をLN’としたときに、直線LN’とZ軸とのなす角度である。また、垂直角elは、直線LNとXZ平面とのなす角度である。
 図9の例では、オブジェクトOB11に対して、2つのオブジェクトOB12およびオブジェクトOB13がウェット成分のオブジェクトとして生成されている。
 特に、ここではオブジェクトOB12およびオブジェクトOB13は、原点Oから見てオブジェクトOB11に対して左右対称の位置に配置されている。
 すなわち、オブジェクトOB12およびオブジェクトOB13は、オブジェクトOB11に対して、相対的に左右に60度ずつずれた位置に配置されている。
 したがって、オブジェクトOB12の位置は水平角(az+60)と垂直角elから表される位置(az+60,el)の位置であり、オブジェクトOB13の位置は水平角(az-60)と垂直角elから表される位置(az-60,el)の位置である。
 このように、オブジェクトOB11に対して左右対称の位置のウェット成分を生成する場合には、それらのウェット成分の位置を、オブジェクトOB11の位置に対するオフセット角度により指定することができる。例えば、この例では水平角のオフセット角度±60度を指定すればよい。
 なお、ここでは1つのオブジェクトに対して、左側と右側に位置する左右2つのウェット成分を生成する例について説明したが、上下左右の各位置のウェット成分を生成するなど、1つのオブジェクトに対して生成されるウェット成分の数はいくつであってもよい。
 また、例えば図9に示したように左右対称のウェット成分を生成する場合、図10に示すように聴取位置からオブジェクトまでの距離に応じてウェット成分の位置を指定するオフセット角度が変化するようにしてもよい。
 図10の矢印Q51に示す部分には、図9に示したウェット成分であるオブジェクトOB12とオブジェクトOB13の水平角のオフセット角度が示されている。
 すなわち、矢印Q51に示す部分において縦軸は水平角のオフセット角度を示しており、横軸は聴取位置からオブジェクトOB11までの距離dを示している。
 また、折れ線L51は各距離dに対して定められた左側のウェット成分であるオブジェクトOB12のオフセット角度を示している。この例では距離dが小さくなるほどオフセット角度が大きくなり、もとのオブジェクトOB11からより離れた位置に配置される。
 一方、折れ線L52は各距離dに対して定められた右側のウェット成分であるオブジェクトOB13のオフセット角度を示している。この例では距離dが小さくなるほどオフセット角度が小さくなり、もとのオブジェクトOB11からより離れた位置に配置される。
 このように距離dに応じてオフセット角度が変化する場合、例えば矢印Q52に示すように、距離d=D0の制御変化点についてのみ、オフセット角度を復号装置51に伝送すれば、コンテンツ制作者の意図する位置にウェット成分を生成することができる。
 以上のようにして、聴取位置からオブジェクトまでの距離dに応じた構成およびパラメタで距離感制御処理を行えば、適切に距離感を再現することができる。すなわち、聴取者に対してオブジェクトとの距離感を感じさせることができる。
 このとき、コンテンツ制作者が各距離dでのパラメタを自由に決定すれば、コンテンツ制作者の意図に基づく距離感制御を実現することができる。
 なお、以上において説明した距離dに応じたパラメタの制御ルールは、あくまで一例であって、コンテンツ制作者が制御ルールを自由に指定できるようにすることで、オブジェクトとの距離感の感じ方を変化させることができる。
 例えば屋外と屋内では距離に対する音の変化は異なるため、再現したい空間が屋外であるか屋内であるかによって制御ルールを変える必要がある。
 そこで、例えばコンテンツ制作者がコンテンツで再現したい空間に応じて制御ルールを決定(指定)することで、コンテンツ制作者の意図に基づいた距離感制御を実現し、より臨場感の高いコンテンツ再生を行うことができる。
 また、距離感制御処理部67において、コンテンツ(再生オーディオデータ)の再生環境に応じて、距離感制御処理に用いられるパラメタをさらに調整することもできる。
 具体的には、例えばリバーブ処理で用いられるウェット成分のゲイン、つまり上述のウェットゲイン値を、コンテンツの再生環境に応じて調整することができる。
 実空間において実際にスピーカ等によりコンテンツを再生すると、その実空間ではスピーカ等から出力された音の残響が発生する。このとき、どの程度の残響が発生するかは、コンテンツの再生を行う実空間、つまり再生環境によって異なる。
 例えば、コンテンツを残響の多い環境で再生すると、再生されたコンテンツの音に対してさらに残響が付加される。そのため、実際にコンテンツを再生した場合に、距離感制御処理で実現される距離感、つまりコンテンツ制作者が意図する距離感よりも遠い距離感を聴取者に対して感じさせてしまう場合がある。
 そこで、再生環境での残響が少ない場合には、予め設定された制御ルール、すなわち制御ルール情報に従って距離感制御処理を行うが、再生環境での残響が比較的多い場合には、制御ルールに従って決定されたウェットゲイン値の微調整を行うようにしてもよい。
 具体的には、例えばユーザ等によりユーザインターフェース65が操作され、屋外や屋内などの再生環境の種別情報、残響が多い再生環境であるか否かを示す情報などといった、再生環境の残響に関する情報が入力されたとする。そのような場合、ユーザインターフェース65は、ユーザ等により入力された、再生環境の残響に関する情報を距離感制御処理部67に供給する。
 すると、距離感制御処理部67は、制御ルール情報、距離情報、およびユーザインターフェース65から供給された再生環境の残響に関する情報に基づいて、ウェットゲイン値を算出する。
 具体的には、距離感制御処理部67は、制御ルール情報および距離情報に基づいて、ウェットゲイン値を算出するとともに、再生環境の残響に関する情報に基づいて、残響の多い再生環境であるか否かの判定処理を行う。
 ここでは、例えば再生環境の残響に関する情報として、残響が多い再生環境であることを示す情報や、残響が多い再生環境を示す種別情報が供給された場合に、残響の多い再生環境であると判定される。
 そして、距離感制御処理部67は、残響の多い再生環境ではない、つまり残響の少ない再生環境であると判定された場合、算出されたウェットゲイン値を、最終的なウェットゲイン値としてリバーブ処理部104に供給する。
 これに対して、距離感制御処理部67は、残響の多い再生環境であると判定された場合、算出されたウェットゲイン値を、-6dBなどの所定の補正値により補正(調整)し、補正後のウェットゲイン値を最終的なウェットゲイン値としてリバーブ処理部104に供給する。
 なお、ウェットゲイン値の補正値は、予め定められた値であってもよいし、再生環境の残響に関する情報、つまり再生環境での残響の度合いに基づいて距離感制御処理部67により算出されるようにしてもよい。
 このように再生環境に応じてウェットゲイン値を調整することで、コンテンツの再生環境によって生じる、コンテンツ制作者の意図する距離感とのずれを改善することができる。
〈距離感制御情報の伝送について〉
 次に、以上において説明した距離感制御情報の伝送方法について説明する。
 距離感制御情報符号化部24で符号化される距離感制御情報は、例えば図11に示す構成とすることができる。
 図11では、「DistanceRender_Attn()」は、ゲイン制御部101で用いられるパラメタの制御ルールを示すパラメタ構成情報を示している。
 また、「DistanceRender_Filt()」は、ハイシェルフフィルタ処理部102またはローシェルフフィルタ処理部103で用いられるパラメタの制御ルールを示すパラメタ構成情報を示している。
 ここでは、ハイシェルフフィルタとローシェルフフィルタは、同じパラメタ構成で表現可能であるため、同じパラメタ構成情報DistanceRender_Filt()というSyntaxで記述されている。したがって距離感制御情報には、ハイシェルフフィルタ処理部102のパラメタ構成情報DistanceRender_Filt()と、ローシェルフフィルタ処理部103のパラメタ構成情報DistanceRender_Filt()とが含まれている。
 さらに「DistanceRender_Revb()」は、リバーブ処理部104で用いられるパラメタの制御ルールを示すパラメタ構成情報を示している。
 距離感制御情報に含まれているパラメタ構成情報DistanceRender_Attn()、パラメタ構成情報DistanceRender_Filt()、およびパラメタ構成情報DistanceRender_Revb()は、制御ルール情報に対応する。
 また、図11に示す距離感制御情報では、距離感制御処理を構成する4つの処理のパラメタ構成情報が、それらの処理が行われる順番に並べられて格納されている。
 そのため、復号装置51では距離感制御情報に基づいて、図3に示した距離感制御処理部67の構成を特定することができる。換言すれば、図11に示す距離感制御情報から、距離感制御処理がいくつの処理から構成され、それらの処理がどのような処理で、どのような順番で行われるかを特定することができる。したがって、この例では距離感制御情報には、実質的に構成情報が含まれているということができる。
 さらに、図11に示したパラメタ構成情報DistanceRender_Attn()、パラメタ構成情報DistanceRender_Filt()、およびパラメタ構成情報DistanceRender_Revb()は、例えば図12乃至図14に示すように構成される。
 図12は、ゲイン制御処理のパラメタ構成情報DistanceRender_Attn()の構成例、すなわちSyntax例を示す図である。
 図12において「num_points」は、ゲイン制御処理のパラメタの制御変化点の数を示している。例えば図5に示した例では、距離d=D0である点(位置)と距離d=D1である点が制御変化点である。
 図12の例では、制御変化点の数だけ、それらの制御変化点に対応する距離dを示す「distance[i]」と、その距離dにおけるパラメタとしてのゲイン値「gain[i]」が含まれている。このように各制御変化点の距離distance[i]とゲイン値gain[i]を伝送すれば、復号装置51において図5に示したゲイン制御を実現することができる。
 図13は、フィルタ処理のパラメタ構成情報DistanceRender_Filt()の構成例、すなわちSyntax例を示す図である。
 図13において「filt_type」は、フィルタタイプを示すインデックスを示している。
 例えばインデックスfilt_type「0」はローシェルフフィルタを示しており、インデックスfilt_type「1」はハイシェルフフィルタを示しており、インデックスfilt_type「2」はピークフィルタを示している。
 また、インデックスfilt_type「3」はローパスフィルタを示しており、インデックスfilt_type「4」はハイパスフィルタを示している。
 したがって、例えばインデックスfilt_typeの値が「0」であれば、このパラメタ構成情報DistanceRender_Filt()には、ローシェルフフィルタの構成を特定するためのパラメタに関する情報が含まれていることが分かる。
 なお、図3に示した例では、距離感制御処理を構成するフィルタ処理のフィルタ例としてハイシェルフフィルタとローシェルフフィルタについて説明した。
 これに対して、図13に示す例では、その他、ピークフィルタやローパスフィルタ、ハイパスフィルタなども用いることができるようになっている。
 なお、距離感制御処理を構成するフィルタ処理のためのフィルタは、ローシェルフフィルタやハイシェルフフィルタ、ピークフィルタ、ローパスフィルタ、ハイパスフィルタのうちのいくつかのみ用いることができるようにしてもよいし、他のフィルタも用いることができるようにしてもよい。
 図13に示すパラメタ構成情報DistanceRender_Filt()では、インデックスfilt_type以降の領域には、そのインデックスfilt_typeにより示されるフィルタの構成を特定するためのパラメタ等が含まれている。
 すなわち、「num_points」はフィルタ処理のパラメタの制御変化点の数を示している。
 また、その「num_points」により示される制御変化点の数だけ、制御変化点に対応する距離dを示す「distance[i]」、その距離dにおけるパラメタとしての周波数「freq[i]」、Q値「Q[i]」、およびゲイン値「gain[i]」が含まれている。
 例えばインデックスfilt_typeがローシェルフフィルタを示す「0」であれば、パラメタである周波数「freq[i]」、Q値「Q[i]」、およびゲイン値「gain[i]」は、図7に示したカットオフ周波数Fc、Q値、およびゲイン値に対応する。
 なお、周波数freq[i]は、フィルタタイプがローシェルフフィルタやハイシェルフフィルタ、ローパスフィルタ、ハイパスフィルタであるときにはカットオフ周波数であるが、フィルタタイプがピークフィルタであるときには中心周波数となる。
 以上のように各制御変化点の距離distance[i]、周波数「freq[i]」、Q値「Q[i]」、およびゲイン値「gain[i]」を伝送すれば、復号装置51において図6に示したハイシェルフフィルタや、図7に示したローシェルフフィルタを実現することができる。
 図14は、リバーブ処理のパラメタ構成情報DistanceRender_Revb()の構成例、すなわちSyntax例を示す図である。
 図14において「num_points」は、リバーブ処理のパラメタの制御変化点の数を示しており、この例では、制御変化点の数だけ、それらの制御変化点に対応する距離dを示す「distance[i]」と、その距離dにおけるパラメタとしてのウェットゲイン値「wet_gain[i]」が含まれている。このウェットゲイン値wet_gain[i]は、例えば図8に示したウェットゲイン値に対応する。
 また、図14において「num_wetobjs」は、生成されるウェット成分の数、すなわちウェット成分のオブジェクトの数を示しており、それらのウェット成分の数だけウェット成分の位置を示すオフセット角度が格納されている。
 すなわち、「wet_azimuth_offset[i][j]」は、i番目の制御変化点に対応する距離distance[i]における、j番目のウェット成分(オブジェクト)の水平角のオフセット角度を示している。このオフセット角度wet_azimuth_offset[i][j]は、例えば図10に示した水平角のオフセット角度に対応する。
 同様に「wet_elevation_offset[i][j]」は、i番目の制御変化点に対応する距離distance[i]における、j番目のウェット成分の垂直角のオフセット角度を示している。
 なお、生成されるウェット成分の数num_wetobjsは、復号装置51で行わせようとするリバーブ処理によって決定され、例えばウェット成分の数num_wetobjsは外部から与えられるものとする。
 このように図14の例では、各制御変化点における距離distance[i]およびウェットゲイン値wet_gain[i]と、各ウェット成分のオフセット角度wet_azimuth_offset[i][j]およびオフセット角度wet_elevation_offset[i][j]とが復号装置51に伝送される。
 これにより復号装置51では、例えば図4に示したリバーブ処理部104を実現することができ、ドライ成分のオーディオデータと、各ウェット成分のオーディオデータおよびメタデータとを得ることができる。
〈符号化処理の説明〉
 続いて、コンテンツ再生システムの動作について説明する。
 まず、図15のフローチャートを参照して、符号化装置11により行われる符号化処理について説明する。
 ステップS11においてオブジェクト符号化部21は、供給された各オブジェクトのオーディオデータを符号化し、得られた符号化オーディオデータを多重化部25に供給する。
 ステップS12においてメタデータ符号化部22は、供給された各オブジェクトのメタデータを符号化し、得られた符号化メタデータを多重化部25に供給する。
 ステップS13において距離感制御情報決定部23は、ユーザによる指定操作等に応じて距離感制御情報を決定し、決定した距離感制御情報を距離感制御情報符号化部24に供給する。
 ステップS14において距離感制御情報符号化部24は、距離感制御情報決定部23から供給された距離感制御情報を符号化し、得られた符号化距離感制御情報を多重化部25に供給する。これにより、例えば図11に示した距離感制御情報(符号化距離感制御情報)が得られ、多重化部25に供給される。
 ステップS15において多重化部25は、オブジェクト符号化部21からの符号化オーディオデータ、メタデータ符号化部22からの符号化メタデータ、および距離感制御情報符号化部24からの符号化距離感制御情報を多重化し、符号化データを生成する。
 ステップS16において多重化部25は、多重化により得られた符号化データを、通信網等を介して復号装置51に送信し、符号化処理は終了する。
 以上のようにして符号化装置11は、距離感制御情報を含む符号化データを生成し、復号装置51へと送信する。
 このように各オブジェクトのオーディオデータやメタデータに加えて距離感制御情報も復号装置51に伝送することで、復号装置51側においてコンテンツ制作者の意図に基づいた距離感制御を実現することができるようになる。
〈復号処理の説明〉
 また、符号化装置11において図15を参照して説明した符号化処理が行われると、復号装置51では復号処理が行われる。以下、図16のフローチャートを参照して、復号装置51による復号処理について説明する。
 ステップS41において非多重化部61は、符号化装置11から送信されてきた符号化データを受信する。
 ステップS42において非多重化部61は、受信した符号化データを非多重化し、符号化データから符号化オーディオデータ、符号化メタデータ、および符号化距離感制御情報を抽出する。
 非多重化部61は、符号化オーディオデータをオブジェクト復号部62に供給し、符号化メタデータをメタデータ復号部63に供給し、符号化距離感制御情報を距離感制御情報復号部64に供給する。
 ステップS43においてオブジェクト復号部62は、非多重化部61から供給された符号化オーディオデータを復号し、得られたオーディオデータを距離感制御処理部67に供給する。
 ステップS44においてメタデータ復号部63は、非多重化部61から供給された符号化メタデータを復号し、得られたメタデータを距離感制御処理部67および距離計算部66に供給する。
 ステップS45において距離感制御情報復号部64は、非多重化部61から供給された符号化距離感制御情報を復号し、得られた距離感制御情報を距離感制御処理部67に供給する。
 ステップS46において距離計算部66は、メタデータ復号部63から供給されたメタデータと、ユーザインターフェース65から供給された聴取位置情報とに基づいて聴取位置からオブジェクトまでの距離を計算し、その計算結果を示す距離情報を距離感制御処理部67に供給する。ステップS46では、オブジェクトごとに距離情報が求められる。
 ステップS47において距離感制御処理部67は、オブジェクト復号部62から供給されたオーディオデータ、メタデータ復号部63から供給されたメタデータ、距離感制御情報復号部64から供給された距離感制御情報、ユーザインターフェース65から供給された聴取位置情報、および距離計算部66から供給された距離情報に基づいて距離感制御処理を行う。
 例えば距離感制御処理部67が図3に示した構成とされ、図11に示した距離感制御情報が供給された場合、距離感制御処理部67は距離感制御情報と距離情報に基づいて各処理で用いるパラメタを算出する。
 具体的には、例えば距離感制御処理部67は、各制御変化点の距離distance[i]およびゲイン値gain[i]に基づいて、距離情報により示される距離dにおけるゲイン値を求め、ゲイン制御部101に供給する。
 また、距離感制御処理部67は、ハイシェルフフィルタの各制御変化点の距離distance[i]、周波数freq[i]、Q値Q[i]、およびゲイン値gain[i]に基づいて、距離情報により示される距離dにおけるカットオフ周波数、Q値、およびゲイン値を求め、ハイシェルフフィルタ処理部102に供給する。
 これにより、ハイシェルフフィルタ処理部102は、距離情報により示される距離dに応じたハイシェルフフィルタを構築することができる。
 距離感制御処理部67は、ハイシェルフフィルタの場合と同様にして、距離情報により示される距離dにおけるローシェルフフィルタのカットオフ周波数、Q値、およびゲイン値を求め、ローシェルフフィルタ処理部103に供給する。これにより、ローシェルフフィルタ処理部103は、距離情報により示される距離dに応じたローシェルフフィルタを構築することができる。
 さらに距離感制御処理部67は、各制御変化点の距離distance[i]およびウェットゲイン値wet_gain[i]に基づいて、距離情報により示される距離dにおけるウェットゲイン値を求め、リバーブ処理部104に供給する。
 これにより、距離感制御情報から図3に示した距離感制御処理部67が構築されたことになる。
 また、距離感制御処理部67は、水平角のオフセット角度wet_azimuth_offset[i][j]および垂直角のオフセット角度wet_elevation_offset[i][j]と、オブジェクトのメタデータと、聴取位置情報とをリバーブ処理部104に供給する。
 ゲイン制御部101は、距離感制御処理部67から供給されたゲイン値に基づいて、オブジェクトのオーディオデータに対してゲイン制御処理を行い、その結果得られたオーディオデータをハイシェルフフィルタ処理部102に供給する。
 ハイシェルフフィルタ処理部102は、距離感制御処理部67から供給されたカットオフ周波数、Q値、およびゲイン値により定まるハイシェルフフィルタにより、ゲイン制御部101から供給されたオーディオデータに対してフィルタ処理を行い、その結果得られたオーディオデータをローシェルフフィルタ処理部103に供給する。
 ローシェルフフィルタ処理部103は、距離感制御処理部67から供給されたカットオフ周波数、Q値、およびゲイン値により定まるローシェルフフィルタにより、ハイシェルフフィルタ処理部102から供給されたオーディオデータに対してフィルタ処理を行う。
 距離感制御処理部67は、ローシェルフフィルタ処理部103でのフィルタ処理により得られたオーディオデータを、ドライ成分のオーディオデータとして、そのドライ成分のオブジェクトのメタデータとともに3Dオーディオレンダリング処理部68に供給する。このドライ成分のメタデータは、メタデータ復号部63から供給されたメタデータである。
 また、ローシェルフフィルタ処理部103は、フィルタ処理により得られたオーディオデータをリバーブ処理部104に供給する。
 するとリバーブ処理部104では、例えば図4を参照して説明したように、ドライ成分のオーディオデータに対するウェットゲイン値に基づくゲイン制御や、オーディオデータに対する遅延処理、コムフィルタやオールパスフィルタによるフィルタ処理などが行われ、ウェット成分のオーディオデータが生成される。
 また、リバーブ処理部104は、オフセット角度wet_azimuth_offset[i][j]およびオフセット角度wet_elevation_offset[i][j]と、オブジェクト(ドライ成分)のメタデータと、聴取位置情報とに基づいてウェット成分の位置情報を算出するとともに、その位置情報を含むウェット成分のメタデータを生成する。
 リバーブ処理部104は、このようにして生成された各ウェット成分のオーディオデータとメタデータとを3Dオーディオレンダリング処理部68に供給する。
 ステップS48において3Dオーディオレンダリング処理部68は、距離感制御処理部67から供給されたオーディオデータおよびメタデータと、ユーザインターフェース65から供給された聴取位置情報とに基づいてレンダリング処理を行い、再生オーディオデータを生成する。例えばステップS48ではVBAPなどがレンダリング処理として行われる。
 再生オーディオデータが生成されると、3Dオーディオレンダリング処理部68は、生成された再生オーディオデータを後段に出力し、復号処理は終了する。
 以上のようにして復号装置51は、符号化データに含まれている距離感制御情報に基づいて距離感制御処理を行い、再生オーディオデータを生成する。このようにすることで、コンテンツ制作者の意図に基づいた距離感制御を実現することができる。
〈第1の実施の形態の変形例1〉
〈パラメタ構成情報の他の例〉
 なお、以上においてはパラメタ構成情報として、図12や図13、図14に示す例について説明したが、これに限らず、パラメタ構成情報は距離感制御処理のパラメタを得ることができるものであれば、どのようなものであってもよい。
 例えば距離感制御処理を構成する1または複数の各処理について、聴取位置からオブジェクトまでの距離dに対するパラメタを得るためのテーブルや関数(数式)などを予め用意し、それらのテーブルや関数を示すインデックスをパラメタ構成情報に含めるようにすることも考えられる。この場合、テーブルや関数を示すインデックスがパラメタの制御ルールを示す制御ルール情報となる。
 このようにパラメタを得るためのテーブルや関数を示すインデックスを制御ルール情報とする場合、例えば図17に示すように、パラメタとしてのゲイン制御処理のゲイン値を得るためのテーブルや関数を複数用意しておくことができる。
 この例では、例えばインデックスの値「1」に対しては、ゲイン制御処理のゲイン値を得るための関数「20log10(1/d)2」が用意されており、この関数に距離dを代入することにより、距離dに応じたゲイン制御処理のゲイン値を得ることができる。
 また、例えばインデックスの値「2」に対して、ゲイン制御処理のゲイン値を得るためのテーブルが用意されており、このテーブルを用いたときには距離dが大きくなるほど、パラメタとしてのゲイン値は小さくなる。
 復号装置51の距離感制御処理部67は、このような各インデックスに対応付けてテーブルや関数を予め保持している。
 このような場合、例えば図11に示したパラメタ構成情報DistanceRender_Attn()は、図18に示す構成とされる。
 図18の例では、パラメタ構成情報DistanceRender_Attn()には、コンテンツ制作者により指定された関数やテーブルを示すインデックス「index」が含まれている。
 したがって、距離感制御処理部67では、このインデックスindexに対応付けられて保持されているテーブルや関数が読み出され、読み出されたテーブルや関数と、聴取位置からオブジェクトまでの距離dとに基づいてパラメタとしてのゲイン値が求められる。
 このように距離dに応じたパラメタを得るための複数のパターン、すなわち複数のテーブルや関数を予め定義しておけば、コンテンツ制作者はそれらのパターンのなかから所望のものを指定(選択)することで、自身の意図に合った距離感制御処理が行われるようにすることができる。
 なお、ここではゲイン制御処理のパラメタを得るためのテーブルや関数をインデックスにより指定する例について説明した。しかし、これに限らず、ハイシェルフフィルタ等のフィルタ処理やリバーブ処理における場合においても同様にして、インデックスによりパラメタの制御ルールを指定することができる。
〈第1の実施の形態の変形例2〉
〈距離感制御情報の他の例〉
 また、以上においては全てのオブジェクトについて、同じ制御ルールで、距離dに応じたパラメタが決定される例について説明したがオブジェクトごとにパラメタの制御ルールを設定(指定)できるようにしてもよい。
 そのような場合、距離感制御情報は、例えば図19に示す構成とされる。
 図19に示す例では、「num_objs」はコンテンツを構成するオブジェクトの数を示しており、例えばオブジェクトの数num_objsは外部から距離感制御情報決定部23に与えられる。
 距離感制御情報にはこのオブジェクトの数num_objsの分だけ、オブジェクトが距離感制御の対象であるか否かを示すフラグ「isDistanceRenderFlg」が含まれている。
 例えばi番目のオブジェクトのフラグisDistanceRenderFlgの値が「1」である場合、そのオブジェクトは距離感制御の対象であるとされ、そのオブジェクトのオーディオデータに対して距離感制御処理が行われる。
 i番目のオブジェクトのフラグisDistanceRenderFlgの値が「1」である場合、距離感制御情報には、そのオブジェクトのパラメタ構成情報DistanceRender_Attn()、2個のパラメタ構成情報DistanceRender_Filt()、およびパラメタ構成情報DistanceRender_Revb()が含まれている。
 したがって、この場合には上述したように距離感制御処理部67において、対象とされたオブジェクトのオーディオデータに対して距離感制御処理が行われ、得られたドライ成分やウェット成分のオーディオデータとメタデータが出力される。
 これに対して、i番目のオブジェクトのフラグisDistanceRenderFlgの値が「0」である場合、そのオブジェクトは距離感制御の対象ではない、つまり対象外であるとされ、そのオブジェクトのオーディオデータに対しては距離感制御処理が行われない。
 したがって、そのようなオブジェクトについては、オブジェクトのオーディオデータとメタデータがそのまま距離感制御処理部67から3Dオーディオレンダリング処理部68へと供給される。
 i番目のオブジェクトのフラグisDistanceRenderFlgの値が「0」である場合、距離感制御情報には、そのオブジェクトのパラメタ構成情報DistanceRender_Attn()、パラメタ構成情報DistanceRender_Filt()、およびパラメタ構成情報DistanceRender_Revb()は含まれていない。
 このように図19に示す例では、距離感制御情報符号化部24においてオブジェクトごとにパラメタ構成情報が符号化される。換言すれば、オブジェクトごとに距離感制御情報が符号化される。これにより、コンテンツ制作者の意図に基づいた距離感制御をオブジェクトごとに実現し、より臨場感の高いコンテンツ再生を行うことができる。
 特に、この例では距離感制御情報にフラグisDistanceRenderFlgを格納することで、オブジェクトごとに距離感制御を行うか否かを設定したうえで、オブジェクトごとに異なる距離感制御を行うことができるようになされている。
 例えば人の音声のオブジェクトについては、そのオブジェクト以外の他のオブジェクトとは異なる制御ルールを設定したり、距離感制御自体を行わないようにしたりすることで、距離感をあまり感じさせない、つまり聴取者にとって常に聞きやすい音(聞き取りやすい音)が再生されるようにすることができる。
〈第1の実施の形態の変形例3〉
〈距離感制御情報の他の例〉
 また、オブジェクトごとではなく、1または複数のオブジェクトからなるオブジェクトグループごとにパラメタの制御ルールを設定(指定)できるようにしてもよい。
 そのような場合、距離感制御情報は、例えば図20に示す構成とされる。
 図20に示す例では、「num_obj_groups」はコンテンツを構成するオブジェクトグループの数を示しており、例えばオブジェクトグループの数num_obj_groupsは外部から距離感制御情報決定部23に与えられる。
 距離感制御情報にはこのオブジェクトグループの数num_obj_groupsの分だけ、オブジェクトグループ、より詳細にはオブジェクトグループに属すオブジェクトが距離感制御の対象であるか否かを示すフラグ「isDistanceRenderFlg」が含まれている。
 例えばi番目のオブジェクトグループのフラグisDistanceRenderFlgの値が「1」である場合、そのオブジェクトグループは距離感制御の対象であるとされ、そのオブジェクトグループに属すオブジェクトのオーディオデータに対して距離感制御処理が行われる。
 i番目のオブジェクトグループのフラグisDistanceRenderFlgの値が「1」である場合、距離感制御情報には、そのオブジェクトグループのパラメタ構成情報DistanceRender_Attn()、2個のパラメタ構成情報DistanceRender_Filt()、およびパラメタ構成情報DistanceRender_Revb()が含まれている。
 したがって、この場合には上述したように距離感制御処理部67において、対象とされたオブジェクトグループに属すオブジェクトのオーディオデータに対して距離感制御処理が行われる。
 これに対して、i番目のオブジェクトグループのフラグisDistanceRenderFlgの値が「0」である場合、そのオブジェクトグループは距離感制御の対象ではないとされ、オブジェクトグループのオブジェクトのオーディオデータに対して距離感制御処理は行われない。
 したがって、そのようなオブジェクトグループのオブジェクトについては、オブジェクトのオーディオデータとメタデータがそのまま距離感制御処理部67から3Dオーディオレンダリング処理部68へと供給される。
 i番目のオブジェクトグループのフラグisDistanceRenderFlgの値が「0」である場合、距離感制御情報には、そのオブジェクトグループのパラメタ構成情報DistanceRender_Attn()、パラメタ構成情報DistanceRender_Filt()、およびパラメタ構成情報DistanceRender_Revb()は含まれていない。
 このように図20に示す例では、距離感制御情報符号化部24においてオブジェクトグループごとにパラメタ構成情報が符号化される。換言すれば、オブジェクトグループごとに距離感制御情報が符号化される。これにより、コンテンツ制作者の意図に基づいた距離感制御をオブジェクトグループごとに実現し、より臨場感の高いコンテンツ再生を行うことができる。
 特に、この例では距離感制御情報にフラグisDistanceRenderFlgを格納することで、オブジェクトグループごとに距離感制御を行うか否かを設定したうえで、オブジェクトグループごとに異なる距離感制御を行うことができる。
 例えばドラムセットを構成するスネアドラムやバスドラム、タムタム、シンバルなどの複数の打楽器に対して同じ制御ルールを設定する場合、コンテンツ制作者は、それらの複数の打楽器のオブジェクトをまとめて1つのオブジェクトグループとすることができる。
 このようにすることで、同じオブジェクトグループに属す、ドラムセットを構成する複数の各打楽器に対応する各オブジェクトに対して同じ制御ルールを設定することができる。すなわち、複数の各オブジェクトに対して同じ制御ルール情報を付与することができる。さらに、図20に示した例のように、オブジェクトグループごとにパラメタ構成情報を伝送することで、復号側に伝送するパラメタ等の情報、すなわち距離感制御情報の情報量をより少なくすることができる。
〈第2の実施の形態〉
〈距離感制御処理部の構成例〉
 また、以上においては復号装置51に設けられた距離感制御処理部67の構成が予め定められている例について説明した。すなわち、距離感制御情報の構成情報により示される、距離感制御処理を構成する1または複数の処理や、それらの処理の順番が予め定められている例について説明した。
 しかし、これに限らず距離感制御情報の構成情報によって距離感制御処理部67の構成を自由に変えることができるようにしてもよい。
 そのような場合、距離感制御処理部67は、例えば図21に示すように構成される。
 図21に示す例では、距離感制御処理部67は距離感制御情報に応じてプログラムを実行し、信号処理部201-1乃至信号処理部201-3、およびリバーブ処理部202-1乃至リバーブ処理部202-4のうちのいくつかの処理ブロックを実現する。
 信号処理部201-1は、距離計算部66から供給された距離情報と、距離感制御情報復号部64から供給された距離感制御情報とに基づいて、オブジェクト復号部62から供給されたオブジェクトのオーディオデータに対して信号処理を施し、その結果得られたオーディオデータを信号処理部201-2に供給する。
 このとき、信号処理部201-1は、リバーブ処理部202-2が機能している場合、すなわちリバーブ処理部202-2が実現されている場合には、信号処理により得られたオーディオデータをリバーブ処理部202-2にも供給する。
 信号処理部201-2は、距離計算部66から供給された距離情報と、距離感制御情報復号部64から供給された距離感制御情報とに基づいて、信号処理部201-1から供給されたオーディオデータに対して信号処理を施し、その結果得られたオーディオデータを信号処理部201-3に供給する。このとき、信号処理部201-2は、リバーブ処理部202-3が機能している場合には、信号処理により得られたオーディオデータをリバーブ処理部202-3にも供給する。
 信号処理部201-3は、距離計算部66から供給された距離情報と、距離感制御情報復号部64から供給された距離感制御情報とに基づいて、信号処理部201-2から供給されたオーディオデータに対して信号処理を施し、その結果得られたオーディオデータを3Dオーディオレンダリング処理部68に供給する。このとき、信号処理部201-3は、リバーブ処理部202-4が機能している場合には、信号処理により得られたオーディオデータをリバーブ処理部202-4にも供給する。
 なお、以下、信号処理部201-1乃至信号処理部201-3を特に区別する必要のない場合、単に信号処理部201とも称することとする。
 信号処理部201-1や、信号処理部201-2、信号処理部201-3で行われる信号処理は、距離感制御情報の構成情報により示される処理である。
 具体的には、信号処理部201で行われる信号処理は、例えばゲイン制御処理、ハイシェルフフィルタやローシェルフフィルタ等によるフィルタ処理などである。
 リバーブ処理部202-1は、距離計算部66から供給された距離情報と、距離感制御情報復号部64から供給された距離感制御情報とに基づいて、オブジェクト復号部62から供給されたオブジェクトのオーディオデータに対してリバーブ処理を施すことで、ウェット成分のオーディオデータを生成する。
 また、リバーブ処理部202-1は、距離感制御情報復号部64から供給された距離感制御情報、メタデータ復号部63から供給されたメタデータ、ユーザインターフェース65から供給された聴取位置情報に基づいて、ウェット成分の位置情報を含むメタデータを生成する。なお、リバーブ処理部202-1では、必要に応じて距離情報も用いられてウェット成分のメタデータが生成される。
 リバーブ処理部202-1は、このようにして生成したウェット成分のメタデータとオーディオデータを3Dオーディオレンダリング処理部68に供給する。
 リバーブ処理部202-2は、距離計算部66からの距離情報、距離感制御情報復号部64からの距離感制御情報、信号処理部201-1からのオーディオデータ、メタデータ復号部63からのメタデータ、およびユーザインターフェース65からの聴取位置情報に基づいて、ウェット成分のメタデータおよびオーディオデータを生成し、3Dオーディオレンダリング処理部68に供給する。
 リバーブ処理部202-3は、距離計算部66からの距離情報、距離感制御情報復号部64からの距離感制御情報、信号処理部201-2からのオーディオデータ、メタデータ復号部63からのメタデータ、およびユーザインターフェース65からの聴取位置情報に基づいて、ウェット成分のメタデータおよびオーディオデータを生成し、3Dオーディオレンダリング処理部68に供給する。
 リバーブ処理部202-4は、距離計算部66からの距離情報、距離感制御情報復号部64からの距離感制御情報、信号処理部201-3からのオーディオデータ、メタデータ復号部63からのメタデータ、およびユーザインターフェース65からの聴取位置情報に基づいて、ウェット成分のメタデータおよびオーディオデータを生成し、3Dオーディオレンダリング処理部68に供給する。
 これらのリバーブ処理部202-2やリバーブ処理部202-3、リバーブ処理部202-4では、リバーブ処理部202-1における場合と同様の処理が行われ、ウェット成分のメタデータおよびオーディオデータが生成される。
 なお、以下、リバーブ処理部202-1乃至リバーブ処理部202-4を特に区別する必要のない場合、単にリバーブ処理部202とも称する。
 距離感制御処理部67では、リバーブ処理部202が1つも機能しない構成とされてもよいし、1または複数のリバーブ処理部202が機能する構成とされてもよい。
 したがって例えば距離感制御処理部67は、オブジェクト(ドライ成分)に対して左右に位置するウェット成分を生成するリバーブ処理部202と、オブジェクトに対して上下に位置するウェット成分を生成するリバーブ処理部202とを有する構成とされてもよい。
 以上のようにすることで、距離感制御処理を構成する各信号処理や、それらの信号処理が行われる順番をコンテンツ制作者が自由に指定することができる。これにより、コンテンツ制作者の意図に基づいた距離感制御を実現することができる。
〈距離感制御情報の他の例〉
 また、図21に示したように距離感制御処理部67の構成を自由に変更(指定)することができる場合、距離感制御情報は、例えば図22に示す構成とされる。
 図22に示す例では、「num_objs」はコンテンツを構成するオブジェクトの数を示しており、距離感制御情報にはこのオブジェクトの数num_objsの分だけ、オブジェクトが距離感制御の対象であるか否かを示すフラグ「isDistanceRenderFlg」が含まれている。
 なお、これらのオブジェクトの数num_objs、およびフラグisDistanceRenderFlgは、図19に示した例と同様であるので、その説明は省略する。
 i番目のオブジェクトのフラグisDistanceRenderFlgの値が「1」である場合、距離感制御情報には、そのオブジェクトに対して行われる距離感制御処理を構成する各信号処理について、信号処理を示すid情報「proc_id」とパラメタ構成情報とが含まれている。
 すなわち、例えばj番目(但し0≦j<4)の信号処理を示すid情報「proc_id」に応じて、ゲイン制御処理のパラメタ構成情報「DistanceRender_Attn()」、フィルタ処理のパラメタ構成情報「DistanceRender_Filt()」、リバーブ処理のパラメタ構成情報「DistanceRender_Revb()」、またはユーザ定義処理のパラメタ構成情報「DistanceRender_UserDefine()」が距離感制御情報に含まれている。
 具体的には、例えばid情報「proc_id」がゲイン制御処理を示す「ATTN」である場合、ゲイン制御処理のパラメタ構成情報「DistanceRender_Attn()」が距離感制御情報に含まれている。
 なお、パラメタ構成情報「DistanceRender_Attn()」、「DistanceRender_Filt()」、および「DistanceRender_Revb()」は、図11における場合と同様であるので、その説明は省略する。
 また、パラメタ構成情報「DistanceRender_UserDefine()」は、ユーザによって任意に定義された信号処理であるユーザ定義処理で用いられるパラメタの制御ルールを示すパラメタ構成情報を示している。
 したがって、この例ではゲイン制御処理やフィルタ処理、リバーブ処理だけでなく、ユーザにより別途定義されたユーザ定義処理を、距離感制御処理を構成する信号処理として追加することができるようになっている。
 なお、ここでは距離感制御処理を構成する信号処理の数が4個である場合を例として説明したが、距離感制御処理を構成する信号処理の数はいくつであってもよい。
 図22に示した距離感制御情報では、例えば距離感制御処理を構成する0番目の信号処理をゲイン制御処理とし、1番目の信号処理をハイシェルフフィルタによるフィルタ処理とし、2番目の信号処理をローシェルフフィルタによるフィルタ処理とし、3番目の信号処理をリバーブ処理とすれば、図3に示したものと同じ構成の距離感制御処理部67が実現されることになる。
 そのような場合、図21に示した距離感制御処理部67では、信号処理部201-1乃至信号処理部201-3、およびリバーブ処理部202-4が実現され、リバーブ処理部202-1乃至リバーブ処理部202-3は実現されない(機能しない)。
 そして、信号処理部201-1乃至信号処理部201-3、およびリバーブ処理部202-4は、図3に示したゲイン制御部101、ハイシェルフフィルタ処理部102、ローシェルフフィルタ処理部103、およびリバーブ処理部104として機能する。
 このように、距離感制御情報が図22に示す構成とされる場合においても、基本的には符号化装置11では図15を参照して説明した符号化処理が行われ、復号装置51では図16を参照して説明した復号処理が行われる。
 但し、符号化処理では、例えばステップS13においてオブジェクトごとに、距離感制御処理の対象とするか否かや、距離感制御処理の構成などが決定され、ステップS14では図22に示した構成の距離感制御情報が符号化される。
 一方、復号処理では、ステップS47において、図22に示した構成の距離感制御情報に基づいて、オブジェクトごとに距離感制御処理部67の構成が決定され、適宜、距離感制御処理が行われる。
 以上のように、本技術によれば、コンテンツ制作者の設定等に応じて、距離感制御情報をオブジェクトのオーディオデータとともに復号側に伝送することで、オブジェクトベースオーディオにおいて、コンテンツ制作者の意図に基づいた距離感制御を実現することができる。
〈コンピュータの構成例〉
 ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図23は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
 バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
 入力部506は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
 以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、本技術は、以下の構成とすることも可能である。
(1)
 オブジェクトのオーディオデータを符号化するオブジェクト符号化部と、
 前記オブジェクトの位置情報を含むメタデータを符号化するメタデータ符号化部と、
 前記オーディオデータに対して行われる距離感制御処理のための距離感制御情報を決定する距離感制御情報決定部と、
 前記距離感制御情報を符号化する距離感制御情報符号化部と、
 符号化された前記オーディオデータ、符号化された前記メタデータ、および符号化された前記距離感制御情報を多重化し、符号化データを生成する多重化部と
 を備える符号化装置。
(2)
 前記距離感制御情報には、前記距離感制御処理で用いられるパラメタを得るための制御ルール情報が含まれている
 (1)に記載の符号化装置。
(3)
 前記パラメタは、聴取位置から前記オブジェクトまでの距離に応じて変化する
 (2)に記載の符号化装置。
(4)
 前記制御ルール情報は、前記パラメタを得るための関数またはテーブルを示すインデックスである
 (2)または(3)に記載の符号化装置。
(5)
 前記距離感制御情報には、前記距離感制御処理を実現するために組み合わせて行う1または複数の処理を示す構成情報が含まれている
 (2)乃至(4)の何れか一項に記載の符号化装置。
(6)
 前記構成情報は、前記1または複数の処理、および前記1または複数の処理を行う順番を示す情報である
 (5)に記載の符号化装置。
(7)
 前記処理は、ゲイン制御処理、フィルタ処理、またはリバーブ処理である
 (5)または(6)に記載の符号化装置。
(8)
 前記距離感制御情報符号化部は、複数の前記オブジェクトごとに前記距離感制御情報を符号化する
 (1)乃至(7)の何れか一項に記載の符号化装置。
(9)
 前記距離感制御情報符号化部は、1または複数の前記オブジェクトからなるオブジェクトグループごとに前記距離感制御情報を符号化する
 (1)乃至(7)の何れか一項に記載の符号化装置。
(10)
 符号化装置が、
 オブジェクトのオーディオデータを符号化し、
 前記オブジェクトの位置情報を含むメタデータを符号化し、
 前記オーディオデータに対して行われる距離感制御処理のための距離感制御情報を決定し、
 前記距離感制御情報を符号化し、
 符号化された前記オーディオデータ、符号化された前記メタデータ、および符号化された前記距離感制御情報を多重化し、符号化データを生成する
 符号化方法。
(11)
 オブジェクトのオーディオデータを符号化し、
 前記オブジェクトの位置情報を含むメタデータを符号化し、
 前記オーディオデータに対して行われる距離感制御処理のための距離感制御情報を決定し、
 前記距離感制御情報を符号化し、
 符号化された前記オーディオデータ、符号化された前記メタデータ、および符号化された前記距離感制御情報を多重化し、符号化データを生成する
 ステップを含む処理をコンピュータに実行させるプログラム。
(12)
 符号化データを非多重化し、オブジェクトの符号化されたオーディオデータ、前記オブジェクトの位置情報を含む符号化されたメタデータ、および前記オーディオデータに対して行われる距離感制御処理のための符号化された距離感制御情報を抽出する非多重化部と、
 前記符号化されたオーディオデータを復号するオブジェクト復号部と、
 前記符号化されたメタデータを復号するメタデータ復号部と、
 前記符号化された距離感制御情報を復号する距離感制御情報復号部と、
 前記距離感制御情報に基づいて、前記オブジェクトの前記オーディオデータに対して前記距離感制御処理を行う距離感制御処理部と、
 前記距離感制御処理により得られたオーディオデータと、前記メタデータとに基づいてレンダリング処理を行い、前記オブジェクトの音を再生するための再生オーディオデータを生成するレンダリング処理部と
 を備える復号装置。
(13)
 前記距離感制御処理部は、前記距離感制御情報に含まれている制御ルール情報と聴取位置とから得られるパラメタに基づいて前記距離感制御処理を行う
 (12)に記載の復号装置。
(14)
 前記パラメタは、前記聴取位置から前記オブジェクトまでの距離に応じて変化する
 (13)に記載の復号装置。
(15)
 前記距離感制御処理部は、前記再生オーディオデータの再生環境に応じて前記パラメタの調整を行う
 (13)または(14)に記載の復号装置。
(16)
 前記距離感制御処理部は、前記パラメタに基づいて、前記距離感制御情報により示される1または複数の処理を組み合わせた前記距離感制御処理を行う
 (13)乃至(15)の何れか一項に記載の復号装置。
(17)
 前記処理は、ゲイン制御処理、フィルタ処理、またはリバーブ処理である
 (16)に記載の復号装置。
(18)
 前記距離感制御処理部は、前記距離感制御処理により、前記オブジェクトのウェット成分のオーディオデータを生成する
 (12)乃至(17)の何れか一項に記載の復号装置。
(19)
 復号装置が、
 符号化データを非多重化し、オブジェクトの符号化されたオーディオデータ、前記オブジェクトの位置情報を含む符号化されたメタデータ、および前記オーディオデータに対して行われる距離感制御処理のための符号化された距離感制御情報を抽出し、
 前記符号化されたオーディオデータを復号し、
 前記符号化されたメタデータを復号し、
 前記符号化された距離感制御情報を復号し、
 前記距離感制御情報に基づいて、前記オブジェクトの前記オーディオデータに対して前記距離感制御処理を行い、
 前記距離感制御処理により得られたオーディオデータと、前記メタデータとに基づいてレンダリング処理を行い、前記オブジェクトの音を再生するための再生オーディオデータを生成する
 復号方法。
(20)
 符号化データを非多重化し、オブジェクトの符号化されたオーディオデータ、前記オブジェクトの位置情報を含む符号化されたメタデータ、および前記オーディオデータに対して行われる距離感制御処理のための符号化された距離感制御情報を抽出し、
 前記符号化されたオーディオデータを復号し、
 前記符号化されたメタデータを復号し、
 前記符号化された距離感制御情報を復号し、
 前記距離感制御情報に基づいて、前記オブジェクトの前記オーディオデータに対して前記距離感制御処理を行い、
 前記距離感制御処理により得られたオーディオデータと、前記メタデータとに基づいてレンダリング処理を行い、前記オブジェクトの音を再生するための再生オーディオデータを生成する
 ステップを含む処理をコンピュータに実行させるプログラム。
 11 符号化装置, 21 オブジェクト符号化部, 22 メタデータ符号化部, 23 距離感制御情報決定部, 24 距離感制御情報符号化部, 25 多重化部, 51 復号装置, 61 非多重化部, 62 オブジェクト復号部, 63 メタデータ復号部, 64 距離感制御情報復号部, 66 距離計算部, 67 距離感制御処理部, 68 3Dオーディオレンダリング処理部, 101 ゲイン制御部, 102 ハイシェルフフィルタ処理部, 103 ローシェルフフィルタ処理部, 104 リバーブ処理部

Claims (20)

  1.  オブジェクトのオーディオデータを符号化するオブジェクト符号化部と、
     前記オブジェクトの位置情報を含むメタデータを符号化するメタデータ符号化部と、
     前記オーディオデータに対して行われる距離感制御処理のための距離感制御情報を決定する距離感制御情報決定部と、
     前記距離感制御情報を符号化する距離感制御情報符号化部と、
     符号化された前記オーディオデータ、符号化された前記メタデータ、および符号化された前記距離感制御情報を多重化し、符号化データを生成する多重化部と
     を備える符号化装置。
  2.  前記距離感制御情報には、前記距離感制御処理で用いられるパラメタを得るための制御ルール情報が含まれている
     請求項1に記載の符号化装置。
  3.  前記パラメタは、聴取位置から前記オブジェクトまでの距離に応じて変化する
     請求項2に記載の符号化装置。
  4.  前記制御ルール情報は、前記パラメタを得るための関数またはテーブルを示すインデックスである
     請求項2に記載の符号化装置。
  5.  前記距離感制御情報には、前記距離感制御処理を実現するために組み合わせて行う1または複数の処理を示す構成情報が含まれている
     請求項2に記載の符号化装置。
  6.  前記構成情報は、前記1または複数の処理、および前記1または複数の処理を行う順番を示す情報である
     請求項5に記載の符号化装置。
  7.  前記処理は、ゲイン制御処理、フィルタ処理、またはリバーブ処理である
     請求項5に記載の符号化装置。
  8.  前記距離感制御情報符号化部は、複数の前記オブジェクトごとに前記距離感制御情報を符号化する
     請求項1に記載の符号化装置。
  9.  前記距離感制御情報符号化部は、1または複数の前記オブジェクトからなるオブジェクトグループごとに前記距離感制御情報を符号化する
     請求項1に記載の符号化装置。
  10.  符号化装置が、
     オブジェクトのオーディオデータを符号化し、
     前記オブジェクトの位置情報を含むメタデータを符号化し、
     前記オーディオデータに対して行われる距離感制御処理のための距離感制御情報を決定し、
     前記距離感制御情報を符号化し、
     符号化された前記オーディオデータ、符号化された前記メタデータ、および符号化された前記距離感制御情報を多重化し、符号化データを生成する
     符号化方法。
  11.  オブジェクトのオーディオデータを符号化し、
     前記オブジェクトの位置情報を含むメタデータを符号化し、
     前記オーディオデータに対して行われる距離感制御処理のための距離感制御情報を決定し、
     前記距離感制御情報を符号化し、
     符号化された前記オーディオデータ、符号化された前記メタデータ、および符号化された前記距離感制御情報を多重化し、符号化データを生成する
     ステップを含む処理をコンピュータに実行させるプログラム。
  12.  符号化データを非多重化し、オブジェクトの符号化されたオーディオデータ、前記オブジェクトの位置情報を含む符号化されたメタデータ、および前記オーディオデータに対して行われる距離感制御処理のための符号化された距離感制御情報を抽出する非多重化部と、
     前記符号化されたオーディオデータを復号するオブジェクト復号部と、
     前記符号化されたメタデータを復号するメタデータ復号部と、
     前記符号化された距離感制御情報を復号する距離感制御情報復号部と、
     前記距離感制御情報に基づいて、前記オブジェクトの前記オーディオデータに対して前記距離感制御処理を行う距離感制御処理部と、
     前記距離感制御処理により得られたオーディオデータと、前記メタデータとに基づいてレンダリング処理を行い、前記オブジェクトの音を再生するための再生オーディオデータを生成するレンダリング処理部と
     を備える復号装置。
  13.  前記距離感制御処理部は、前記距離感制御情報に含まれている制御ルール情報と聴取位置とから得られるパラメタに基づいて前記距離感制御処理を行う
     請求項12に記載の復号装置。
  14.  前記パラメタは、前記聴取位置から前記オブジェクトまでの距離に応じて変化する
     請求項13に記載の復号装置。
  15.  前記距離感制御処理部は、前記再生オーディオデータの再生環境に応じて前記パラメタの調整を行う
     請求項13に記載の復号装置。
  16.  前記距離感制御処理部は、前記パラメタに基づいて、前記距離感制御情報により示される1または複数の処理を組み合わせた前記距離感制御処理を行う
     請求項13に記載の復号装置。
  17.  前記処理は、ゲイン制御処理、フィルタ処理、またはリバーブ処理である
     請求項16に記載の復号装置。
  18.  前記距離感制御処理部は、前記距離感制御処理により、前記オブジェクトのウェット成分のオーディオデータを生成する
     請求項12に記載の復号装置。
  19.  復号装置が、
     符号化データを非多重化し、オブジェクトの符号化されたオーディオデータ、前記オブジェクトの位置情報を含む符号化されたメタデータ、および前記オーディオデータに対して行われる距離感制御処理のための符号化された距離感制御情報を抽出し、
     前記符号化されたオーディオデータを復号し、
     前記符号化されたメタデータを復号し、
     前記符号化された距離感制御情報を復号し、
     前記距離感制御情報に基づいて、前記オブジェクトの前記オーディオデータに対して前記距離感制御処理を行い、
     前記距離感制御処理により得られたオーディオデータと、前記メタデータとに基づいてレンダリング処理を行い、前記オブジェクトの音を再生するための再生オーディオデータを生成する
     復号方法。
  20.  符号化データを非多重化し、オブジェクトの符号化されたオーディオデータ、前記オブジェクトの位置情報を含む符号化されたメタデータ、および前記オーディオデータに対して行われる距離感制御処理のための符号化された距離感制御情報を抽出し、
     前記符号化されたオーディオデータを復号し、
     前記符号化されたメタデータを復号し、
     前記符号化された距離感制御情報を復号し、
     前記距離感制御情報に基づいて、前記オブジェクトの前記オーディオデータに対して前記距離感制御処理を行い、
     前記距離感制御処理により得られたオーディオデータと、前記メタデータとに基づいてレンダリング処理を行い、前記オブジェクトの音を再生するための再生オーディオデータを生成する
     ステップを含む処理をコンピュータに実行させるプログラム。
PCT/JP2020/048729 2020-01-10 2020-12-25 符号化装置および方法、復号装置および方法、並びにプログラム WO2021140959A1 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN202080083336.2A CN114762041A (zh) 2020-01-10 2020-12-25 编码设备和方法、解码设备和方法、以及程序
KR1020227019705A KR20220125225A (ko) 2020-01-10 2020-12-25 부호화 장치 및 방법, 복호 장치 및 방법, 그리고 프로그램
EP20912607.7A EP4089673A4 (en) 2020-01-10 2020-12-25 ENCODING DEVICE AND METHOD, DECODING DEVICE AND METHOD, AND PROGRAM
JP2021570021A JPWO2021140959A1 (ja) 2020-01-10 2020-12-25
BR112022013235A BR112022013235A2 (pt) 2020-01-10 2020-12-25 Dispositivo e método de codificação, programa para fazer com que um computador execute processamento, dispositivo de decodificação, e, método de decodificação desempenhado
US17/790,455 US20230056690A1 (en) 2020-01-10 2020-12-25 Encoding device and method, decoding device and method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-002711 2020-01-10
JP2020002711 2020-01-10

Publications (1)

Publication Number Publication Date
WO2021140959A1 true WO2021140959A1 (ja) 2021-07-15

Family

ID=76788406

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/048729 WO2021140959A1 (ja) 2020-01-10 2020-12-25 符号化装置および方法、復号装置および方法、並びにプログラム

Country Status (7)

Country Link
US (1) US20230056690A1 (ja)
EP (1) EP4089673A4 (ja)
JP (1) JPWO2021140959A1 (ja)
KR (1) KR20220125225A (ja)
CN (1) CN114762041A (ja)
BR (1) BR112022013235A2 (ja)
WO (1) WO2021140959A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023083788A1 (en) * 2021-11-09 2023-05-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Late reverberation distance attenuation

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006140595A (ja) * 2004-11-10 2006-06-01 Sony Corp 情報変換装置及び情報変換方法、並びに通信装置及び通信方法
JP2013021686A (ja) * 2011-06-14 2013-01-31 Yamaha Corp 音響システム及び音響特性制御装置
WO2015107926A1 (ja) 2014-01-16 2015-07-23 ソニー株式会社 音声処理装置および方法、並びにプログラム
WO2018047667A1 (ja) * 2016-09-12 2018-03-15 ソニー株式会社 音声処理装置および方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9838823B2 (en) * 2013-04-27 2017-12-05 Intellectual Discovery Co., Ltd. Audio signal processing method
CN105229732B (zh) * 2013-05-24 2018-09-04 杜比国际公司 包括音频对象的音频场景的高效编码
RU2740703C1 (ru) * 2017-07-14 2021-01-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Принцип формирования улучшенного описания звукового поля или модифицированного описания звукового поля с использованием многослойного описания
JP7294135B2 (ja) * 2017-10-20 2023-06-20 ソニーグループ株式会社 信号処理装置および方法、並びにプログラム
KR102615550B1 (ko) * 2017-10-20 2023-12-20 소니그룹주식회사 신호 처리 장치 및 방법, 그리고 프로그램
CN111712875B (zh) * 2018-04-11 2024-09-06 杜比国际公司 用于6dof音频渲染的方法、设备和系统及用于6dof音频渲染的数据表示和位流结构
GB2575511A (en) * 2018-07-13 2020-01-15 Nokia Technologies Oy Spatial audio Augmentation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006140595A (ja) * 2004-11-10 2006-06-01 Sony Corp 情報変換装置及び情報変換方法、並びに通信装置及び通信方法
JP2013021686A (ja) * 2011-06-14 2013-01-31 Yamaha Corp 音響システム及び音響特性制御装置
WO2015107926A1 (ja) 2014-01-16 2015-07-23 ソニー株式会社 音声処理装置および方法、並びにプログラム
WO2018047667A1 (ja) * 2016-09-12 2018-03-15 ソニー株式会社 音声処理装置および方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
See also references of EP4089673A4
VILLE PULKKI: "Virtual Sound Source Positioning Using Vector Base Amplitude Panning", JOURNAL OF AES, vol. 45, no. 6, 1997, pages 456 - 466

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023083788A1 (en) * 2021-11-09 2023-05-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Late reverberation distance attenuation
TWI846139B (zh) * 2021-11-09 2024-06-21 弗勞恩霍夫爾協會 後期迴響距離衰減技術

Also Published As

Publication number Publication date
EP4089673A4 (en) 2023-01-25
JPWO2021140959A1 (ja) 2021-07-15
CN114762041A (zh) 2022-07-15
BR112022013235A2 (pt) 2022-09-06
EP4089673A1 (en) 2022-11-16
US20230056690A1 (en) 2023-02-23
KR20220125225A (ko) 2022-09-14

Similar Documents

Publication Publication Date Title
US10674262B2 (en) Merging audio signals with spatial metadata
JP7517500B2 (ja) 再生装置、再生方法、およびプログラム
JP6186435B2 (ja) ゲームオーディオコンテンツを示すオブジェクトベースオーディオの符号化及びレンダリング
EP2382803B1 (en) Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
JP5467105B2 (ja) オブジェクトベースのメタデータを用いてオーディオ出力信号を生成するための装置および方法
JP6383089B2 (ja) 音響信号のレンダリング方法、その装置及びコンピュータ可読記録媒体
CN104054126A (zh) 空间音频渲染和编码
KR20100063092A (ko) 오디오 신호의 디코딩 방법 및 장치
Bates The composition and performance of spatial music
JP2018527825A (ja) オブジェクトベースのオーディオのための低音管理
WO2022014326A1 (ja) 信号処理装置および方法、並びにプログラム
WO2021140959A1 (ja) 符号化装置および方法、復号装置および方法、並びにプログラム
JP5743003B2 (ja) 波面合成信号変換装置および波面合成信号変換方法
JP6694755B2 (ja) チャンネル数変換装置およびそのプログラム
JP2005250199A (ja) オーディオ機器
Devonport et al. Full Reviewed Paper at ICSA 2019
CN116643712A (zh) 电子设备、音频处理的系统及方法、计算机可读存储介质
WO2024177629A1 (en) Dynamic audio mixing in a multiple wireless speaker environment
CN117119369A (zh) 音频生成方法、计算机设备和计算机可读存储介质
JP2013128314A (ja) 波面合成信号変換装置および波面合成信号変換方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20912607

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021570021

Country of ref document: JP

Kind code of ref document: A

REG Reference to national code

Ref country code: BR

Ref legal event code: B01A

Ref document number: 112022013235

Country of ref document: BR

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020912607

Country of ref document: EP

Effective date: 20220810

ENP Entry into the national phase

Ref document number: 112022013235

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20220701