[20220220] Weekly AI ArXiv 만담 - 40회차 #40

jungwoo-ha · 2022-02-19T12:01:04Z

News
- AAAI 2022 2월 22일 ~ 3월 1일 (무려 9일 이나)
  - NAVER CLOVA 발표 스케쥴: https://naver-career.gitbook.io/en/teams/clova-cic/events/clova-ai-lab-aaai-2022
- ACL 2022 Notification 2월 23일
- AI미래포럼-한국공학한림원 공동주최 주요정당/대선후보들에게 AI강국 코리아의 길을 묻는다.
  - 2월 24일 오전 10시
- 딥마인드에서 핵융합을 위한 플라즈마 제어 AI 네이처 논문 공개
  - 원자력연구소 유용균 박사님 해설 유툽: https://www.youtube.com/watch?v=FZF5Q0ERGGY
ArXiv
- Predictability and Surprise in Large Generative Models
  - Anthropic 이라는 기업(?)에서 나온 초대규모 언어모델의 개발/서비스 적용에서 고려해야할 사항 정리한 논문
  - 초대규모 언어모델의 특성 4가지
    - 전체적으로는 데이터/모델 크기에 따라 성능이 증가한다는 것이 예측가능하며 scaling law를 따름. 문제는 나쁜방향으로도 함께 문제가 커짐 (Bias나 toxic content generation)
    - 개별 특정 태스크 관점에서는 어느 정도 데이터에 어느정도 크기에서 잘할지 예측 어려움 (내일의 날씨는 어려워도 계절 날씨는 대충 아는 것과 비슷)
    - 입력도 출력도 open-ended 그래서 컨트롤이 녹록치 않음
    - 초대규모 AI 모델은 위와 같은 특성으로 인해 내재화 motivation도 있고 risk도 있음
  - 초대규모 AI를 개발하고, 운영하는 조직의 의사결정자, 정부관계자들이 읽어보면 좋을 교양서 느낌
  - HyperCLOVA가 국내에선 유일하게 소개됨.
- Anomalib: A Deep Learning Library for Anomaly Detection
  - Intel에서 공개한 unsupervised anomaly detection 을 위한 SOTA모델들 pytorch-lightening 기반 공개 library + toolkit
  - 실험 tracker, hyperparameter optimization, visualization까지 모두 포함한 툴킷
  - 주로 이미지, 비디오 등 비전쪽이긴 한데 custom도 가능하다고
  - github: https://github.com/openvinotoolkit/anomalib
- Vision Models Are More Robust And Fair When Pretrained On Uncurated Images Without Supervision
  - 작년 3월 SEER 논문의 확장 + 더 자세한 분석 + Societal 관점에서 모델/데이터 증가의 효과를 심층 분석 (from Meta AI)
  - 논문 크기가 40MB (ㅡㅡ;;) 34페이지 (여유있게 받으세요)
  - RegNet: 1.5B --> 10B 까지 키움. 데이터는 IG 1B 그대로. 다만 데이터에 대해 훨씬 자세함
  - 훈련 데이터 만들 때 GDPR 고려하고 지역적, 인종 같은 것들 함께 고려
  - Data distributed parallel 등 구체적인 분산학습에 대해서도 설명
  - 결론은 인터넷 데이터를 쓰는 것이 지역, 인종, 성별 등에서 훨씬 fair하고 정확한 결과를 만들어 낸다고.
  - 기존 large-scale self-supervised visual representation 과는 전혀다른 관점에서의 실험/분석. 중요한 의미가 있어보임
- 그외에 그냥 눈에 띈 논문
  - Design-Bench: Benchmarks for Data-Driven Offline Model-Based Optimization
    - Offline Model-based RL 하시는 분들 께 희소식 (from Sergey Levine 그룹)
    - https://github.com/rail-berkeley/design-bench
  - MLP-ASR: Sequence-length agnostic all-MLP architectures for speech recognition
    - LINE AI Research에 나온 MLP기반의 ASR 모델
  - Learning Features with Parameter-Free Layers
    - NAVER CLOVA AI Lab에서 ICLR 2022 에 발표하는 일부 레이어(블럭)에 Maxpool 같은 parameter 를 쓰지 않는 component로 3x3 conv나 sa 대체하면서 정확도를 유지하면서 빠른 모델 설계하는 연구 (CNN, ViT 둘다)
    - https://github.com/naver-ai/PfLayer

nick-jhlee · 2022-02-19T12:18:37Z

NeurIPS'21 paper 찾고 ICLR'22 paper 찾고 ICML submission 찾고... 이건 축복보단 저주에 가까운거 같네요 ㅎㅎㅎ,,,

NAVER AI, 그리고 저 @ AAAI 2022
- BROS: A Pre-trained Language Model Focusing on Text and Layout for Better Key Information Extraction from Documents

ALP: Data Augmentation using Lexicalized PCFGs for Few-Shot Text Classification

Meta-Learning for Online Update of Recommender Systems

COVID-EENet: Predicting Fine-Grained Impact of COVID-19 on Local Economies
Fast and Efficient MMD-based Fair PCA via Optimization over Stiefel Manifold

arXiv
(재밌는게 많지만.... 주변에 일들이 정리가 되면 한번 또 많이 하겠습니다 ㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎ)
- A Data-Augmentation Is Worth A Thousand Samples: Exact Quantification From Analytical Augmented Sample Moments
  - Meta/Facebook AI Research (Balestriero, Misra, LeCun)
  - 1줄 summary: DA를 너무 heuristic으로 생각하는데 한계가 있으니까, 이걸 수학적으로 분석하는 tool들을 제안!
  - Section 3.2, 3.3: DA as an L2 operator inducing change of function basis for image function "Data Space Transform"
  - Theorem 3.4: Explicit regularisation that is equivalent to using DA
  - Connection to TangentProp (NeurIPS 1991) 등등 여러 interesting한 discussion이 있습니당
  - cf. (왜 reference가 없는지는 모르겠지만...) 예전에 DA를 group-theoretic framework에서 분석한 논문: A Group-Theoretic Framework for Data Augmentation (NeurIPS 2020, JMLR 2020)
- Information Theory with Kernel Methods
  - INRIA, Ecole Normale (Francis Bach)
- Hamilton-Jacobi equations on graphs with applications to semi-supervised learning and data depth
  - University of Minnesota (Jeff Calder, Mahmood Ettehad)
  - semi-supervised learning at extremely low label rates (cf. Poisson Learning: Graph Based Semi-Supervised Learning At Very Low Label Rates)
- How Do Vision Transformers Work?
  - Yonsei University, NAVER AI Lab (Namuk Park, Songkuk Kim)
  - ICLR 2022 Spotlight! (저번에 저자분이 직접 소개를 해주셨었죠 ㅎㅎ)
�Book
- "Probabilistic Machine Learning" - a book series by Kevin Murphy
- 첫 번째가 상당히 히트 쳤죠: Machine Learning: a Probabilistic Perspective
- 두 번째가 이제 아마존에서 preorder 가능 Probabilistic Machine Learning: An Introduction
- 세 번째는 아마 조만간 draft가 release 될 듯 합니당 Probabilistic Machine Learning: Advanced Topics
arXiv 굿즈가 나왔네용 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ: https://www.bonfire.com/store/arxiv-official/
(솔직히 하나 가지고 싶네요)

ghlee0304 · 2022-02-19T14:56:31Z

Arxiv (Speech, Singing Voice, Music)
- ProsoSpeech: Enhancing Prosody with Quantized Vector Pre-Training in Text-to-Speech
  - ICASSP2022 / Zhejiang University, Alibaba Group / TTS
  - sample URL : https://prosospeech.github.io/
  - TTS 논문으로 더 자연스러운 prosody 모델링을 위한 방법을 제안함
  - Problem
    1. 이전 prosody modeling methods 에서는 pitch contour를 예측하기 위하여 외부 알고리즘을 사용하는데 이 때, 필연적으로 v/uv 와 F0 값의 에러가 발생함
    2. prosody와 관련된 attribute들(pitch, duration, energy 등)을 따로 예측하여 dependency를 고려하지 않았음
    3. 다양한 prosody를 학습하기 위해서는 많은 양의 고품질 데이터가 필요한데 실제는 없음
  - Method
    1. word-level의 prosody encoder를 도입, vector quantization을 통한 word-level latent prosody vectors(LPV)를 예측
    2. LPV를 예측하기 위한 autoregressive transformer 기반의 LPV predictor를 사용
    3. 많은 양의 데이터로 일반화 성능을 높이기 위해 LPV predictor를 pre-training 시킴
      1. LPV predictor의 Context encoder를 BERT처럼 많은 양의 text 데이터(인터넷에서 크롤링)로 사전학습시킴
      2. low-quality의 audio(internal ASR용 데이터셋)를 이용하여 LPV를 학습
- Visual Acoustic Matching
  - Arxiv / Facebook AI Research, Facebook Reality Labs, University of Texas, Stanford University / visual acousitc matching
  - target 이미지와 source audio를 입력으로 주면 이미지의 환경에 따라 audio를 재합성해주는 task
  - 예를 들어 극장 이미지와 source audio를 넣어주면 극장에서 말하는 듯한 잔향 효과를 넣어 만들어줌
  - Method
    1. visual acoustic matching 를 제안 (타겟 이미지의 공간에 따라 음성의 환경 변환)
      1. 유저가 새로운 배경을 이미지로 넣어 비디오의 음성을 편집을 할 때
      2. 영화 더빙에서 영화의 씬에 적절한 음성으로 바꿀 수 있게 할 때
      3. AR/VR에서 공간에 따라 오디오를 재합성해서 몰입감을 주도록 할 때
    2. Datasets
      1. 가장 공간(SoundSpaces)의 시뮬레이션 된 사운드를 이용 : clean과 target audio의 pair가 존재
      2. Web video (AVSpeech dataset) : 마이크의 sound와 카메라에 담긴 sound를 이용 (위치 차가 발생)
    3. Audio-Visual Transformer for Audio Generation model (AViTAR)
- 그 외 주목할 만한 논문 (학회 / 소속 / 키워드)
  - Deep Performer: Score-to-Audio Music Performance Synthesis
    - ICASSP 2022 / Dolby Laboratories / score-to-music performance synthesis
    - sample URL : https://salu133445.github.io/deepperformer/
    - Method
      - score to audio : 악보에서 MIDI seq 추출, mel-spectrogram으로 변환, polyphonic music(waveform)을 만듦
      - performer ID (연주자 ID)를 넣는 것이 도움이 된다고 하는 것이 특이
  - DEEPCHORUS: A Hybrid Model of Multi-scale Convolution and Self-attention for Chorus Detection
    - ICASSP 2022 / Fudan University / Chorus Detection
    - code URL : https://github.com/Qqi-HE/DeepChorus
    - downsampling/ upsampling을 이용한 multi-scale network와 self-attention convolution network를 이용하여 chorus가 나타나는 구간을 detect하는 연구
  - End-to-end Music Remastering System Using Self-supervised and Adversarial Training
    - ICASSP 2022 / SNU / Remastering
    - sample URL : https://dg22302.github.io/MusicRemasteringSystem/
    - code URL : https://github.com/jhtonyKoo/e2e_music_remastering_system
    - tone이나 볼륨 조절과 같은 mastering은 전문가의 영역인데 이를 end-to-end로 target mastering 방법을 input audio에 반영하는 방법을 제안
  - A Two-stage U-Net for high-fidelity denoising of historical recordings
    - ICASSP 2022 / Acoustics Lab, Dept. Signal Processing and Acoustics, Aalto University / Denoising
    - sample URL : https://research.spa.aalto.fi/publications/papers/icassp22-denoising/
    - code URL : https://github.com/eloimoliner/denoising-historical-recordings
    - U-Net을 time 축에서 한 번 frequency 축에 대하여 한 번 수행한 것으로 보임
    - music에 있는 노이즈를 제거하였음
  - Speech Denoising in the Waveform Domain with Self-Attention
    - ICASSP 2022 / UCSD, NVIDIA / Denoising
    - sample URL : https://cleanunet.github.io/
    - CleanUNET : U-Net 구조 사이에 battleneck layer에서 self attention을 사용하는 모델
    - 실생활 노이즈 (키보드 소리, 개 짖는 소리 등)를 제거하는 것을 보여줌

hollobit · 2022-02-20T12:18:51Z

AI 연구 주도권을 향한 중국의 경쟁

https://www.statista.com/chart/26862/countries-and-regions-with-highest-number-of-ai-research-papers-submitted-per-year/

미국은 2021년에 발표된 AI에 관한 약 150,000편의 연구 논문으로 여전히 세계를 주도하고 있지만 중국의 추격을 받고 있음
중국의 논문 편수 20년 동안 3,350퍼센트 증가

올림픽의 미래 기술: AI, IoT 및 로봇

200개 이상의 새로운 기술이 동계 올림픽에서 테스트되고 사용

40개 이상의 테스트 이벤트 심사에 참여하는 인공 지능(AI) 지원 심판 및 코치 시스템을 개발

전문적이고 정확한 AI 수화 통역

AI로 선수의 경기력 향상

성과 데이터를 분석하여 훈련, 휴식 및 영양을 위한 개인화된 솔루션을 생성할 수 있는 AI 프로그램

AI 기반 3D Athlete Tracking(3DAT)를 통해 경기 및 이벤트 중 팬에게 거의 실시간 데이터를 제공

중국 하얼빈 공과대학(HIT) 로봇 컬링 코치 - https://www.youtube.com/watch?v=P35i-1TjnAI&feature=emb_imp_woyt

버거와 다른 따뜻한 식사를 준비하는 AI 지원 셰프 봇

원두를 갈아 자바를 내리는 커피 로봇

인공 지능 생성 얼굴을 실제 얼굴보다 더 신뢰할 수 있다는 연구 결과

실제 사람의 얼굴과 AI StyleGAN2 합성 얼굴을 구별하는 데 어려움

합성 얼굴의 평균 평점은 통계적으로 유의한 실제 얼굴의 평균 평점보다 7.7% 더 신뢰

이젠 기술적 안전 장치가 필요해지는 시점

그래픽 및 비전 커뮤니티가 연구원, 발행인 및 미디어 배포자를 위한 윤리적 지침을 통합하는 합성 미디어 기술의 생성 및 배포에 대한 지침을 개발할 것을 권장

kimyoungdo0122 · 2022-02-20T12:56:50Z

News
- mlcon 행사 소식
  - 홈페이지
  - 22일 오전 10시 30분부터 (현지시간, 우리나라는 수요일 자정 쯤)
  - 다양한 AI/ML 개발 관련 이야기
- 작년말 Weekly Arxiv 33회차에 How Do ViT work? 라는 연구를 소개해주셨던 남욱 님 ICLR 억셉되셨었네요, 늦게나마 축하드립니다!
  - [20211212] Weekly AI ArXiv 만담 - 33회차 #33
  - How Do Vision Transformers Work? [paper] [code and summary]
  - papers with code Newsletter 에 논문과 코드가 소개되었고 별을 250여 개나 얻으셨네요!!
- Data-centric AI Resource Hub 사이트 오픈
  - Data-centric AI를 위한 지식 정보 공유 공간 + 커뮤니티
  - 포스팅을 통해 기여할 수 있으니 관심있는 연구자 개발자분들께서는 한번쯤 방문해보시는 것도 좋겠습니다!
  - Labeling and Crowdsourcing
  - 크라우드 소싱을 활용하여 데이터 라벨링을 진행해야 하는 분들께서 보시면 좋을 글

Arxiv
- Data-centric AI에 대해 잘 정리된 리포트
- Data Collection and Quality Challenges in Deep Learning: A Data-Centric AI Perspective
- 카이스트 황의종 교수님, 이재길 교수님, NAVER AI Lab 송환준 님
- Data-centric AI의 주요 토픽인 데이터 수집, 정제, 오염되고 노이즈 많은 데이터 처리, Fairness 등을 서베이한 논문

terryum · 2022-02-20T13:10:07Z

arxiv (blog)
- 논문 & 블로그
  "Does Your Dermatology Classifier Know What It Doesn't Know? Detecting the Long-Tail of Unseen Conditions", Roy et al., 2021. [Google Blog, arxiv]
- 문제
  : 실제 진단을 하다보면 흔한 질환들도 있지만, 매우 드물게 발견되는 희귀 질환의 class가 매우 많다. 수백가지의 피부 질환이 전체 피부질환의 20%의 양을 차지하는 롱테일의 데이터 분포를 가지고 있다고 한다. (예를 들어 피부 질환을 다루는 이 논문에선 26개의 흔한 질환 class와 68개의 희귀 질환의 class(=샘플 수도 적음)를 사용하였다)
이들은 out-of-distribution (OOD) 문제로 해석되곤 한다. OOD 문제는 데이터셋 자체가 달라서 쉽게 알 수 있는 OOD 문제도 있지만 (e.g. CIFAR로 학습한 후 SVHN 데이터를 테스트 할 경우 OOD로 판별), 같은 도메인에서 의미만 다른 경우 (e.g. 피부병이지만 학습되지 않은 클래스의 피부병이 있는 경우 OOD로 판별)도 OOD 문제로 볼 수 있는데, 여기선 후자의 near-OOD detection 문제를 풀었다.
- 해결 방법
  : Loss에서 classification loss만 쓰는 것이 아니라, 이것이 많이 발견되는 질환인지 아니면 희귀한 질환인지를 binary로 판별하는 binary classification loss를 넣어 이들을 합쳐 더 좋은 representation을 학습하고자 하였다. (여기선 이를 hierarchical outliner detection, HOD라 부른다)
pretrained model을 만들 때도 위와 같은 loss를 적용해 pretraining을 하면 성능이 약간 향상되고, 거기에 ensemble까지 더 하면 또 성능이 향상된다. (prediction uncertainty가 있는 문제에서 ensemble은 늘 도움이 되는...)
- 평가 방법
  : '많이 발견되는 질환이다'라고 예측을 했는데 틀리면 -1점 이지만, '희귀질환이다'라고 예측했는데 틀리면 -0.5점으로 했다. 이렇게 안하면 '많이 발견되는 질환'으로 찍는 것이 유리하기 때문에 희귀질환을 못맞추는 것이 제대로 evaluation metric에 반영되지 않을 수 있기 때문
- 테리 생각
  : 사실 이 논문의 방법론이 매우 이론적으로 타당하거나 방법이 fancy해서 소개한 것은 아니다. 소개하고 싶었던 이유는 현실에서 발생하는 문제를 직접 접해보면 다양한 모델 아키텍쳐링을 하기 앞서 '문제 정의'와 '잘 예측했다'는 metric을 정의하는 것이 실제 문제를 푸는데엔 매우 크리티컬한 스텝임을 말씀드리고 싶었다.
  머신러닝에는 기본적인 classification 문제도 있고, 아주 많은 클래스를 classifcication 하는 문제도 있고, OOD detection 문제도 존재하지만, 현실에서 발생하는 문제는 딱 하나의 문제 카테고리로 정의되지 않는 경우가 많다. classification과 detection 사이, detection과 segmentation 사이의 문제도 많고, 문제를 어떤 뷰로 보느냐에 따라 데이터 레이블링 과정 자체를 컨트롤 해야하는 문제도 있고, weakly supervised로 풀어야 하는 문제도 있으며, 다른 도메인 데이터를 가지고 transfer learning을 해야할 때도 있다.
  많은 연구자분들이 정해진 문제에서 순위를 다투는데에만 힘쓰고, 이러한 논문을 보면 '뭐야, 시시한 방법 썼잖아'라며 무시하는 경우가 많은데, 실제 문제를 푸는데는 문제를 현명한 view로 바라보고 수학적으로 formulation 하며 제대로 된 evaluation metric을 적용해 "가장 간단한 모델을 적용해 보는 것"이 매우 큰 업적이라는 것을 말씀드리고 싶고, 그러한 현실 프로젝트를 기업과 많이 해보셨으면 하는 바람이다.
  덧) 피부 관련해 재밌는 문제와 데이터들 ART Lab 많이 있어요. 연락주세요 :) [email protected]

nick-jhlee · 2022-02-20T13:49:46Z

arXiv merchandise 추가정보

limited time! (12일 정도 남았네용)
Shipping: $12.99부터 시작, 하나씩 더 살 때 $4.5 정도씩 더.... -> 머그컵 기준
(shipping이 역시 비싸네요,,, 근데 United States Postal Service가 shipping을 해서 어쩔 수 없는거 같기도,,)

hollobit · 2022-02-20T14:36:53Z

원래는 이 가쉽 기사 소식도 다뤄 볼까 했었는데, 포브스에서 원소스 출처를 찾을 수가 없어서 소개하지 못했습니다. 남녀 커플 상태와 연애상담 예측을 해주는 인공지능이 나오면 대박일텐데 말이죠. https://www.itdaily.kr/news/articleView.html?idxno=206395

결론이 특히 재미있습니다 - "총 100만 개가 넘는 데이터 포인트를 모두 입력했어도, 연애관계의 만족도를 높은 정확도로 예측할 수 없었다고 밝혔다. 뿐만 아니라 시간이 지날수록 변하는 만족도도 추적도 불완전했다"

jungwoo-ha closed this as completed Apr 3, 2022

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[20220220] Weekly AI ArXiv 만담 - 40회차 #40

[20220220] Weekly AI ArXiv 만담 - 40회차 #40

jungwoo-ha commented Feb 19, 2022 •

edited

Loading

nick-jhlee commented Feb 19, 2022 •

edited

Loading

ghlee0304 commented Feb 19, 2022 •

edited

Loading

hollobit commented Feb 20, 2022 •

edited

Loading

kimyoungdo0122 commented Feb 20, 2022 •

edited

Loading

terryum commented Feb 20, 2022 •

edited

Loading

nick-jhlee commented Feb 20, 2022

hollobit commented Feb 20, 2022 •

edited

Loading

[20220220] Weekly AI ArXiv 만담 - 40회차 #40

[20220220] Weekly AI ArXiv 만담 - 40회차 #40

Comments

jungwoo-ha commented Feb 19, 2022 • edited Loading

nick-jhlee commented Feb 19, 2022 • edited Loading

ghlee0304 commented Feb 19, 2022 • edited Loading

hollobit commented Feb 20, 2022 • edited Loading

AI 연구 주도권을 향한 중국의 경쟁

올림픽의 미래 기술: AI, IoT 및 로봇

인공 지능 생성 얼굴을 실제 얼굴보다 더 신뢰할 수 있다는 연구 결과

kimyoungdo0122 commented Feb 20, 2022 • edited Loading

terryum commented Feb 20, 2022 • edited Loading

nick-jhlee commented Feb 20, 2022

hollobit commented Feb 20, 2022 • edited Loading

jungwoo-ha commented Feb 19, 2022 •

edited

Loading

nick-jhlee commented Feb 19, 2022 •

edited

Loading

ghlee0304 commented Feb 19, 2022 •

edited

Loading

hollobit commented Feb 20, 2022 •

edited

Loading

kimyoungdo0122 commented Feb 20, 2022 •

edited

Loading

terryum commented Feb 20, 2022 •

edited

Loading

hollobit commented Feb 20, 2022 •

edited

Loading