Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[20210425] Weekly AI Arxiv 만담 #7

Closed
jungwoo-ha opened this issue Apr 18, 2021 · 6 comments
Closed

[20210425] Weekly AI Arxiv 만담 #7

jungwoo-ha opened this issue Apr 18, 2021 · 6 comments

Comments

@jungwoo-ha
Copy link
Owner

jungwoo-ha commented Apr 18, 2021

@veritas9872
Copy link

veritas9872 commented Apr 22, 2021

Training BatchNorm and Only BatchNorm: On the Expressive Power of Random Features in CNNs
https://openreview.net/forum?id=vYeQQ29Tbvx
나온지 한 달이 지났지만 지난번에 random projection의 영향과도 관계 있어 올려드립니다.
MIT와 Facebook AI에서 나온 ICLR 2021 Paper입니다.

Neural Network 학습에서 다른 모든 parameter를 random intialization 후 fix하고 BatchNorm의 weight와 bias만을 학습하더라도 CIFAR10에서 82% accuracy와 ImageNet에서 32% top-5 accuracy를 얻을 수 있다는 것을 실험적으로 보여준 논문입니다.
기존의 SVM에서 random feature를 사용하는 논문이 NeurIPS 2017년 test of time award를 받았는데 비슷한 원리로 neural network에서도 random projection을 사용하는 것이 생각보다 효과적일 수 있을 것 같습니다.

Sparse Attention with Linear Units
https://arxiv.org/abs/2104.07012v1

Transformer에서 attention을 sparse하게 만드는 것이 학습을 보다 원활하게 할 수 있는데 별도의 sparsifying transform 대신 SoftMax를 ReLU로 대체하는 것만으로도 성능 향상을 가져올 수 있다고 주장하는 논문입니다. 실제로 그런지는 확인이 필요할 것 같습니다.

@veritas9872
Copy link

veritas9872 commented Apr 22, 2021

Facebook FlashLight
https://ai.facebook.com/blog/flashlight-fast-and-flexible-machine-learning-in-c-plus-plus/

페이스북에서 Flashlight이라는 새로운 C++ 전용 딥러닝 라이브러리를 만들었습니다. PyTorch와 유사한 API를 가지고 있어서 별도의 라이브러리를 만든 이유가 궁금하지만 Python보다 C++을 선호하시는 분들께서 관심이 있을 것 같아 공유드립니다.

Stanford 224W: Machine Learning with Graphs
https://youtu.be/JAB_plj2rbA

스탠포드 대학에서 Graph Neural Network 관련 수업 자료를 YouTube에 공개했습니다. Graph Neural Network가 처음 접하신 분들께 쉽지 않을텐데 이 수업은 CS231n만큼 유명해지지 않을까 기대됩니다.

@nick-jhlee
Copy link

nick-jhlee commented Apr 23, 2021

점점 더 큰 모델이 만들어지고 쓰이는 걸 생각하면, 상당히 중요한 문제인듯 해서 가져와보았습니다....!

Carbon Emissions and Large Network Training
Yann Lecun 아저씨가 페북에서 홍보한걸 보고 가져와보았습니다. 근데 하필 구글 paper...

  • Large but sparsely activated DNNs can consume <1/10th the energy of large, dense DNNs without
    sacrificing accuracy despite using as many or even more parameters.
  • Geographic location matters for ML workload scheduling since the fraction of carbon-free energy and
    resulting CO2e vary ~5X-10X, even within the same country and the same organization. We are now
    optimizing where and when large models are trained.
  • Specific datacenter infrastructure matters, as Cloud datacenters can be ~1.4-2X more energy efficient
    than typical datacenters, and the ML-oriented accelerators inside them can be ~2-5X more effective
    than off-the-shelf systems.
  • Remarkably, the choice of DNN, datacenter, and processor can reduce the carbon footprint up to ~100-1000X

(페북 댓글 중 일부)
"If I understand correctly, training a single instance of GPT3 uses ~1300MWh, produces ~500tCO2e .
We are speaking about 500 round trip from Paris to New York in term of CO2. We are speaking about the electrical consumption of 60 average french households. Jaw dropping, even though I was already aware of the high "costs" of such big models."

cf. On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?
Google AI Ethics 팀을 날려버린(?) 페이퍼, 여기에도 environmental impact가 언급되어 있어요

@jungwoo-ha
Copy link
Owner Author

@veritas9872
이것이 공개된 Timnit Gebru 논문이군요 ㅎㅎ 5월 3일 ICLR invited talk 기대 됩니닷!

@nick-jhlee
Copy link

<2021 Naver Search Colloquium>
http:https://naversearchconf.naver.com/

  • Learning to Rank
  • User Modeling, Fairness
  • eCommerce
  • Platform
  • Vision
  • Language AI

기대돼요...!

@jshin49
Copy link

jshin49 commented Apr 25, 2021

NAACL 2021 Accepted Paper list 가 공개되어서 몇 가지 가져와봅니다.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants