-
Notifications
You must be signed in to change notification settings - Fork 41
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
[20210425] Weekly AI Arxiv 만담 #7
Comments
Training BatchNorm and Only BatchNorm: On the Expressive Power of Random Features in CNNs Neural Network 학습에서 다른 모든 parameter를 random intialization 후 fix하고 BatchNorm의 weight와 bias만을 학습하더라도 CIFAR10에서 82% accuracy와 ImageNet에서 32% top-5 accuracy를 얻을 수 있다는 것을 실험적으로 보여준 논문입니다. Sparse Attention with Linear Units Transformer에서 attention을 sparse하게 만드는 것이 학습을 보다 원활하게 할 수 있는데 별도의 sparsifying transform 대신 SoftMax를 ReLU로 대체하는 것만으로도 성능 향상을 가져올 수 있다고 주장하는 논문입니다. 실제로 그런지는 확인이 필요할 것 같습니다. |
Facebook FlashLight 페이스북에서 Flashlight이라는 새로운 C++ 전용 딥러닝 라이브러리를 만들었습니다. PyTorch와 유사한 API를 가지고 있어서 별도의 라이브러리를 만든 이유가 궁금하지만 Python보다 C++을 선호하시는 분들께서 관심이 있을 것 같아 공유드립니다. Stanford 224W: Machine Learning with Graphs 스탠포드 대학에서 Graph Neural Network 관련 수업 자료를 YouTube에 공개했습니다. Graph Neural Network가 처음 접하신 분들께 쉽지 않을텐데 이 수업은 CS231n만큼 유명해지지 않을까 기대됩니다. |
점점 더 큰 모델이 만들어지고 쓰이는 걸 생각하면, 상당히 중요한 문제인듯 해서 가져와보았습니다....!Carbon Emissions and Large Network Training
(페북 댓글 중 일부) cf. On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? |
@veritas9872 |
<2021 Naver Search Colloquium>
기대돼요...! |
AI News
Arxiv
The text was updated successfully, but these errors were encountered: