# AGI and frontierAI timeline (Part 1 of ChatGPT, GenerativeAI and LLMs Timeline)

This repository organizes a timeline of key events (products, services, papers, GitHub, blog posts and news) related AGI and frontierAI. It's a part of GenAI timeline. 

It's curating a variety of information in this timeline, with a particular focus on LLM and Generative AI. 

## Contributing

Issues and Pull Requests are greatly appreciated. If you've never contributed to an open source project before I'm more than happy to walk you through how to create a pull request.

You can start by [opening an issue](https://github.com/hollobit/BCAC_timeline/issues/new) describing the problem that you're looking to resolve and we'll go from there.

## Emoji 

arXiv :x:, PDF :paperclip:, arxiv-vanity :orange_book:, paper page :house:, papers with code :eight_spoked_asterisk:, Github :octocat:

## License

This document is licensed under the [MIT license](https://opensource.org/licenses/mit-license.php) © Jonghong Jeon(전종홍)

## Timeline V2

### 2024

  * 05/17 - **OpenAI dissolves team focused on long-term AI risks, less than one year after announcing it** <br>  ([News](https://www.cnbc.com/2024/05/17/openai-superalignment-sutskever-leike.html)), 
  * 05/17 - **International Scientific Report on the Safety of Advanced AI** <br>  ([Blog](https://www.gov.uk/government/publications/international-scientific-report-on-the-safety-of-advanced-ai)), 
  * 05/17 - **Google DeepMind launches new framework to assess the dangers of AI models** <br>  ([News](https://www.semafor.com/article/05/17/2024/google-deepmind-launches-new-framework-to-assess-the-dangers-of-ai-models)), 
  * 05/17 - **Deepfakes and LLMs: Free will neural network for AI safety research** <br>  ([News](https://www.datasciencecentral.com/deepfakes-and-llms-free-will-neural-network-for-ai-safety-research/)), 
  * 05/16 - **White House Unveils AI Safety Framework for US Workers** <br>  ([News](https://www.bankinfosecurity.com/white-house-unveils-ai-safety-framework-for-us-workers-a-25247)), 
  * 05/16 - **Testing the reliability of an AI-based large language model to extract ecological information from the scientific literature** <br>  ([News](https://www.nature.com/articles/s44185-024-00043-9)), 
  * 05/16 - **Human-AI Safety: A Descendant of Generative AI and Control Systems Safety** <br>([:x:](https://arxiv.org/abs/2405.09794)), ([:book:](https://browse.arxiv.org/pdf/2405.09794.pdf)), ([:paperclip:](https://arxiv.org/pdf/2405.09794.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2405.09794)), ([:house:](https://huggingface.co/papers/2405.09794)), ([HTML](https://browse.arxiv.org/html/2405.09794v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2405.09794)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2405.09794v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2405.09794)), ([SS](https://api.semanticscholar.org/arXiv:2405.09794))
  * 05/16 - **How to Hit Pause on AI Before It’s Too Late** <br>  ([News](https://time.com/6978790/how-to-pause-artificial-intelligence/)), 
  * 05/16 - **How Far Are We From AGI** <br>([:x:](https://arxiv.org/abs/2405.10313)), ([:book:](https://browse.arxiv.org/pdf/2405.10313.pdf)), ([:paperclip:](https://arxiv.org/pdf/2405.10313.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2405.10313)), ([:house:](https://huggingface.co/papers/2405.10313)), ([HTML](https://browse.arxiv.org/html/2405.10313v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2405.10313)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2405.10313v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2405.10313)), ([SS](https://api.semanticscholar.org/arXiv:2405.10313))
  * 05/16 - **GPT Store Mining and Analysis** <br>([:x:](https://arxiv.org/abs/2405.10210)), ([:book:](https://browse.arxiv.org/pdf/2405.10210.pdf)), ([:paperclip:](https://arxiv.org/pdf/2405.10210.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2405.10210)), ([:house:](https://huggingface.co/papers/2405.10210)), ([HTML](https://browse.arxiv.org/html/2405.10210v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2405.10210)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2405.10210v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2405.10210)), ([SS](https://api.semanticscholar.org/arXiv:2405.10210))
  * 05/15 - **The Challenges of Regulating AI and the Role of Behavioral Science** <br>  ([Blog](https://behavioralscientist.org/the-challenges-of-regulating-ai-and-the-role-of-behavioral-science/)), 
  * 05/15 - **Google’s invisible AI watermark will help identify generative text and video** <br>  ([News](https://www.theverge.com/2024/5/14/24155927/google-ai-synthid-watermark-text-video-io)), 
  * 05/15 - **Google I/O 2024: everything announced** <br>  ([Blog](https://www.theverge.com/24153841/google-io-2024-ai-gemini-android-chrome-photos)), 
  * 05/15 - **Global-Local Image Perceptual Score (GLIPS): Evaluating Photorealistic Quality of AI-Generated Images** <br>([:x:](https://arxiv.org/abs/2405.09426)), ([:book:](https://browse.arxiv.org/pdf/2405.09426.pdf)), ([:paperclip:](https://arxiv.org/pdf/2405.09426.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2405.09426)), ([:house:](https://huggingface.co/papers/2405.09426)), ([HTML](https://browse.arxiv.org/html/2405.09426v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2405.09426)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2405.09426v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2405.09426)), ([SS](https://api.semanticscholar.org/arXiv:2405.09426))
  * 05/14 - **US and China to hold first talks to reduce risk of AI ‘miscalculation’** <br>  ([News](https://www.ft.com/content/e10b034d-ac25-476c-b3a5-c09aae8eb7f9)), 
  * 05/14 - **Google’s generative AI can now analyze hours of video** <br>  ([Blog](https://techcrunch.com/2024/05/14/googles-generative-ai-model-can-now-analyze-hours-of-video/)), 
  * 05/13 - **LLM Theory of Mind and Alignment: Opportunities and Risks** <br>([:x:](https://arxiv.org/abs/2405.08154)), ([:book:](https://browse.arxiv.org/pdf/2405.08154.pdf)), ([:paperclip:](https://arxiv.org/pdf/2405.08154.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2405.08154)), ([:house:](https://huggingface.co/papers/2405.08154)), ([HTML](https://browse.arxiv.org/html/2405.08154v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2405.08154)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2405.08154v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2405.08154)), ([SS](https://api.semanticscholar.org/arXiv:2405.08154))
  * 05/13 - **How Much Research Is Being Written by Large Language Models?** <br>  ([Blog](https://hai.stanford.edu/news/how-much-research-being-written-large-language-models)), 
  * 05/13 - **Hello GPT-4o** <br>  ([Blog](https://openai.com/index/hello-gpt-4o/)), 
  * 05/13 - **GPT-4o first reactions: ‘essentially AGI’** <br>  ([Blog](https://venturebeat.com/ai/gpt-4o-first-reactions-essentially-agi/)), 
  * 05/10 - **Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems** <br>([:x:](https://arxiv.org/abs/2405.06624)), ([:book:](https://browse.arxiv.org/pdf/2405.06624.pdf)), ([:paperclip:](https://arxiv.org/pdf/2405.06624.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2405.06624)), ([:house:](https://huggingface.co/papers/2405.06624)), ([HTML](https://browse.arxiv.org/html/2405.06624v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2405.06624)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2405.06624v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2405.06624)), ([SS](https://api.semanticscholar.org/arXiv:2405.06624))
  * 05/10 - **INSPECT - An open-source framework for large language model evaluations** <br>  ([Blog](https://ukgovernmentbeis.github.io/inspect_ai/)), 
  * 05/10 - **AI Safety Institute releases new AI safety evaluations platform** <br>  ([News](https://www.gov.uk/government/news/ai-safety-institute-releases-new-ai-safety-evaluations-platform)), 
  * 05/08 - **Critical Infrastructure Protection: Generative AI, Challenges, and Opportunities** <br>([:x:](https://arxiv.org/abs/2405.04874)), ([:book:](https://browse.arxiv.org/pdf/2405.04874.pdf)), ([:paperclip:](https://arxiv.org/pdf/2405.04874.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2405.04874)), ([:house:](https://huggingface.co/papers/2405.04874)), ([HTML](https://browse.arxiv.org/html/2405.04874v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2405.04874)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2405.04874v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2405.04874)), ([SS](https://api.semanticscholar.org/arXiv:2405.04874))
  * 05/06 - **UnsafeBench: Benchmarking Image Safety Classifiers on Real-World and AI-Generated Images** <br>([:x:](https://arxiv.org/abs/2405.03486)), ([:book:](https://browse.arxiv.org/pdf/2405.03486.pdf)), ([:paperclip:](https://arxiv.org/pdf/2405.03486.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2405.03486)), ([:house:](https://huggingface.co/papers/2405.03486)), ([HTML](https://browse.arxiv.org/html/2405.03486v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2405.03486)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2405.03486v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2405.03486)), ([SS](https://api.semanticscholar.org/arXiv:2405.03486))
  * 05/06 - **Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond** <br>([:x:](https://arxiv.org/abs/2405.03520)), ([:book:](https://browse.arxiv.org/pdf/2405.03520.pdf)), ([:paperclip:](https://arxiv.org/pdf/2405.03520.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2405.03520)), ([:house:](https://huggingface.co/papers/2405.03520)), ([HTML](https://browse.arxiv.org/html/2405.03520v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2405.03520)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2405.03520v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2405.03520)), ([SS](https://api.semanticscholar.org/arXiv:2405.03520))
  * 05/04 - **A Literature Review and Framework for Human Evaluation of Generative Large Language Models in Healthcare** <br>([:x:](https://arxiv.org/abs/2405.02559)), ([:book:](https://browse.arxiv.org/pdf/2405.02559.pdf)), ([:paperclip:](https://arxiv.org/pdf/2405.02559.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2405.02559)), ([:house:](https://huggingface.co/papers/2405.02559)), ([HTML](https://browse.arxiv.org/html/2405.02559v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2405.02559)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2405.02559v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2405.02559)), ([SS](https://api.semanticscholar.org/arXiv:2405.02559))
  * 04/29 - **NIST  AI RMF Generative AI Profile** <br>  ([News](https://www.nist.gov/news-events/news/2024/04/department-commerce-announces-new-actions-implement-president-bidens)), 
  * 04/29 - **Artificial General Intelligence (AGI)-Native Wireless Systems: A Journey Beyond 6G** <br>([:x:](https://arxiv.org/abs/2405.02336)), ([:book:](https://browse.arxiv.org/pdf/2405.02336.pdf)), ([:paperclip:](https://arxiv.org/pdf/2405.02336.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2405.02336)), ([:house:](https://huggingface.co/papers/2405.02336)), ([HTML](https://browse.arxiv.org/html/2405.02336v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2405.02336)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2405.02336v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2405.02336)), ([SS](https://api.semanticscholar.org/arXiv:2405.02336))
  * 04/26 - **Over 20 Technology and Critical Infrastructure Executives, Civil Rights Leaders, Academics, and Policymakers Join New DHS Artificial Intelligence Safety and Security Board to Advance AI’s Responsible Development and Deployment** <br>  ([News](https://www.dhs.gov/news/2024/04/26/over-20-technology-and-critical-infrastructure-executives-civil-rights-leaders)), 
  * 04/24 - **The Ethics of Advanced AI Assistants** <br>([:x:](https://arxiv.org/abs/2404.16244)), ([:book:](https://browse.arxiv.org/pdf/2404.16244.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.16244.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.16244)), ([:house:](https://huggingface.co/papers/2404.16244)), ([HTML](https://browse.arxiv.org/html/2404.16244v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.16244)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.16244v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.16244)), ([SS](https://api.semanticscholar.org/arXiv:2404.16244))
  * 04/24 - **MMT-Bench: A Comprehensive Multimodal Benchmark for Evaluating Large Vision-Language Models Towards Multitask AGI** <br>([:x:](https://arxiv.org/abs/2404.16006)), ([:book:](https://browse.arxiv.org/pdf/2404.16006.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.16006.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.16006)), ([:house:](https://huggingface.co/papers/2404.16006)), ([HTML](https://browse.arxiv.org/html/2404.16006v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.16006)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.16006v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.16006)), ([SS](https://api.semanticscholar.org/arXiv:2404.16006))
  * 04/22 - **Mechanistic Interpretability for AI Safety -- A Review** <br>([:x:](https://arxiv.org/abs/2404.14082)), ([:book:](https://browse.arxiv.org/pdf/2404.14082.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.14082.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.14082)), ([:house:](https://huggingface.co/papers/2404.14082)), ([HTML](https://browse.arxiv.org/html/2404.14082v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.14082)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.14082v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.14082)), ([SS](https://api.semanticscholar.org/arXiv:2404.14082))
  * 04/22 - **Holistic Safety and Responsibility Evaluations of Advanced AI Models** <br>([:x:](https://arxiv.org/abs/2404.14068)), ([:book:](https://browse.arxiv.org/pdf/2404.14068.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.14068.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.14068)), ([:house:](https://huggingface.co/papers/2404.14068)), ([HTML](https://browse.arxiv.org/html/2404.14068v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.14068)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.14068v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.14068)), ([SS](https://api.semanticscholar.org/arXiv:2404.14068))
  * 04/19 - **How Real Is Real? A Human Evaluation Framework for Unrestricted Adversarial Examples** <br>([:x:](https://arxiv.org/abs/2404.12653)), ([:book:](https://browse.arxiv.org/pdf/2404.12653.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.12653.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.12653)), ([:house:](https://huggingface.co/papers/2404.12653)), ([HTML](https://browse.arxiv.org/html/2404.12653v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.12653)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.12653v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.12653)), ([SS](https://api.semanticscholar.org/arXiv:2404.12653))
  * 04/16 - **U.S. Commerce Secretary Gina Raimondo Announces Expansion of U.S. AI Safety Institute Leadership Team** <br>  ([News](https://www.commerce.gov/news/press-releases/2024/04/us-commerce-secretary-gina-raimondo-announces-expansion-us-ai-safety)), 
  * 04/16 - **Social Choice for AI Alignment: Dealing with Diverse Human Feedback** <br>([:x:](https://arxiv.org/abs/2404.10271)), ([:book:](https://browse.arxiv.org/pdf/2404.10271.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.10271.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.10271)), ([:house:](https://huggingface.co/papers/2404.10271)), ([HTML](https://browse.arxiv.org/html/2404.10271v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.10271)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.10271v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.10271)), ([SS](https://api.semanticscholar.org/arXiv:2404.10271))
  * 04/16 - **Announcing a Benchmark to Improve AI Safety** <br>  ([News](https://spectrum.ieee.org/ai-safety-benchmark)), 
  * 04/15 - **LLM Evaluators Recognize and Favor Their Own Generations** <br>([:x:](https://arxiv.org/abs/2404.13076)), ([:book:](https://browse.arxiv.org/pdf/2404.13076.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.13076.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.13076)), ([:house:](https://huggingface.co/papers/2404.13076)), ([HTML](https://browse.arxiv.org/html/2404.13076v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.13076)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.13076v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.13076)), ([SS](https://api.semanticscholar.org/arXiv:2404.13076))
  * 04/15 - **Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization** <br>([:x:](https://arxiv.org/abs/2404.09956)), ([:book:](https://browse.arxiv.org/pdf/2404.09956.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.09956.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.09956)), ([:house:](https://huggingface.co/papers/2404.09956)), ([HTML](https://browse.arxiv.org/html/2404.09956v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.09956)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.09956v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.09956)), ([SS](https://api.semanticscholar.org/arXiv:2404.09956)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/tango-2-aligning-diffusion-based-text-to)), ([:octocat:](https://github.com/declare-lab/tango)![GitHub Repo stars](https://img.shields.io/github/stars/declare-lab/tango?style=social))
  * 04/15 - **Opus can operate as a Turing machine** <br>  ([twitter](https://twitter.com/ctjlewis/status/1779740038852690393)), 
  * 04/15 - **MathGPT: Leveraging Llama 2 to create a platform for highly personalized learning** <br> 
  * 04/15 - **Learn Your Reference Model for Real Good Alignment** <br>([:x:](https://arxiv.org/abs/2404.09656)), ([:book:](https://browse.arxiv.org/pdf/2404.09656.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.09656.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.09656)), ([:house:](https://huggingface.co/papers/2404.09656)), ([HTML](https://browse.arxiv.org/html/2404.09656v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.09656)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.09656v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.09656)), ([SS](https://api.semanticscholar.org/arXiv:2404.09656)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/learn-your-reference-model-for-real-good))
  * 04/15 - **GPT-4 rivals doctors in many medical exams - and beats them in psychiatry** <br>  ([News](https://www.stevestewartwilliams.com/p/a-new-milestone-for-chatgpt)), 
  * 04/14 - **TransformerFAM: Feedback attention is working memory** <br>([:x:](https://arxiv.org/abs/2404.09173)), ([:book:](https://browse.arxiv.org/pdf/2404.09173.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.09173.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.09173)), ([:house:](https://huggingface.co/papers/2404.09173)), ([HTML](https://browse.arxiv.org/html/2404.09173v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.09173)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.09173v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.09173)), ([SS](https://api.semanticscholar.org/arXiv:2404.09173)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/transformerfam-feedback-attention-is-working))
  * 04/14 - **TextHawk: Exploring Efficient Fine-Grained Perception of Multimodal Large Language Models** <br>([:x:](https://arxiv.org/abs/2404.09204)), ([:book:](https://browse.arxiv.org/pdf/2404.09204.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.09204.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.09204)), ([:house:](https://huggingface.co/papers/2404.09204)), ([HTML](https://browse.arxiv.org/html/2404.09204v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.09204)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.09204v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.09204)), ([SS](https://api.semanticscholar.org/arXiv:2404.09204)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/texthawk-exploring-efficient-fine-grained)), ([:octocat:](https://github.com/yuyq96/texthawk)![GitHub Repo stars](https://img.shields.io/github/stars/yuyq96/texthawk?style=social))
  * 04/14 - **On Speculative Decoding for Multimodal Large Language Models** <br>([:x:](https://arxiv.org/abs/2404.08856)), ([:book:](https://browse.arxiv.org/pdf/2404.08856.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.08856.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.08856)), ([:house:](https://huggingface.co/papers/2404.08856)), ([HTML](https://browse.arxiv.org/html/2404.08856v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.08856)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.08856v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.08856)), ([SS](https://api.semanticscholar.org/arXiv:2404.08856)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/on-speculative-decoding-for-multimodal-large))
  * 04/12 - **The Turing test of online reviews: Can we tell the difference between human-written and GPT-4-written online reviews?** <br>([:x:](https://link.springer.com/article/10.1007/s11002-024-09729-3)) 
  * 04/12 - **Scaling (Down) CLIP: A Comprehensive Analysis of Data, Architecture, and Training Strategies** <br>([:x:](https://arxiv.org/abs/2404.08197)), ([:book:](https://browse.arxiv.org/pdf/2404.08197.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.08197.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.08197)), ([:house:](https://huggingface.co/papers/2404.08197)), ([HTML](https://browse.arxiv.org/html/2404.08197v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.08197)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.08197v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.08197)), ([SS](https://api.semanticscholar.org/arXiv:2404.08197)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/scaling-down-clip-a-comprehensive-analysis-of))
  * 04/12 - **Pre-training Small Base LMs with Fewer Tokens** <br>([:x:](https://arxiv.org/abs/2404.08634)), ([:book:](https://browse.arxiv.org/pdf/2404.08634.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.08634.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.08634)), ([:house:](https://huggingface.co/papers/2404.08634)), ([HTML](https://browse.arxiv.org/html/2404.08634v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.08634)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.08634v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.08634)), ([SS](https://api.semanticscholar.org/arXiv:2404.08634)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/pre-training-small-base-lms-with-fewer-tokens)), ([:octocat:](https://github.com/Lightning-AI/lit-gpt)![GitHub Repo stars](https://img.shields.io/github/stars/Lightning-AI/lit-gpt?style=social))
  * 04/12 - **Megalodon: Efficient LLM Pretraining and Inference with Unlimited Context Length** <br>([:x:](https://arxiv.org/abs/2404.08801)), ([:book:](https://browse.arxiv.org/pdf/2404.08801.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.08801.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.08801)), ([:house:](https://huggingface.co/papers/2404.08801)), ([HTML](https://browse.arxiv.org/html/2404.08801v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.08801)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.08801v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.08801)), ([SS](https://api.semanticscholar.org/arXiv:2404.08801)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/megalodon-efficient-llm-pretraining-and)), ([:octocat:](https://github.com/xuezhemax/megalodon)![GitHub Repo stars](https://img.shields.io/github/stars/xuezhemax/megalodon?style=social))
  * 04/12 - **Is ChatGPT Transforming Academics' Writing Style?** <br>([:x:](https://arxiv.org/abs/2404.08627)), ([:book:](https://browse.arxiv.org/pdf/2404.08627.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.08627.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.08627)), ([:house:](https://huggingface.co/papers/2404.08627)), ([HTML](https://browse.arxiv.org/html/2404.08627v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.08627)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.08627v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.08627)), ([SS](https://api.semanticscholar.org/arXiv:2404.08627)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/is-chatgpt-transforming-academics-writing))
  * 04/12 - **Dataset Reset Policy Optimization for RLHF** <br>([:x:](https://arxiv.org/abs/2404.08495)), ([:book:](https://browse.arxiv.org/pdf/2404.08495.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.08495.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.08495)), ([:house:](https://huggingface.co/papers/2404.08495)), ([HTML](https://browse.arxiv.org/html/2404.08495v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.08495)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.08495v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.08495)), ([SS](https://api.semanticscholar.org/arXiv:2404.08495)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/dataset-reset-policy-optimization-for-rlhf)), ([:octocat:](https://github.com/cornell-rl/drpo)![GitHub Repo stars](https://img.shields.io/github/stars/cornell-rl/drpo?style=social))
  * 04/12 - **AdapterSwap: Continuous Training of LLMs with Data Removal and Access-Control Guarantees** <br>([:x:](https://arxiv.org/abs/2404.08417)), ([:book:](https://browse.arxiv.org/pdf/2404.08417.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.08417.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.08417)), ([:house:](https://huggingface.co/papers/2404.08417)), ([HTML](https://browse.arxiv.org/html/2404.08417v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.08417)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.08417v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.08417)), ([SS](https://api.semanticscholar.org/arXiv:2404.08417)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/adapterswap-continuous-training-of-llms-with))
  * 04/12 - **The good, the bad, and the Humane Pin** <br>  ([News](https://www.theverge.com/24128273/humane-ai-pin-review-taylor-swift-tiktok-openai-vergecast)), 
  * 04/12 - **Grok-1.5 Vision Preview** <br>  ([Demo](https://x.ai/blog/grok-1.5v)), 
  * 04/11 - **The Necessity of AI Audit Standards Boards** <br>([:x:](https://arxiv.org/abs/2404.13060)), ([:book:](https://browse.arxiv.org/pdf/2404.13060.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.13060.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.13060)), ([:house:](https://huggingface.co/papers/2404.13060)), ([HTML](https://browse.arxiv.org/html/2404.13060v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.13060)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.13060v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.13060)), ([SS](https://api.semanticscholar.org/arXiv:2404.13060))
  * 04/11 - **Remembering Transformer for Continual Learning** <br>([:x:](https://arxiv.org/abs/2404.07518)), ([:book:](https://browse.arxiv.org/pdf/2404.07518.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.07518.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.07518)), ([:house:](https://huggingface.co/papers/2404.07518)), ([HTML](https://browse.arxiv.org/html/2404.07518v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.07518)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.07518v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.07518)), ([SS](https://api.semanticscholar.org/arXiv:2404.07518)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/remembering-transformer-for-continual))
  * 04/11 - **WESE: Weak Exploration to Strong Exploitation for LLM Agents** <br>([:x:](https://arxiv.org/abs/2404.07456)), ([:book:](https://browse.arxiv.org/pdf/2404.07456.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.07456.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.07456)), ([:house:](https://huggingface.co/papers/2404.07456)), ([HTML](https://browse.arxiv.org/html/2404.07456v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.07456)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.07456v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.07456)), ([SS](https://api.semanticscholar.org/arXiv:2404.07456)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/wese-weak-exploration-to-strong-exploitation))
  * 04/11 - **OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments** <br>([:x:](https://arxiv.org/abs/2404.07972)), ([:book:](https://browse.arxiv.org/pdf/2404.07972.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.07972.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.07972)), ([:house:](https://huggingface.co/papers/2404.07972)), ([HTML](https://browse.arxiv.org/html/2404.07972v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.07972)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.07972v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.07972)), ([SS](https://api.semanticscholar.org/arXiv:2404.07972)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/osworld-benchmarking-multimodal-agents-for))
  * 04/11 - **UltraEval: A Lightweight Platform for Flexible and Comprehensive Evaluation for LLMs** <br>([:x:](https://arxiv.org/abs/2404.07584)), ([:book:](https://browse.arxiv.org/pdf/2404.07584.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.07584.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.07584)), ([:house:](https://huggingface.co/papers/2404.07584)), ([HTML](https://browse.arxiv.org/html/2404.07584v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.07584)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.07584v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.07584)), ([SS](https://api.semanticscholar.org/arXiv:2404.07584)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/ultraeval-a-lightweight-platform-for-flexible)), ([:octocat:](https://github.com/openbmb/ultraeval)![GitHub Repo stars](https://img.shields.io/github/stars/openbmb/ultraeval?style=social))
  * 04/11 - **SWE-agent** <br>  ([twitter](https://twitter.com/jyangballin/status/1775114444370051582)),  ([Demo](https://swe-agent.com/)), , ([:octocat:](https://github.com/princeton-nlp/SWE-agent)![GitHub Repo stars](https://img.shields.io/github/stars/princeton-nlp/SWE-agent?style=social))
  * 04/11 - **ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models** <br>([:x:](https://arxiv.org/abs/2404.07738)), ([:book:](https://browse.arxiv.org/pdf/2404.07738.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.07738.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.07738)), ([:house:](https://huggingface.co/papers/2404.07738)), ([HTML](https://browse.arxiv.org/html/2404.07738v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.07738)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.07738v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.07738)), ([SS](https://api.semanticscholar.org/arXiv:2404.07738)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/researchagent-iterative-research-idea))
  * 04/11 - **OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments** <br>([:x:](https://arxiv.org/abs/2404.07972)), ([:book:](https://browse.arxiv.org/pdf/2404.07972.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.07972.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.07972)), ([:house:](https://huggingface.co/papers/2404.07972)), ([HTML](https://browse.arxiv.org/html/2404.07972v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.07972)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.07972v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.07972)), ([SS](https://api.semanticscholar.org/arXiv:2404.07972)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/osworld-benchmarking-multimodal-agents-for))
  * 04/11 - **JetMoE: Reaching Llama2 Performance with 0.1M Dollars** <br>([:x:](https://arxiv.org/abs/2404.07413)), ([:book:](https://browse.arxiv.org/pdf/2404.07413.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.07413.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.07413)), ([:house:](https://huggingface.co/papers/2404.07413)), ([HTML](https://browse.arxiv.org/html/2404.07413v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.07413)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.07413v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.07413)), ([SS](https://api.semanticscholar.org/arXiv:2404.07413)) ([Project](https://research.myshell.ai/jetmoe)),  ([twitter](https://twitter.com/omarsar0/status/1775971009469768104)), , ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/jetmoe-reaching-llama2-performance-with-0-1m)), ([:octocat:](https://github.com/myshell-ai/jetmoe)![GitHub Repo stars](https://img.shields.io/github/stars/myshell-ai/jetmoe?style=social))
  * 04/11 - **From Words to Numbers: Your Large Language Model Is Secretly A Capable Regressor When Given In-Context Examples** <br>([:x:](https://arxiv.org/abs/2404.07544)), ([:book:](https://browse.arxiv.org/pdf/2404.07544.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.07544.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.07544)), ([:house:](https://huggingface.co/papers/2404.07544)), ([HTML](https://browse.arxiv.org/html/2404.07544v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.07544)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.07544v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.07544)), ([SS](https://api.semanticscholar.org/arXiv:2404.07544)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/from-words-to-numbers-your-large-language))
  * 04/11 - **Context-aware Video Anomaly Detection in Long-Term Datasets** <br>([:x:](https://arxiv.org/abs/2404.07887)), ([:book:](https://browse.arxiv.org/pdf/2404.07887.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.07887.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.07887)), ([:house:](https://huggingface.co/papers/2404.07887)), ([HTML](https://browse.arxiv.org/html/2404.07887v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.07887)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.07887v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.07887)), ([SS](https://api.semanticscholar.org/arXiv:2404.07887)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/context-aware-video-anomaly-detection-in-long))
  * 04/11 - **ChatGPT-3.5, Claude 3 kick pixelated butt in Street Fighter III tournament for LLMs** <br>  ([News](https://www.theregister.com/2024/04/11/chatgpt_claude_street_fighter_3/)), 
  * 04/11 - **ChatGPT Can Predict the Future when it Tells Stories Set in the Future About the Past** <br>([:x:](https://arxiv.org/abs/2404.07396)), ([:book:](https://browse.arxiv.org/pdf/2404.07396.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.07396.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.07396)), ([:house:](https://huggingface.co/papers/2404.07396)), ([HTML](https://browse.arxiv.org/html/2404.07396v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.07396)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.07396v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.07396)), ([SS](https://api.semanticscholar.org/arXiv:2404.07396)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/chatgpt-can-predict-the-future-when-it-tells))
  * 04/11 - **Best Practices and Lessons Learned on Synthetic Data for Language Models** <br>([:x:](https://arxiv.org/abs/2404.07503)), ([:book:](https://browse.arxiv.org/pdf/2404.07503.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.07503.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.07503)), ([:house:](https://huggingface.co/papers/2404.07503)), ([HTML](https://browse.arxiv.org/html/2404.07503v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.07503)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.07503v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.07503)), ([SS](https://api.semanticscholar.org/arXiv:2404.07503)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/best-practices-and-lessons-learned-on))
  * 04/11 - **Benchmark LLMs by fighting in Street Fighter 3** <br>  ([Demo](https://huggingface.co/spaces/junior-labs/llm-colosseum)), , ([:octocat:](https://github.com/OpenGenerativeAI/llm-colosseum)![GitHub Repo stars](https://img.shields.io/github/stars/OpenGenerativeAI/llm-colosseum?style=social))
  * 04/11 - **AmpleGCG: Learning a Universal and Transferable Generative Model of Adversarial Suffixes for Jailbreaking Both Open and Closed LLMs** <br>([:x:](https://arxiv.org/abs/2404.07921)), ([:book:](https://browse.arxiv.org/pdf/2404.07921.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.07921.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.07921)), ([:house:](https://huggingface.co/papers/2404.07921)), ([HTML](https://browse.arxiv.org/html/2404.07921v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.07921)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.07921v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.07921)), ([SS](https://api.semanticscholar.org/arXiv:2404.07921)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/amplegcg-learning-a-universal-and)), ([:octocat:](https://github.com/osu-nlp-group/amplegcg)![GitHub Repo stars](https://img.shields.io/github/stars/osu-nlp-group/amplegcg?style=social))
  * 04/10 - **LM Transparency Tool: Interactive Tool for Analyzing Transformer Language Models** <br>([:x:](https://arxiv.org/abs/2404.07004)), ([:book:](https://browse.arxiv.org/pdf/2404.07004.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.07004.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.07004)), ([:house:](https://huggingface.co/papers/2404.07004)), ([HTML](https://browse.arxiv.org/html/2404.07004v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.07004)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.07004v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.07004)), ([SS](https://api.semanticscholar.org/arXiv:2404.07004)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/lm-transparency-tool-interactive-tool-for))
  * 04/10 - **GoEX: Perspectives and Designs Towards a Runtime for Autonomous LLM Applications** <br>([:x:](https://arxiv.org/abs/2404.06921)), ([:book:](https://browse.arxiv.org/pdf/2404.06921.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.06921.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.06921)), ([:house:](https://huggingface.co/papers/2404.06921)), ([HTML](https://browse.arxiv.org/html/2404.06921v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.06921)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.06921v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.06921)), ([SS](https://api.semanticscholar.org/arXiv:2404.06921)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/goex-perspectives-and-designs-towards-a)), ([:octocat:](https://github.com/ShishirPatil/gorill)![GitHub Repo stars](https://img.shields.io/github/stars/ShishirPatil/gorill?style=social))
  * 04/10 - **OpenAI and Meta are on the verge of releasing AI models capable of reasoning like humans, report says** <br>  ([News](https://www.businessinsider.com/openai-meta-agi-ai-models-reasoning-race-2024-4)), 
  * 04/10 - **MetaCheckGPT -- A Multi-task Hallucination Detector Using LLM Uncertainty and Meta-models** <br>([:x:](https://arxiv.org/abs/2404.06948)), ([:book:](https://browse.arxiv.org/pdf/2404.06948.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.06948.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.06948)), ([:house:](https://huggingface.co/papers/2404.06948)), ([HTML](https://browse.arxiv.org/html/2404.06948v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.06948)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.06948v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.06948)), ([SS](https://api.semanticscholar.org/arXiv:2404.06948)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/metacheckgpt-a-multi-task-hallucination))
  * 04/10 - **Incremental XAI: Memorable Understanding of AI with Incremental Explanations** <br>([:x:](https://arxiv.org/abs/2404.06733)), ([:book:](https://browse.arxiv.org/pdf/2404.06733.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.06733.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.06733)), ([:house:](https://huggingface.co/papers/2404.06733)), ([HTML](https://browse.arxiv.org/html/2404.06733v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.06733)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.06733v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.06733)), ([SS](https://api.semanticscholar.org/arXiv:2404.06733)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/incremental-xai-memorable-understanding-of-ai))
  * 04/10 - **CulturalTeaming: AI-Assisted Interactive Red-Teaming for Challenging LLMs' (Lack of) Multicultural Knowledge** <br>([:x:](https://arxiv.org/abs/2404.06664)), ([:book:](https://browse.arxiv.org/pdf/2404.06664.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.06664.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.06664)), ([:house:](https://huggingface.co/papers/2404.06664)), ([HTML](https://browse.arxiv.org/html/2404.06664v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.06664)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.06664v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.06664)), ([SS](https://api.semanticscholar.org/arXiv:2404.06664)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/culturalteaming-ai-assisted-interactive-red))
  * 04/10 - **Frontier AI Ethics: Anticipating and Evaluating the Societal Impacts of Generative Agents** <br>([:x:](https://arxiv.org/abs/2404.06750)), ([:book:](https://browse.arxiv.org/pdf/2404.06750.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.06750.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.06750)), ([:house:](https://huggingface.co/papers/2404.06750)), ([HTML](https://browse.arxiv.org/html/2404.06750v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.06750)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.06750v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.06750)), ([SS](https://api.semanticscholar.org/arXiv:2404.06750)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/frontier-ai-ethics-anticipating-and))
  * 04/09 - **Large Language Models to the Rescue: Deadlock Resolution in Multi-Robot Systems** <br>([:x:](https://arxiv.org/abs/2404.06413)), ([:book:](https://browse.arxiv.org/pdf/2404.06413.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.06413.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.06413)), ([:house:](https://huggingface.co/papers/2404.06413)), ([HTML](https://browse.arxiv.org/html/2404.06413v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.06413)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.06413v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.06413)), ([SS](https://api.semanticscholar.org/arXiv:2404.06413)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/large-language-models-to-the-rescue-deadlock))
  * 04/09 - **Autonomous Evaluation and Refinement of Digital Agents** <br>([:x:](https://arxiv.org/abs/2404.06474)), ([:book:](https://browse.arxiv.org/pdf/2404.06474.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.06474.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.06474)), ([:house:](https://huggingface.co/papers/2404.06474)), ([HTML](https://browse.arxiv.org/html/2404.06474v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.06474)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.06474v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.06474)), ([SS](https://api.semanticscholar.org/arXiv:2404.06474)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/autonomous-evaluation-and-refinement-of)), ([:octocat:](https://github.com/berkeley-nlp/agent-eval-refine)![GitHub Repo stars](https://img.shields.io/github/stars/berkeley-nlp/agent-eval-refine?style=social))
  * 04/09 - **AgentsCoDriver: Large Language Model Empowered Collaborative Driving with Lifelong Learning** <br>([:x:](https://arxiv.org/abs/2404.06345)), ([:book:](https://browse.arxiv.org/pdf/2404.06345.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.06345.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.06345)), ([:house:](https://huggingface.co/papers/2404.06345)), ([HTML](https://browse.arxiv.org/html/2404.06345v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.06345)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.06345v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.06345)), ([SS](https://api.semanticscholar.org/arXiv:2404.06345)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/agentscodriver-large-language-model-empowered))
  * 04/09 - **AgentQuest: A Modular Benchmark Framework to Measure Progress and Improve LLM Agents** <br>([:x:](https://arxiv.org/abs/2404.06411)), ([:book:](https://browse.arxiv.org/pdf/2404.06411.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.06411.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.06411)), ([:house:](https://huggingface.co/papers/2404.06411)), ([HTML](https://browse.arxiv.org/html/2404.06411v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.06411)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.06411v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.06411)), ([SS](https://api.semanticscholar.org/arXiv:2404.06411)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/agentquest-a-modular-benchmark-framework-to)), ([:octocat:](https://github.com/nec-research/agentquest)![GitHub Repo stars](https://img.shields.io/github/stars/nec-research/agentquest?style=social))
  * 04/09 - **Take a Look at it! Rethinking How to Evaluate Language Model Jailbreak** <br>([:x:](https://arxiv.org/abs/2404.06407)), ([:book:](https://browse.arxiv.org/pdf/2404.06407.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.06407.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.06407)), ([:house:](https://huggingface.co/papers/2404.06407)), ([HTML](https://browse.arxiv.org/html/2404.06407v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.06407)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.06407v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.06407)), ([SS](https://api.semanticscholar.org/arXiv:2404.06407)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/take-a-look-at-it-rethinking-how-to-evaluate)), ([:octocat:](https://github.com/controllability/jailbreak-evaluation)![GitHub Repo stars](https://img.shields.io/github/stars/controllability/jailbreak-evaluation?style=social))
  * 04/09 - **Privacy Preserving Prompt Engineering: A Survey** <br>([:x:](https://arxiv.org/abs/2404.06001)), ([:book:](https://browse.arxiv.org/pdf/2404.06001.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.06001.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.06001)), ([:house:](https://huggingface.co/papers/2404.06001)), ([HTML](https://browse.arxiv.org/html/2404.06001v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.06001)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.06001v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.06001)), ([SS](https://api.semanticscholar.org/arXiv:2404.06001)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/privacy-preserving-prompt-engineering-a))
  * 04/09 - **On Evaluating the Efficiency of Source Code Generated by LLMs** <br>([:x:](https://arxiv.org/abs/2404.06041)), ([:book:](https://browse.arxiv.org/pdf/2404.06041.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.06041.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.06041)), ([:house:](https://huggingface.co/papers/2404.06041)), ([HTML](https://browse.arxiv.org/html/2404.06041v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.06041)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.06041v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.06041)), ([SS](https://api.semanticscholar.org/arXiv:2404.06041))
  * 04/09 - **CausalBench: A Comprehensive Benchmark for Causal Learning Capability of Large Language Models** <br>([:x:](https://arxiv.org/abs/2404.06349)), ([:book:](https://browse.arxiv.org/pdf/2404.06349.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.06349.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.06349)), ([:house:](https://huggingface.co/papers/2404.06349)), ([HTML](https://browse.arxiv.org/html/2404.06349v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.06349)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.06349v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.06349)), ([SS](https://api.semanticscholar.org/arXiv:2404.06349)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/causalbench-a-comprehensive-benchmark-for))
  * 04/09 - **Apple just unveiled new Ferret-UI LLM — this AI can read your iPhone screen** <br>  ([News](https://www.tomsguide.com/ai/apple-just-unveiled-new-ferret-ui-llm-this-ai-can-read-your-iphone-screen)), 
  * 04/09 - **AEGIS: Online Adaptive AI Content Safety Moderation with Ensemble of LLM Experts** <br>([:x:](https://arxiv.org/abs/2404.05993)), ([:book:](https://browse.arxiv.org/pdf/2404.05993.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.05993.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.05993)), ([:house:](https://huggingface.co/papers/2404.05993)), ([HTML](https://browse.arxiv.org/html/2404.05993v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.05993)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.05993v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.05993)), ([SS](https://api.semanticscholar.org/arXiv:2404.05993)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/aegis-online-adaptive-ai-content-safety))
  * 04/08 - **An AI System Evaluation Framework for Advancing AI Safety: Terminology, Taxonomy, Lifecycle Mapping** <br>([:x:](https://arxiv.org/abs/2404.05388)), ([:book:](https://browse.arxiv.org/pdf/2404.05388.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.05388.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.05388)), ([:house:](https://huggingface.co/papers/2404.05388)), ([HTML](https://browse.arxiv.org/html/2404.05388v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.05388)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.05388v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.05388)), ([SS](https://api.semanticscholar.org/arXiv:2404.05388))
  * 04/08 - **The Hallucinations Leaderboard -- An Open Effort to Measure Hallucinations in Large Language Models** <br>([:x:](https://arxiv.org/abs/2404.05904)), ([:book:](https://browse.arxiv.org/pdf/2404.05904.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.05904.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.05904)), ([:house:](https://huggingface.co/papers/2404.05904)), ([HTML](https://browse.arxiv.org/html/2404.05904v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.05904)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.05904v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.05904)), ([SS](https://api.semanticscholar.org/arXiv:2404.05904)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/the-hallucinations-leaderboard-an-open-effort))
  * 04/08 - **The Fact Selection Problem in LLM-Based Program Repair** <br>([:x:](https://arxiv.org/abs/2404.05520)), ([:book:](https://browse.arxiv.org/pdf/2404.05520.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.05520.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.05520)), ([:house:](https://huggingface.co/papers/2404.05520)), ([HTML](https://browse.arxiv.org/html/2404.05520v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.05520)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.05520v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.05520)), ([SS](https://api.semanticscholar.org/arXiv:2404.05520)), ([:eight_spoked_asterisk:](https://cs.paperswithcode.com/paper/the-fact-selection-problem-in-llm-based)), ([:octocat:](https://github.com/pyrepair/maniple)![GitHub Repo stars](https://img.shields.io/github/stars/pyrepair/maniple?style=social))
  * 04/08 - **SafetyPrompts: a Systematic Review of Open Datasets for Evaluating and Improving Large Language Model Safety** <br>([:x:](https://arxiv.org/abs/2404.05399)), ([:book:](https://browse.arxiv.org/pdf/2404.05399.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.05399.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.05399)), ([:house:](https://huggingface.co/papers/2404.05399)), ([HTML](https://browse.arxiv.org/html/2404.05399v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.05399)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.05399v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.05399)), ([SS](https://api.semanticscholar.org/arXiv:2404.05399)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/safetyprompts-a-systematic-review-of-open)), ([:octocat:](https://github.com/paul-rottger/safetyprompts-paper)![GitHub Repo stars](https://img.shields.io/github/stars/paul-rottger/safetyprompts-paper?style=social))
  * 04/08 - **Negative Preference Optimization: From Catastrophic Collapse to Effective Unlearning** <br>([:x:](https://arxiv.org/abs/2404.05868)), ([:book:](https://browse.arxiv.org/pdf/2404.05868.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.05868.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.05868)), ([:house:](https://huggingface.co/papers/2404.05868)), ([HTML](https://browse.arxiv.org/html/2404.05868v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.05868)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.05868v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.05868)), ([SS](https://api.semanticscholar.org/arXiv:2404.05868)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/negative-preference-optimization-from))
  * 04/08 - **Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs** <br>([:x:](https://arxiv.org/abs/2404.05719)), ([:book:](https://browse.arxiv.org/pdf/2404.05719.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.05719.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.05719)), ([:house:](https://huggingface.co/papers/2404.05719)), ([HTML](https://browse.arxiv.org/html/2404.05719v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.05719)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.05719v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.05719)), ([SS](https://api.semanticscholar.org/arXiv:2404.05719)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/ferret-ui-grounded-mobile-ui-understanding))
  * 04/08 - **Evaluating Interventional Reasoning Capabilities of Large Language Models** <br>([:x:](https://arxiv.org/abs/2404.05545)), ([:book:](https://browse.arxiv.org/pdf/2404.05545.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.05545.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.05545)), ([:house:](https://huggingface.co/papers/2404.05545)), ([HTML](https://browse.arxiv.org/html/2404.05545v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.05545)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.05545v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.05545)), ([SS](https://api.semanticscholar.org/arXiv:2404.05545)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/evaluating-interventional-reasoning))
  * 04/08 - **CodecLM: Aligning Language Models with Tailored Synthetic Data** <br>([:x:](https://arxiv.org/abs/2404.05875)), ([:book:](https://browse.arxiv.org/pdf/2404.05875.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.05875.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.05875)), ([:house:](https://huggingface.co/papers/2404.05875)), ([HTML](https://browse.arxiv.org/html/2404.05875v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.05875)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.05875v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.05875)), ([SS](https://api.semanticscholar.org/arXiv:2404.05875)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/codeclm-aligning-language-models-with))
  * 04/08 - **AutoCodeRover: Autonomous Program Improvement** <br>([:x:](https://arxiv.org/abs/2404.05427)), ([:book:](https://browse.arxiv.org/pdf/2404.05427.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.05427.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.05427)), ([:house:](https://huggingface.co/papers/2404.05427)), ([HTML](https://browse.arxiv.org/html/2404.05427v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.05427)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.05427v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.05427)), ([SS](https://api.semanticscholar.org/arXiv:2404.05427)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/autocoderover-autonomous-program-improvement)), ([:octocat:](https://github.com/nus-apr/auto-code-rover)![GitHub Repo stars](https://img.shields.io/github/stars/nus-apr/auto-code-rover?style=social))
  * 04/08 - **HAMMR: HierArchical MultiModal React agents for generic VQA** <br>([:x:](https://arxiv.org/abs/2404.05465)), ([:book:](https://browse.arxiv.org/pdf/2404.05465.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.05465.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.05465)), ([:house:](https://huggingface.co/papers/2404.05465)), ([HTML](https://browse.arxiv.org/html/2404.05465v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.05465)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.05465v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.05465)), ([SS](https://api.semanticscholar.org/arXiv:2404.05465)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/hammr-hierarchical-multimodal-react-agents))
  * 04/07 - **LLM-Based Multi-Agent Systems for Software Engineering: Vision and the Road Ahead** <br>([:x:](https://arxiv.org/abs/2404.04834)), ([:book:](https://browse.arxiv.org/pdf/2404.04834.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.04834.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.04834)), ([:house:](https://huggingface.co/papers/2404.04834)), ([HTML](https://browse.arxiv.org/html/2404.04834v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.04834)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.04834v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.04834)), ([SS](https://api.semanticscholar.org/arXiv:2404.04834))
  * 04/07 - **AI2Apps: A Visual IDE for Building LLM-based AI Agent Applications** <br>([:x:](https://arxiv.org/abs/2404.04902)), ([:book:](https://browse.arxiv.org/pdf/2404.04902.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.04902.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.04902)), ([:house:](https://huggingface.co/papers/2404.04902)), ([HTML](https://browse.arxiv.org/html/2404.04902v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.04902)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.04902v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.04902)), ([SS](https://api.semanticscholar.org/arXiv:2404.04902)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/ai2apps-a-visual-ide-for-building-llm-based))
  * 04/07 - **MagicTime: Time-lapse Video Generation Models as Metamorphic Simulators** <br>([:x:](https://arxiv.org/abs/2404.05014)), ([:book:](https://browse.arxiv.org/pdf/2404.05014.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.05014.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.05014)), ([:house:](https://huggingface.co/papers/2404.05014)), ([HTML](https://browse.arxiv.org/html/2404.05014v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.05014)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.05014v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.05014)), ([SS](https://api.semanticscholar.org/arXiv:2404.05014)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/magictime-time-lapse-video-generation-models)), ([:octocat:](https://github.com/pku-yuangroup/magictime)![GitHub Repo stars](https://img.shields.io/github/stars/pku-yuangroup/magictime?style=social))
  * 04/07 - **Data Bias According to Bipol: Men are Naturally Right and It is the Role of Women to Follow Their Lead** <br>([:x:](https://arxiv.org/abs/2404.04838)), ([:book:](https://browse.arxiv.org/pdf/2404.04838.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.04838.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.04838)), ([:house:](https://huggingface.co/papers/2404.04838)), ([HTML](https://browse.arxiv.org/html/2404.04838v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.04838)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.04838v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.04838)), ([SS](https://api.semanticscholar.org/arXiv:2404.04838)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/data-bias-according-to-bipol-men-are))
  * 04/06 - **Aligning Diffusion Models by Optimizing Human Utility** <br>([:x:](https://arxiv.org/abs/2404.04465)), ([:book:](https://browse.arxiv.org/pdf/2404.04465.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.04465.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.04465)), ([:house:](https://huggingface.co/papers/2404.04465)), ([HTML](https://browse.arxiv.org/html/2404.04465v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.04465)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.04465v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.04465)), ([SS](https://api.semanticscholar.org/arXiv:2404.04465)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/aligning-diffusion-models-by-optimizing-human))
  * 04/06 - **The Case for Developing a Foundation Model for Planning-like Tasks from Scratch** <br>([:x:](https://arxiv.org/abs/2404.04540)), ([:book:](https://browse.arxiv.org/pdf/2404.04540.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.04540.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.04540)), ([:house:](https://huggingface.co/papers/2404.04540)), ([HTML](https://browse.arxiv.org/html/2404.04540v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.04540)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.04540v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.04540)), ([SS](https://api.semanticscholar.org/arXiv:2404.04540)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/the-case-for-developing-a-foundation-model))
  * 04/06 - **Do We Really Need a Complex Agent System? Distill Embodied Agent into a Single Model** <br>([:x:](https://arxiv.org/abs/2404.04619)), ([:book:](https://browse.arxiv.org/pdf/2404.04619.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.04619.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.04619)), ([:house:](https://huggingface.co/papers/2404.04619)), ([HTML](https://browse.arxiv.org/html/2404.04619v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.04619)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.04619v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.04619)), ([SS](https://api.semanticscholar.org/arXiv:2404.04619)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/do-we-really-need-a-complex-agent-system))
  * 04/06 - **Challenges Faced by Large Language Models in Solving Multi-Agent Flocking** <br>([:x:](https://arxiv.org/abs/2404.04752)), ([:book:](https://browse.arxiv.org/pdf/2404.04752.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.04752.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.04752)), ([:house:](https://huggingface.co/papers/2404.04752)), ([HTML](https://browse.arxiv.org/html/2404.04752v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.04752)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.04752v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.04752)), ([SS](https://api.semanticscholar.org/arXiv:2404.04752)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/challenges-faced-by-large-language-models-in))
  * 04/06 - **Autonomous Artificial Intelligence Agents for Clinical Decision Making in Oncology** <br>([:x:](https://arxiv.org/abs/2404.04667)), ([:book:](https://browse.arxiv.org/pdf/2404.04667.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.04667.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.04667)), ([:house:](https://huggingface.co/papers/2404.04667)), ([HTML](https://browse.arxiv.org/html/2404.04667v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.04667)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.04667v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.04667)), ([SS](https://api.semanticscholar.org/arXiv:2404.04667)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/autonomous-artificial-intelligence-agents-for))
  * 04/05 - **Increased LLM Vulnerabilities from Fine-tuning and Quantization** <br>([:x:](https://arxiv.org/abs/2404.04392)), ([:book:](https://browse.arxiv.org/pdf/2404.04392.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.04392.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.04392)), ([:house:](https://huggingface.co/papers/2404.04392)), ([HTML](https://browse.arxiv.org/html/2404.04392v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.04392)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.04392v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.04392)), ([SS](https://api.semanticscholar.org/arXiv:2404.04392)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/increased-llm-vulnerabilities-from-fine))
  * 04/05 - **Exploring Autonomous Agents through the Lens of Large Language Models: A Review** <br>([:x:](https://arxiv.org/abs/2404.04442)), ([:book:](https://browse.arxiv.org/pdf/2404.04442.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.04442.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.04442)), ([:house:](https://huggingface.co/papers/2404.04442)), ([HTML](https://browse.arxiv.org/html/2404.04442v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.04442)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.04442v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.04442)), ([SS](https://api.semanticscholar.org/arXiv:2404.04442)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/exploring-autonomous-agents-through-the-lens))
  * 04/05 - **Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model** <br>([:x:](https://arxiv.org/abs/2404.04167)), ([:book:](https://browse.arxiv.org/pdf/2404.04167.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.04167.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.04167)), ([:house:](https://huggingface.co/papers/2404.04167)), ([HTML](https://browse.arxiv.org/html/2404.04167v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.04167)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.04167v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.04167)), ([SS](https://api.semanticscholar.org/arXiv:2404.04167)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/chinese-tiny-llm-pretraining-a-chinese))
  * 04/04 - **Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models** <br>([:x:](https://arxiv.org/abs/2404.03622)), ([:book:](https://browse.arxiv.org/pdf/2404.03622.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.03622.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.03622)), ([:house:](https://huggingface.co/papers/2404.03622)), ([HTML](https://browse.arxiv.org/html/2404.03622v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.03622)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.03622v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.03622)), ([SS](https://api.semanticscholar.org/arXiv:2404.03622)) ([twitter](https://twitter.com/omarsar0/status/1776082343813403063)), 
  * 04/04 - **Evaluating LLMs at Detecting Errors in LLM Responses** <br>([:x:](https://arxiv.org/abs/2404.03602)), ([:book:](https://browse.arxiv.org/pdf/2404.03602.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.03602.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.03602)), ([:house:](https://huggingface.co/papers/2404.03602)), ([HTML](https://browse.arxiv.org/html/2404.03602v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.03602)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.03602v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.03602)), ([SS](https://api.semanticscholar.org/arXiv:2404.03602)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/evaluating-llms-at-detecting-errors-in-llm)), ([:octocat:](https://github.com/psunlpgroup/realmistake)![GitHub Repo stars](https://img.shields.io/github/stars/psunlpgroup/realmistake?style=social))
  * 04/04 - **CBR-RAG: Case-Based Reasoning for Retrieval Augmented Generation in LLMs for Legal Question Answering** <br>([:x:](https://arxiv.org/abs/2404.04302)), ([:book:](https://browse.arxiv.org/pdf/2404.04302.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.04302.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.04302)), ([:house:](https://huggingface.co/papers/2404.04302)), ([HTML](https://browse.arxiv.org/html/2404.04302v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.04302)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.04302v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.04302)), ([SS](https://api.semanticscholar.org/arXiv:2404.04302)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/cbr-rag-case-based-reasoning-for-retrieval))
  * 04/04 - **Capabilities of Large Language Models in Control Engineering: A Benchmark Study on GPT-4, Claude 3 Opus, and Gemini 1.0 Ultra** <br>([:x:](https://arxiv.org/abs/2404.03647)), ([:book:](https://browse.arxiv.org/pdf/2404.03647.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.03647.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.03647)), ([:house:](https://huggingface.co/papers/2404.03647)), ([HTML](https://browse.arxiv.org/html/2404.03647v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.03647)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.03647v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.03647)), ([SS](https://api.semanticscholar.org/arXiv:2404.03647)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/capabilities-of-large-language-models-in))
  * 04/04 - **CantTalkAboutThis: Aligning Language Models to Stay on Topic in Dialogues** <br>([:x:](https://arxiv.org/abs/2404.03820)), ([:book:](https://browse.arxiv.org/pdf/2404.03820.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.03820.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.03820)), ([:house:](https://huggingface.co/papers/2404.03820)), ([HTML](https://browse.arxiv.org/html/2404.03820v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.03820)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.03820v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.03820)), ([SS](https://api.semanticscholar.org/arXiv:2404.03820)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/canttalkaboutthis-aligning-language-models-to))
  * 04/04 - **Red Teaming GPT-4V: Are GPT-4V Safe Against Uni/Multi-Modal Jailbreak Attacks?** <br>([:x:](https://arxiv.org/abs/2404.03411)), ([:book:](https://browse.arxiv.org/pdf/2404.03411.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.03411.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.03411)), ([:house:](https://huggingface.co/papers/2404.03411)), ([HTML](https://browse.arxiv.org/html/2404.03411v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.03411)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.03411v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.03411)), ([SS](https://api.semanticscholar.org/arXiv:2404.03411)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/red-teaming-gpt-4v-are-gpt-4v-safe-against))
  * 04/04 - **RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for Text-to-Speech Synthesis** <br>([:x:](https://arxiv.org/abs/2404.03204)), ([:book:](https://browse.arxiv.org/pdf/2404.03204.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.03204.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.03204)), ([:house:](https://huggingface.co/papers/2404.03204)), ([HTML](https://browse.arxiv.org/html/2404.03204v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.03204)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.03204v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.03204)), ([SS](https://api.semanticscholar.org/arXiv:2404.03204)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/rall-e-robust-codec-language-modeling-with))
  * 04/04 - **Language Model Evolution: An Iterated Learning Perspective** <br>([:x:](https://arxiv.org/abs/2404.04286)), ([:book:](https://browse.arxiv.org/pdf/2404.04286.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.04286.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.04286)), ([:house:](https://huggingface.co/papers/2404.04286)), ([HTML](https://browse.arxiv.org/html/2404.04286v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.04286)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.04286v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.04286)), ([SS](https://api.semanticscholar.org/arXiv:2404.04286)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/language-model-evolution-an-iterated-learning))
  * 04/04 - **Embodied AI with Two Arms: Zero-shot Learning, Safety and Modularity** <br>([:x:](https://arxiv.org/abs/2404.03570)), ([:book:](https://browse.arxiv.org/pdf/2404.03570.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.03570.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.03570)), ([:house:](https://huggingface.co/papers/2404.03570)), ([HTML](https://browse.arxiv.org/html/2404.03570v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.03570)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.03570v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.03570)), ([SS](https://api.semanticscholar.org/arXiv:2404.03570))
  * 04/04 - **Designing for Human-Agent Alignment: Understanding what humans want from their agents** <br>([:x:](https://arxiv.org/abs/2404.04289)), ([:book:](https://browse.arxiv.org/pdf/2404.04289.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.04289.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.04289)), ([:house:](https://huggingface.co/papers/2404.04289)), ([HTML](https://browse.arxiv.org/html/2404.04289v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.04289)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.04289v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.04289)), ([SS](https://api.semanticscholar.org/arXiv:2404.04289))
  * 04/03 - **Concept-Guided LLM Agents for Human-AI Safety Codesign** <br>([:x:](https://arxiv.org/abs/2404.15317)), ([:book:](https://browse.arxiv.org/pdf/2404.15317.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.15317.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.15317)), ([:house:](https://huggingface.co/papers/2404.15317)), ([HTML](https://browse.arxiv.org/html/2404.15317v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.15317)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.15317v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.15317)), ([SS](https://api.semanticscholar.org/arXiv:2404.15317))
  * 04/03 - **Responsible Reporting for Frontier AI Development** <br>([:x:](https://arxiv.org/abs/2404.02675)), ([:book:](https://browse.arxiv.org/pdf/2404.02675.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.02675.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.02675)), ([:house:](https://huggingface.co/papers/2404.02675)), ([HTML](https://browse.arxiv.org/html/2404.02675v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.02675)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.02675v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.02675)), ([SS](https://api.semanticscholar.org/arXiv:2404.02675)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/responsible-reporting-for-frontier-ai))
  * 04/03 - **MIMIR: A Streamlined Platform for Personalized Agent Tuning in Domain Expertise** <br>([:x:](https://arxiv.org/abs/2404.04285)), ([:book:](https://browse.arxiv.org/pdf/2404.04285.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.04285.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.04285)), ([:house:](https://huggingface.co/papers/2404.04285)), ([HTML](https://browse.arxiv.org/html/2404.04285v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.04285)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.04285v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.04285)), ([SS](https://api.semanticscholar.org/arXiv:2404.04285)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/mimir-a-streamlined-platform-for-personalized))
  * 04/03 - **Many-shot jailbreaking** <br>([:x:](https://www.anthropic.com/research/many-shot-jailbreaking)) 
  * 04/03 - **ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline** <br>([:x:](https://arxiv.org/abs/2404.02893)), ([:book:](https://browse.arxiv.org/pdf/2404.02893.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.02893.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.02893)), ([:house:](https://huggingface.co/papers/2404.02893)), ([HTML](https://browse.arxiv.org/html/2404.02893v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.02893)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.02893v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.02893)), ([SS](https://api.semanticscholar.org/arXiv:2404.02893)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/chatglm-math-improving-math-problem-solving)), ([:octocat:](https://github.com/thudm/chatglm-math)![GitHub Repo stars](https://img.shields.io/github/stars/thudm/chatglm-math?style=social))
  * 04/02 - **UK & United States announce partnership on science of AI safety** <br>  ([News](https://www.gov.uk/government/news/uk-united-states-announce-partnership-on-science-of-ai-safety)), 
  * 04/02 - **Self-Organized Agents: A LLM Multi-Agent Framework toward Ultra Large-Scale Code Generation and Optimization** <br>([:x:](https://arxiv.org/abs/2404.02183)), ([:book:](https://browse.arxiv.org/pdf/2404.02183.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.02183.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.02183)), ([:house:](https://huggingface.co/papers/2404.02183)), ([HTML](https://browse.arxiv.org/html/2404.02183v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.02183)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.02183v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.02183)), ([SS](https://api.semanticscholar.org/arXiv:2404.02183)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/self-organized-agents-a-llm-multi-agent))
  * 04/02 - **CMAT: A Multi-Agent Collaboration Tuning Framework for Enhancing Small Language Models** <br>([:x:](https://arxiv.org/abs/2404.01663)), ([:book:](https://browse.arxiv.org/pdf/2404.01663.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.01663.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.01663)), ([:house:](https://huggingface.co/papers/2404.01663)), ([HTML](https://browse.arxiv.org/html/2404.01663v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.01663)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.01663v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.01663)), ([SS](https://api.semanticscholar.org/arXiv:2404.01663)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/cmat-a-multi-agent-collaboration-tuning)), ([:octocat:](https://github.com/heimy2000/cmat)![GitHub Repo stars](https://img.shields.io/github/stars/heimy2000/cmat?style=social))
  * 04/02 - **A Survey on Large Language Model-Based Game Agents** <br>([:x:](https://arxiv.org/abs/2404.02039)), ([:book:](https://browse.arxiv.org/pdf/2404.02039.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.02039.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.02039)), ([:house:](https://huggingface.co/papers/2404.02039)), ([HTML](https://browse.arxiv.org/html/2404.02039v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.02039)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.02039v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.02039)), ([SS](https://api.semanticscholar.org/arXiv:2404.02039)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/a-survey-on-large-language-model-based-game)), ([:octocat:](https://github.com/git-disl/awesome-llm-game-agent-papers)![GitHub Repo stars](https://img.shields.io/github/stars/git-disl/awesome-llm-game-agent-papers?style=social))
  * 04/01 - **LLM as a Mastermind: A Survey of Strategic Reasoning with Large Language Models** <br>([:x:](https://arxiv.org/abs/2404.01230)), ([:book:](https://browse.arxiv.org/pdf/2404.01230.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.01230.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.01230)), ([:house:](https://huggingface.co/papers/2404.01230)), ([HTML](https://browse.arxiv.org/html/2404.01230v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.01230)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.01230v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.01230)), ([SS](https://api.semanticscholar.org/arXiv:2404.01230)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/llm-as-a-mastermind-a-survey-of-strategic))
  * 04/01 - **Large Language Model Evaluation Via Multi AI Agents: Preliminary results** <br>([:x:](https://arxiv.org/abs/2404.01023)), ([:book:](https://browse.arxiv.org/pdf/2404.01023.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.01023.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.01023)), ([:house:](https://huggingface.co/papers/2404.01023)), ([HTML](https://browse.arxiv.org/html/2404.01023v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.01023)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.01023v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.01023)), ([SS](https://api.semanticscholar.org/arXiv:2404.01023))
  * 04/01 - **Stream of Search (SoS): Learning to Search in Language** <br>([:x:](https://arxiv.org/abs/2404.03683)), ([:book:](https://browse.arxiv.org/pdf/2404.03683.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.03683.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.03683)), ([:house:](https://huggingface.co/papers/2404.03683)), ([HTML](https://browse.arxiv.org/html/2404.03683v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.03683)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.03683v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.03683)), ([SS](https://api.semanticscholar.org/arXiv:2404.03683)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/stream-of-search-sos-learning-to-search-in)), ([:octocat:](https://github.com/kanishkg/stream-of-search)![GitHub Repo stars](https://img.shields.io/github/stars/kanishkg/stream-of-search?style=social))    
  * 04/01 - **U.S., U.K. Announce Partnership to Safety Test AI Models** <br>  ([News](https://time.com/6962503/ai-artificial-intelligence-uk-us-safety/)), 
  * 04/01 - **Evalverse: Unified and Accessible Library for Large Language Model Evaluation** <br>([:x:](https://arxiv.org/abs/2404.00943)), ([:book:](https://browse.arxiv.org/pdf/2404.00943.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.00943.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.00943)), ([:house:](https://huggingface.co/papers/2404.00943)), ([HTML](https://browse.arxiv.org/html/2404.00943v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.00943)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.00943v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.00943)), ([SS](https://api.semanticscholar.org/arXiv:2404.00943)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/evalverse-unified-and-accessible-library-for)), ([:octocat:](https://github.com/upstageai/evalverse)![GitHub Repo stars](https://img.shields.io/github/stars/upstageai/evalverse?style=social))
  * 04/01 - **Are large language models superhuman chemists?** <br>([:x:](https://arxiv.org/abs/2404.01475)), ([:book:](https://browse.arxiv.org/pdf/2404.01475.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.01475.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.01475)), ([:house:](https://huggingface.co/papers/2404.01475)), ([HTML](https://browse.arxiv.org/html/2404.01475v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.01475)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.01475v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.01475)), ([SS](https://api.semanticscholar.org/arXiv:2404.01475)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/are-large-language-models-superhuman-chemists))
  * 03/31 - **"My agent understands me better": Integrating Dynamic Human-like Memory Recall and Consolidation in LLM-Based Agents** <br>([:x:](https://arxiv.org/abs/2404.00573)), ([:book:](https://browse.arxiv.org/pdf/2404.00573.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.00573.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.00573)), ([:house:](https://huggingface.co/papers/2404.00573)), ([HTML](https://browse.arxiv.org/html/2404.00573v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.00573)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.00573v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.00573)), ([SS](https://api.semanticscholar.org/arXiv:2404.00573))
  * 03/30 - **Your Co-Workers Matter: Evaluating Collaborative Capabilities of Language Models in Blocks World** <br>([:x:](https://arxiv.org/abs/2404.00246)), ([:book:](https://browse.arxiv.org/pdf/2404.00246.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.00246.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.00246)), ([:house:](https://huggingface.co/papers/2404.00246)), ([HTML](https://browse.arxiv.org/html/2404.00246v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.00246)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.00246v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.00246)), ([SS](https://api.semanticscholar.org/arXiv:2404.00246)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/your-co-workers-matter-evaluating))
  * 03/30 - **Survey on Large Language Model-Enhanced Reinforcement Learning: Concept, Taxonomy, and Methods** <br>([:x:](https://arxiv.org/abs/2404.00282)), ([:book:](https://browse.arxiv.org/pdf/2404.00282.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.00282.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.00282)), ([:house:](https://huggingface.co/papers/2404.00282)), ([HTML](https://browse.arxiv.org/html/2404.00282v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.00282)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.00282v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.00282)), ([SS](https://api.semanticscholar.org/arXiv:2404.00282)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/survey-on-large-language-model-enhanced))
  * 03/30 - **A Taxonomy for Human-LLM Interaction Modes: An Initial Exploration** <br>([:x:](https://arxiv.org/abs/2404.00405)), ([:book:](https://browse.arxiv.org/pdf/2404.00405.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.00405.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.00405)), ([:house:](https://huggingface.co/papers/2404.00405)), ([HTML](https://browse.arxiv.org/html/2404.00405v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.00405)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.00405v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.00405)), ([SS](https://api.semanticscholar.org/arXiv:2404.00405))
  * 03/30 - **Aurora-M: The First Open Source Multilingual Language Model Red-teamed according to the U.S. Executive Order** <br>([:x:](https://arxiv.org/abs/2404.00399)), ([:book:](https://browse.arxiv.org/pdf/2404.00399.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.00399.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.00399)), ([:house:](https://huggingface.co/papers/2404.00399)), ([HTML](https://browse.arxiv.org/html/2404.00399v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.00399)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.00399v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.00399)), ([SS](https://api.semanticscholar.org/arXiv:2404.00399)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/aurora-m-the-first-open-source-multilingual))
  * 03/29 - **LLaVA-Gemma: Accelerating Multimodal Foundation Models with a Compact Language Model** <br>([:x:](https://arxiv.org/abs/2404.01331)), ([:book:](https://browse.arxiv.org/pdf/2404.01331.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.01331.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.01331)), ([:house:](https://huggingface.co/papers/2404.01331)), ([HTML](https://browse.arxiv.org/html/2404.01331v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.01331)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.01331v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.01331)), ([SS](https://api.semanticscholar.org/arXiv:2404.01331)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/llava-gemma-accelerating-multimodal))
  * 03/29 - **DeepMind develops SAFE, an AI-based app that can fact-check LLMs** <br>  ([News](https://techxplore.com/news/2024-03-deepmind-safe-ai-based-app.html)), 
  * 03/27 - **Large Language Models Need Consultants for Reasoning: Becoming an Expert in a Complex Human System Through Behavior Simulation** <br>([:x:](https://arxiv.org/abs/2403.18230)), ([:book:](https://browse.arxiv.org/pdf/2403.18230.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.18230.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.18230)), ([:house:](https://huggingface.co/papers/2403.18230)), ([HTML](https://browse.arxiv.org/html/2403.18230v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.18230)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.18230v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.18230)), ([SS](https://api.semanticscholar.org/arXiv:2403.18230)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/large-language-models-need-consultants-for)), ([:octocat:](https://github.com/hakys-a/meow)![GitHub Repo stars](https://img.shields.io/github/stars/hakys-a/meow?style=social))
  * 03/27 - **A Path Towards Legal Autonomy: An interoperable and explainable approach to extracting, transforming, loading and computing legal information using large language models, expert systems and Bayesian networks** <br>([:x:](https://arxiv.org/abs/2403.18537)), ([:book:](https://browse.arxiv.org/pdf/2403.18537.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.18537.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.18537)), ([:house:](https://huggingface.co/papers/2403.18537)), ([HTML](https://browse.arxiv.org/html/2403.18537v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.18537)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.18537v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.18537)), ([SS](https://api.semanticscholar.org/arXiv:2403.18537)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/a-path-towards-legal-autonomy-an))
  * 03/26 - **MAGIS: LLM-Based Multi-Agent Framework for GitHub Issue Resolution** <br>([:x:](https://arxiv.org/abs/2403.17927)), ([:book:](https://browse.arxiv.org/pdf/2403.17927.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.17927.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.17927)), ([:house:](https://huggingface.co/papers/2403.17927)), ([HTML](https://browse.arxiv.org/html/2403.17927v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.17927)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.17927v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.17927)), ([SS](https://api.semanticscholar.org/arXiv:2403.17927)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/twostep-multi-agent-task-planning-using))
  * 03/26 - **InternLM2 Technical Report** <br>([:x:](https://arxiv.org/abs/2403.17297)), ([:book:](https://browse.arxiv.org/pdf/2403.17297.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.17297.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.17297)), ([:house:](https://huggingface.co/papers/2403.17297)), ([HTML](https://browse.arxiv.org/html/2403.17297v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.17297)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.17297v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.17297)), ([SS](https://api.semanticscholar.org/arXiv:2403.17297)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/internlm2-technical-report)), ([:octocat:](https://github.com/internlm/internlm)![GitHub Repo stars](https://img.shields.io/github/stars/internlm/internlm?style=social))
  * 03/25 - **AI Consciousness is Inevitable: A Theoretical Computer Science Perspective** <br>([:x:](https://arxiv.org/abs/2403.17101)), ([:book:](https://browse.arxiv.org/pdf/2403.17101.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.17101.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.17101)), ([:house:](https://huggingface.co/papers/2403.17101)), ([HTML](https://browse.arxiv.org/html/2403.17101v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.17101)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.17101v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.17101)), ([SS](https://api.semanticscholar.org/arXiv:2403.17101)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/ai-consciousness-is-inevitable-a-theoretical))
  * 03/25 - **TwoStep: Multi-agent Task Planning using Classical Planners and Large Language Models** <br>([:x:](https://arxiv.org/abs/2403.17246)), ([:book:](https://browse.arxiv.org/pdf/2403.17246.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.17246.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.17246)), ([:house:](https://huggingface.co/papers/2403.17246)), ([HTML](https://browse.arxiv.org/html/2403.17246v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.17246)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.17246v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.17246)), ([SS](https://api.semanticscholar.org/arXiv:2403.17246)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/repairagent-an-autonomous-llm-based-agent-for))
  * 03/25 - **Towards Automatic Evaluation for LLMs' Clinical Capabilities: Metric, Data, and Algorithm** <br>([:x:](https://arxiv.org/abs/2403.16446)), ([:book:](https://browse.arxiv.org/pdf/2403.16446.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.16446.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.16446)), ([:house:](https://huggingface.co/papers/2403.16446)), ([HTML](https://browse.arxiv.org/html/2403.16446v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.16446)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.16446v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.16446)), ([SS](https://api.semanticscholar.org/arXiv:2403.16446)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/towards-automatic-evaluation-for-llms))
  * 03/25 - **RepairAgent: An Autonomous, LLM-Based Agent for Program Repair** <br>([:x:](https://arxiv.org/abs/2403.17134)), ([:book:](https://browse.arxiv.org/pdf/2403.17134.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.17134.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.17134)), ([:house:](https://huggingface.co/papers/2403.17134)), ([HTML](https://browse.arxiv.org/html/2403.17134v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.17134)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.17134v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.17134)), ([SS](https://api.semanticscholar.org/arXiv:2403.17134)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/repairagent-an-autonomous-llm-based-agent-for))
  * 03/25 - **An LLM-Based Digital Twin for Optimizing Human-in-the Loop Systems** <br>([:x:](https://arxiv.org/abs/2403.16809)), ([:book:](https://browse.arxiv.org/pdf/2403.16809.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.16809.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.16809)), ([:house:](https://huggingface.co/papers/2403.16809)), ([HTML](https://browse.arxiv.org/html/2403.16809v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.16809)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.16809v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.16809)), ([SS](https://api.semanticscholar.org/arXiv:2403.16809)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/an-llm-based-digital-twin-for-optimizing)), ([:octocat:](https://github.com/happyeureka/llm_digital_twin)![GitHub Repo stars](https://img.shields.io/github/stars/happyeureka/llm_digital_twin?style=social))
  * 03/25 - **LLM Agent Operating System** <br>([:x:](https://arxiv.org/abs/2403.16971)), ([:book:](https://browse.arxiv.org/pdf/2403.16971.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.16971.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.16971)), ([:house:](https://huggingface.co/papers/2403.16971)), ([HTML](https://browse.arxiv.org/html/2403.16971v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.16971)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.16971v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.16971)), ([SS](https://api.semanticscholar.org/arXiv:2403.16971)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/llm-agent-operating-system)), ([:octocat:](https://github.com/agiresearch/aios)![GitHub Repo stars](https://img.shields.io/github/stars/agiresearch/aios?style=social))
  * 03/23 - **When LLM-based Code Generation Meets the Software Development Process** <br>([:x:](https://arxiv.org/abs/2403.15852)), ([:book:](https://browse.arxiv.org/pdf/2403.15852.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.15852.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.15852)), ([:house:](https://huggingface.co/papers/2403.15852)), ([HTML](https://browse.arxiv.org/html/2403.15852v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.15852)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.15852v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.15852)), ([SS](https://api.semanticscholar.org/arXiv:2403.15852)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/when-llm-based-code-generation-meets-the))
  * 03/23 - **EduAgent: Generative Student Agents in Learning** <br>([:x:](https://arxiv.org/abs/2404.07963)), ([:book:](https://browse.arxiv.org/pdf/2404.07963.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.07963.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.07963)), ([:house:](https://huggingface.co/papers/2404.07963)), ([HTML](https://browse.arxiv.org/html/2404.07963v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.07963)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.07963v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.07963)), ([SS](https://api.semanticscholar.org/arXiv:2404.07963)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/eduagent-generative-student-agents-in))
  * 03/22 - **Content Knowledge Identification with Multi-Agent Large Language Models (LLMs)** <br>([:x:](https://arxiv.org/abs/2404.07960)), ([:book:](https://browse.arxiv.org/pdf/2404.07960.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.07960.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.07960)), ([:house:](https://huggingface.co/papers/2404.07960)), ([HTML](https://browse.arxiv.org/html/2404.07960v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.07960)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.07960v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.07960)), ([SS](https://api.semanticscholar.org/arXiv:2404.07960)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/content-knowledge-identification-with-multi))
  * 03/22 - **LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement** <br>([:x:](https://arxiv.org/abs/2403.15042)), ([:book:](https://browse.arxiv.org/pdf/2403.15042.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.15042.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.15042)), ([:house:](https://huggingface.co/papers/2403.15042)), ([HTML](https://browse.arxiv.org/html/2403.15042v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.15042)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.15042v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.15042)), ([SS](https://api.semanticscholar.org/arXiv:2403.15042)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/llm2llm-boosting-llms-with-novel-iterative)), ([:octocat:](https://github.com/squeezeailab/llm2llm)![GitHub Repo stars](https://img.shields.io/github/stars/squeezeailab/llm2llm?style=social))
  * 03/22 - **Can large language models explore in-context?** <br>([:x:](https://arxiv.org/abs/2403.15371)), ([:book:](https://browse.arxiv.org/pdf/2403.15371.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.15371.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.15371)), ([:house:](https://huggingface.co/papers/2403.15371)), ([HTML](https://browse.arxiv.org/html/2403.15371v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.15371)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.15371v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.15371)), ([SS](https://api.semanticscholar.org/arXiv:2403.15371)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/can-large-language-models-explore-in-context))
  * 03/21 - **VidLA: Video-Language Alignment at Scale** <br>([:x:](https://arxiv.org/abs/2403.14870)), ([:book:](https://browse.arxiv.org/pdf/2403.14870.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.14870.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.14870)), ([:house:](https://huggingface.co/papers/2403.14870)), ([HTML](https://browse.arxiv.org/html/2403.14870v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.14870)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.14870v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.14870)), ([SS](https://api.semanticscholar.org/arXiv:2403.14870)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/vidla-video-language-alignment-at-scale))
  * 03/21 - **General Assembly adopts landmark resolution on artificial intelligence** <br>  ([News](https://news.un.org/en/story/2024/03/1147831)), 
  * 03/21 - **PeerGPT: Probing the Roles of LLM-based Peer Agents as Team Moderators and Participants in Children's Collaborative Learning** <br>([:x:](https://arxiv.org/abs/2403.14227)), ([:book:](https://browse.arxiv.org/pdf/2403.14227.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.14227.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.14227)), ([:house:](https://huggingface.co/papers/2403.14227)), ([HTML](https://browse.arxiv.org/html/2403.14227v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.14227)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.14227v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.14227)), ([SS](https://api.semanticscholar.org/arXiv:2403.14227)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/peergpt-probing-the-roles-of-llm-based-peer))
  * 03/20 - **Polaris: A Safety-focused LLM Constellation Architecture for Healthcare** <br>([:x:](https://arxiv.org/abs/2403.13313)), ([:book:](https://browse.arxiv.org/pdf/2403.13313.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.13313.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.13313)), ([:house:](https://huggingface.co/papers/2403.13313)), ([HTML](https://browse.arxiv.org/html/2403.13313v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.13313)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.13313v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.13313)), ([SS](https://api.semanticscholar.org/arXiv:2403.13313)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/polaris-a-safety-focused-llm-constellation))
  * 03/20 - **Mapping LLM Security Landscapes: A Comprehensive Stakeholder Risk Assessment Proposal** <br>([:x:](https://arxiv.org/abs/2403.13309)), ([:book:](https://browse.arxiv.org/pdf/2403.13309.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.13309.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.13309)), ([:house:](https://huggingface.co/papers/2403.13309)), ([HTML](https://browse.arxiv.org/html/2403.13309v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.13309)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.13309v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.13309)), ([SS](https://api.semanticscholar.org/arXiv:2403.13309)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/mapping-llm-security-landscapes-a))
  * 03/20 - **Mora: Enabling Generalist Video Generation via A Multi-Agent Framework** <br>([:x:](https://arxiv.org/abs/2403.13248)), ([:book:](https://browse.arxiv.org/pdf/2403.13248.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.13248.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.13248)), ([:house:](https://huggingface.co/papers/2403.13248)), ([HTML](https://browse.arxiv.org/html/2403.13248v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.13248)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.13248v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.13248)), ([SS](https://api.semanticscholar.org/arXiv:2403.13248)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/mora-enabling-generalist-video-generation-via)), ([:octocat:](https://github.com/lichao-sun/mora)![GitHub Repo stars](https://img.shields.io/github/stars/lichao-sun/mora?style=social))
  * 03/20 - **Evaluating Frontier Models for Dangerous Capabilities** <br>([:x:](https://arxiv.org/abs/2403.13793)), ([:book:](https://browse.arxiv.org/pdf/2403.13793.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.13793.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.13793)), ([:house:](https://huggingface.co/papers/2403.13793)), ([HTML](https://browse.arxiv.org/html/2403.13793v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.13793)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.13793v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.13793)), ([SS](https://api.semanticscholar.org/arXiv:2403.13793)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/evaluating-frontier-models-for-dangerous))
  * 03/19 - **When Do We Not Need Larger Vision Models?** <br>([:x:](https://arxiv.org/abs/2403.13043)), ([:book:](https://browse.arxiv.org/pdf/2403.13043.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.13043.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.13043)), ([:house:](https://huggingface.co/papers/2403.13043)), ([HTML](https://browse.arxiv.org/html/2403.13043v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.13043)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.13043v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.13043)), ([SS](https://api.semanticscholar.org/arXiv:2403.13043)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/when-do-we-not-need-larger-vision-models)), ([:octocat:](https://github.com/bfshi/scaling_on_scales)![GitHub Repo stars](https://img.shields.io/github/stars/bfshi/scaling_on_scales?style=social))
  * 03/19 - **Evolutionary Optimization of Model Merging Recipes** <br>([:x:](https://arxiv.org/abs/2403.13187)), ([:book:](https://browse.arxiv.org/pdf/2403.13187.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.13187.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.13187)), ([:house:](https://huggingface.co/papers/2403.13187)), ([HTML](https://browse.arxiv.org/html/2403.13187v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.13187)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.13187v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.13187)), ([SS](https://api.semanticscholar.org/arXiv:2403.13187)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/evolutionary-optimization-of-model-merging)), ([:octocat:](https://github.com/ sakanaai/evolutionary-model-merge)![GitHub Repo stars](https://img.shields.io/github/stars/ sakanaai/evolutionary-model-merge?style=social))
  * 03/19 - **Chart-based Reasoning: Transferring Capabilities from LLMs to VLMs** <br>([:x:](https://arxiv.org/abs/2403.12596)), ([:book:](https://browse.arxiv.org/pdf/2403.12596.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.12596.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.12596)), ([:house:](https://huggingface.co/papers/2403.12596)), ([HTML](https://browse.arxiv.org/html/2403.12596v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.12596)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.12596v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.12596)), ([SS](https://api.semanticscholar.org/arXiv:2403.12596)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/chart-based-reasoning-transferring))
  * 03/19 - **Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models** <br>([:x:](https://arxiv.org/abs/2403.12881)), ([:book:](https://browse.arxiv.org/pdf/2403.12881.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.12881.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.12881)), ([:house:](https://huggingface.co/papers/2403.12881)), ([HTML](https://browse.arxiv.org/html/2403.12881v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.12881)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.12881v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.12881)), ([SS](https://api.semanticscholar.org/arXiv:2403.12881)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/agent-flan-designing-data-and-methods-of)), ([:octocat:](https://github.com/internlm/agent-flan)![GitHub Repo stars](https://img.shields.io/github/stars/internlm/agent-flan?style=social))
  * 03/19 - **LLMs-based Few-Shot Disease Predictions using EHR: A Novel Approach Combining Predictive Agent Reasoning and Critical Agent Instruction** <br>([:x:](https://arxiv.org/abs/2403.15464)), ([:book:](https://browse.arxiv.org/pdf/2403.15464.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.15464.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.15464)), ([:house:](https://huggingface.co/papers/2403.15464)), ([HTML](https://browse.arxiv.org/html/2403.15464v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.15464)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.15464v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.15464)), ([SS](https://api.semanticscholar.org/arXiv:2403.15464)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/llms-based-few-shot-disease-predictions-using))
  * 03/19 - **Embodied LLM Agents Learn to Cooperate in Organized Teams** <br>([:x:](https://arxiv.org/abs/2403.12482)), ([:book:](https://browse.arxiv.org/pdf/2403.12482.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.12482.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.12482)), ([:house:](https://huggingface.co/papers/2403.12482)), ([HTML](https://browse.arxiv.org/html/2403.12482v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.12482)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.12482v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.12482)), ([SS](https://api.semanticscholar.org/arXiv:2403.12482)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/embodied-llm-agents-learn-to-cooperate-in))
  * 03/19 - **Characteristic AI Agents via Large Language Models** <br>([:x:](https://arxiv.org/abs/2403.12368)), ([:book:](https://browse.arxiv.org/pdf/2403.12368.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.12368.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.12368)), ([:house:](https://huggingface.co/papers/2403.12368)), ([HTML](https://browse.arxiv.org/html/2403.12368v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.12368)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.12368v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.12368)), ([SS](https://api.semanticscholar.org/arXiv:2403.12368)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/characteristic-ai-agents-via-large-language)), ([:octocat:](https://github.com/nuaa-nlp/character100 )![GitHub Repo stars](https://img.shields.io/github/stars/nuaa-nlp/character100 ?style=social))
  * 03/18 - **Multimodal Human-Autonomous Agents Interaction Using Pre-Trained Language and Visual Foundation Models** <br>([:x:](https://arxiv.org/abs/2403.12273)), ([:book:](https://browse.arxiv.org/pdf/2403.12273.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.12273.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.12273)), ([:house:](https://huggingface.co/papers/2403.12273)), ([HTML](https://browse.arxiv.org/html/2403.12273v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.12273)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.12273v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.12273)), ([SS](https://api.semanticscholar.org/arXiv:2403.12273))
  * 03/18 - **How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments** <br>([:x:](https://arxiv.org/abs/2403.11807)), ([:book:](https://browse.arxiv.org/pdf/2403.11807.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.11807.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.11807)), ([:house:](https://huggingface.co/papers/2403.11807)), ([HTML](https://browse.arxiv.org/html/2403.11807v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.11807)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.11807v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.11807)), ([SS](https://api.semanticscholar.org/arXiv:2403.11807)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/how-far-are-we-on-the-decision-making-of-llms)), ([:octocat:](https://github.com/cuhk-arise/gamabench)![GitHub Repo stars](https://img.shields.io/github/stars/cuhk-arise/gamabench?style=social))
  * 03/18 - **Can LLM-Augmented autonomous agents cooperate?, An evaluation of their cooperative capabilities through Melting Pot** <br>([:x:](https://arxiv.org/abs/2403.11381)), ([:book:](https://browse.arxiv.org/pdf/2403.11381.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.11381.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.11381)), ([:house:](https://huggingface.co/papers/2403.11381)), ([HTML](https://browse.arxiv.org/html/2403.11381v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.11381)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.11381v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.11381)), ([SS](https://api.semanticscholar.org/arXiv:2403.11381)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/can-llm-augmented-autonomous-agents-cooperate))
  * 03/18 - **Meta-Prompting for Automating Zero-shot Visual Recognition with LLMs** <br>([:x:](https://arxiv.org/abs/2403.11755)), ([:book:](https://browse.arxiv.org/pdf/2403.11755.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.11755.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.11755)), ([:house:](https://huggingface.co/papers/2403.11755)), ([HTML](https://browse.arxiv.org/html/2403.11755v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.11755)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.11755v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.11755)), ([SS](https://api.semanticscholar.org/arXiv:2403.11755)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/meta-prompting-for-automating-zero-shot)), ([:octocat:](https://github.com/jmiemirza/meta-prompting)![GitHub Repo stars](https://img.shields.io/github/stars/jmiemirza/meta-prompting?style=social))
  * 03/18 - **From Pixels to Insights: A Survey on Automatic Chart Understanding in the Era of Large Foundation Models** <br>([:x:](https://arxiv.org/abs/2403.12027)), ([:book:](https://browse.arxiv.org/pdf/2403.12027.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.12027.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.12027)), ([:house:](https://huggingface.co/papers/2403.12027)), ([HTML](https://browse.arxiv.org/html/2403.12027v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.12027)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.12027v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.12027)), ([SS](https://api.semanticscholar.org/arXiv:2403.12027)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/from-pixels-to-insights-a-survey-on-automatic)), ([:octocat:](https://github.com/khuangaf/awesome-chart-understanding)![GitHub Repo stars](https://img.shields.io/github/stars/khuangaf/awesome-chart-understanding?style=social))
  * 03/18 - **Ensuring Safe and High-Quality Outputs: A Guideline Library Approach for Language Models** <br>([:x:](https://arxiv.org/abs/2403.11838)), ([:book:](https://browse.arxiv.org/pdf/2403.11838.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.11838.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.11838)), ([:house:](https://huggingface.co/papers/2403.11838)), ([HTML](https://browse.arxiv.org/html/2403.11838v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.11838)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.11838v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.11838)), ([SS](https://api.semanticscholar.org/arXiv:2403.11838)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/ensuring-safe-and-high-quality-outputs-a)), ([:octocat:](https://github.com/xmudm/guide-align)![GitHub Repo stars](https://img.shields.io/github/stars/xmudm/guide-align?style=social))
  * 03/17 - **PhD: A Prompted Visual Hallucination Evaluation Dataset** <br>([:x:](https://arxiv.org/abs/2403.11116)), ([:book:](https://browse.arxiv.org/pdf/2403.11116.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.11116.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.11116)), ([:house:](https://huggingface.co/papers/2403.11116)), ([HTML](https://browse.arxiv.org/html/2403.11116v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.11116)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.11116v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.11116)), ([SS](https://api.semanticscholar.org/arXiv:2403.11116)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/phd-a-prompted-visual-hallucination))
  * 03/17 - **Beyond Static Evaluation: A Dynamic Approach to Assessing AI Assistants' API Invocation Capabilities** <br>([:x:](https://arxiv.org/abs/2403.11128)), ([:book:](https://browse.arxiv.org/pdf/2403.11128.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.11128.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.11128)), ([:house:](https://huggingface.co/papers/2403.11128)), ([HTML](https://browse.arxiv.org/html/2403.11128v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.11128)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.11128v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.11128)), ([SS](https://api.semanticscholar.org/arXiv:2403.11128)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/beyond-static-evaluation-a-dynamic-approach)), ([:octocat:](https://github.com/hlmu/autode)![GitHub Repo stars](https://img.shields.io/github/stars/hlmu/autode?style=social))
  * 03/16 - **Do Large Language Models understand Medical Codes?** <br>([:x:](https://arxiv.org/abs/2403.10822)), ([:book:](https://browse.arxiv.org/pdf/2403.10822.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.10822.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.10822)), ([:house:](https://huggingface.co/papers/2403.10822)), ([HTML](https://browse.arxiv.org/html/2403.10822v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.10822)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.10822v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.10822)), ([SS](https://api.semanticscholar.org/arXiv:2403.10822)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/do-large-language-models-understand-medical))
  * 03/15 - **Enhancing Human-Centered Dynamic Scene Understanding via Multiple LLMs Collaborated Reasoning** <br>([:x:](https://arxiv.org/abs/2403.10107)), ([:book:](https://browse.arxiv.org/pdf/2403.10107.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.10107.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.10107)), ([:house:](https://huggingface.co/papers/2403.10107)), ([HTML](https://browse.arxiv.org/html/2403.10107v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.10107)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.10107v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.10107)), ([SS](https://api.semanticscholar.org/arXiv:2403.10107)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/enhancing-human-centered-dynamic-scene))
  * 03/14 - **Scaling Instructable Agents Across Many Simulated Worlds** <br>  ([twitter](https://twitter.com/fablesimulation/status/1767988371828388027)),  ([Blog](https://gonzoml.substack.com/p/deepmind-sima-scaling-instructable)), 
  * 03/14 - **Helpful or Harmful? Exploring the Efficacy of Large Language Models for Online Grooming Prevention** <br>([:x:](https://arxiv.org/abs/2403.09795)), ([:book:](https://browse.arxiv.org/pdf/2403.09795.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.09795.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.09795)), ([:house:](https://huggingface.co/papers/2403.09795)), ([HTML](https://browse.arxiv.org/html/2403.09795v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.09795)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.09795v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.09795)), ([SS](https://api.semanticscholar.org/arXiv:2403.09795)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/helpful-or-harmful-exploring-the-efficacy-of))
  * 03/13 - **The Human Factor in Detecting Errors of Large Language Models: A Systematic Literature Review and Future Research Directions** <br>([:x:](https://arxiv.org/abs/2403.09743)), ([:book:](https://browse.arxiv.org/pdf/2403.09743.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.09743.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.09743)), ([:house:](https://huggingface.co/papers/2403.09743)), ([HTML](https://browse.arxiv.org/html/2403.09743v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.09743)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.09743v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.09743)), ([SS](https://api.semanticscholar.org/arXiv:2403.09743)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/the-human-factor-in-detecting-errors-of-large))
  * 03/13 - **Human Alignment of Large Language Models through Online Preference Optimisation** <br>([:x:](https://arxiv.org/abs/2403.08635)), ([:book:](https://browse.arxiv.org/pdf/2403.08635.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.08635.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.08635)), ([:house:](https://huggingface.co/papers/2403.08635)), ([HTML](https://browse.arxiv.org/html/2403.08635v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.08635)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.08635v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.08635)), ([SS](https://api.semanticscholar.org/arXiv:2403.08635)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/human-alignment-of-large-language-models))
  * 03/11 - **Transparent AI Disclosure Obligations: Who, What, When, Where, Why, How** <br>([:x:](https://arxiv.org/abs/2403.06823)), ([:book:](https://browse.arxiv.org/pdf/2403.06823.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.06823.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.06823)), ([:house:](https://huggingface.co/papers/2403.06823)), ([HTML](https://browse.arxiv.org/html/2403.06823v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.06823)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.06823v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.06823)), ([SS](https://api.semanticscholar.org/arXiv:2403.06823))
  * 03/11 - **HILL: A Hallucination Identifier for Large Language Models** <br>([:x:](https://arxiv.org/abs/2403.06710)), ([:book:](https://browse.arxiv.org/pdf/2403.06710.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.06710.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.06710)), ([:house:](https://huggingface.co/papers/2403.06710)), ([HTML](https://browse.arxiv.org/html/2403.06710v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.06710)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.06710v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.06710)), ([SS](https://api.semanticscholar.org/arXiv:2403.06710))
  * 03/11 - **TIME - Exclusive: U.S. Must Move ‘Decisively’ to Avert ‘Extinction-Level’ Threat From AI, Government-Commissioned Report Says**  ([News](https://archive.is/WxFsG)), 
  * 03/11 - **TIME - Employees at Top AI Labs Fear Safety Is an Afterthought, Report Says**  ([News](https://archive.is/KsWcl)), 
  * 03/11 - **Stealing Part of a Production Language Model** <br>([:x:](https://arxiv.org/abs/2403.06634)), ([:book:](https://browse.arxiv.org/pdf/2403.06634.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.06634.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.06634)), ([:house:](https://huggingface.co/papers/2403.06634)), ([HTML](https://browse.arxiv.org/html/2403.06634v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.06634)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.06634v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.06634)), ([SS](https://api.semanticscholar.org/arXiv:2403.06634))
  * 03/11 - **Multistep Consistency Models** <br>([:x:](https://arxiv.org/abs/2403.06807)), ([:book:](https://browse.arxiv.org/pdf/2403.06807.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.06807.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.06807)), ([:house:](https://huggingface.co/papers/2403.06807)), ([HTML](https://browse.arxiv.org/html/2403.06807v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.06807)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.06807v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.06807)), ([SS](https://api.semanticscholar.org/arXiv:2403.06807)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/consistency-models)), ([:octocat:](https://github.com/openai/consistency_models)![GitHub Repo stars](https://img.shields.io/github/stars/openai/consistency_models?style=social))
  * 03/11 - **Chain-of-table: Evolving tables in the reasoning chain for table understanding**  ([Blog](https://blog.research.google/2024/03/chain-of-table-evolving-tables-in.html)), 
  * 03/11 - **An Action Plan to increase the safety and security of advanced AI**  ([Blog](https://www.gladstone.ai/action-plan)),  ([Video](https://vimeo.com/919291283/a7c2b8eebd)), 
  * 03/10 - **Beyond human intelligence: Claude 3.0 and the quest for AGI** <br>  ([Blog](https://venturebeat.com/ai/beyond-human-intelligence-claude-3-0-and-the-quest-for-agi/)), 
  * 03/09 - **Algorithmic progress in language models** <br>([:x:](https://arxiv.org/abs/2403.05812)), ([:book:](https://browse.arxiv.org/pdf/2403.05812.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.05812.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.05812)), ([:house:](https://huggingface.co/papers/2403.05812)), ([HTML](https://browse.arxiv.org/html/2403.05812v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.05812)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.05812v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.05812)), ([SS](https://api.semanticscholar.org/arXiv:2403.05812)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/algorithmic-progress-in-language-models))
  * 03/09 - **RAG arena**  ([Demo](https://www.ragarena.com/)),
  * 03/08 - **Sora as an AGI World Model? A Complete Survey on Text-to-Video Generation** <br>([:x:](https://arxiv.org/abs/2403.05131)), ([:book:](https://browse.arxiv.org/pdf/2403.05131.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.05131.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.05131)), ([:house:](https://huggingface.co/papers/2403.05131)), ([HTML](https://browse.arxiv.org/html/2403.05131v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.05131)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.05131v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.05131)), ([SS](https://api.semanticscholar.org/arXiv:2403.05131)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/sora-as-an-agi-world-model-a-complete-survey))
  * 03/08 - **Alignment Studio: Aligning Large Language Models to Particular Contextual Regulations** <br>([:x:](https://arxiv.org/abs/2403.09704)), ([:book:](https://browse.arxiv.org/pdf/2403.09704.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.09704.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.09704)), ([:house:](https://huggingface.co/papers/2403.09704)), ([HTML](https://browse.arxiv.org/html/2403.09704v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.09704)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.09704v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.09704)), ([SS](https://api.semanticscholar.org/arXiv:2403.09704))
  * 03/08 - **Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context** <br>([:x:](https://arxiv.org/abs/2403.05530)), ([:book:](https://browse.arxiv.org/pdf/2403.05530.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.05530.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.05530)), ([:house:](https://huggingface.co/papers/2403.05530)), ([HTML](https://browse.arxiv.org/html/2403.05530v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.05530)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.05530v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.05530)), ([SS](https://api.semanticscholar.org/arXiv:2403.05530)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/gemini-1-5-unlocking-multimodal-understanding))
  * 03/08 - **Now available on Poe: Claude 3**  ([Demo](https://poe.com/Claude-3-Opus)), 
  * 03/07 - **Teaching Large Language Models to Reason with Reinforcement Learning** <br>([:x:](https://arxiv.org/abs/2403.04642)), ([:book:](https://browse.arxiv.org/pdf/2403.04642.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.04642.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.04642)), ([:house:](https://huggingface.co/papers/2403.04642)), ([HTML](https://browse.arxiv.org/html/2403.04642v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.04642)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.04642v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.04642)), ([SS](https://api.semanticscholar.org/arXiv:2403.04642)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/teaching-large-language-models-to-reason-with))
  * 03/07 - **Meet ‘Liberated Qwen’, an uncensored LLM that strictly adheres to system prompts**  ([News](https://venturebeat.com/ai/meet-liberated-qwen-an-uncensored-llm-that-strictly-adheres-to-system-prompts/)), 
  * 03/07 - **How Far Are We from Intelligent Visual Deductive Reasoning?** <br>([:x:](https://arxiv.org/abs/2403.04732)), ([:book:](https://browse.arxiv.org/pdf/2403.04732.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.04732.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.04732)), ([:house:](https://huggingface.co/papers/2403.04732)), ([HTML](https://browse.arxiv.org/html/2403.04732v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.04732)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.04732v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.04732)), ([SS](https://api.semanticscholar.org/arXiv:2403.04732)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/how-far-are-we-from-intelligent-visual)), ([:octocat:](https://github.com/apple/ml-rpm-bench)![GitHub Repo stars](https://img.shields.io/github/stars/apple/ml-rpm-bench?style=social))
  * 03/07 - **Evaluating LLM models at scale**  ([Blog](https://blog.mozilla.org/en/mozilla/ai/evaluating-llm-models-at-scale/)), 
  * 03/07 - **Common 7B Language Models Already Possess Strong Math Capabilities** <br>([:x:](https://arxiv.org/abs/2403.04706)), ([:book:](https://browse.arxiv.org/pdf/2403.04706.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.04706.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.04706)), ([:house:](https://huggingface.co/papers/2403.04706)), ([HTML](https://browse.arxiv.org/html/2403.04706v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.04706)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.04706v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.04706)), ([SS](https://api.semanticscholar.org/arXiv:2403.04706)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/common-7b-language-models-already-possess))
  * 03/07 - **Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference** <br>([:x:](https://arxiv.org/abs/2403.04132)), ([:book:](https://browse.arxiv.org/pdf/2403.04132.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.04132.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.04132)), ([:house:](https://huggingface.co/papers/2403.04132)), ([HTML](https://browse.arxiv.org/html/2403.04132v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.04132)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.04132v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.04132)), ([SS](https://api.semanticscholar.org/arXiv:2403.04132)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/chatbot-arena-an-open-platform-for-evaluating))
  * 03/07 - **Can Large Language Models Reason and Plan?** <br>([:x:](https://arxiv.org/abs/2403.04121)), ([:book:](https://browse.arxiv.org/pdf/2403.04121.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.04121.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.04121)), ([:house:](https://huggingface.co/papers/2403.04121)), ([HTML](https://browse.arxiv.org/html/2403.04121v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.04121)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.04121v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.04121)), ([SS](https://api.semanticscholar.org/arXiv:2403.04121))
  * 03/06 - **SaulLM-7B: A pioneering Large Language Model for Law** <br>([:x:](https://arxiv.org/abs/2403.03883)), ([:book:](https://browse.arxiv.org/pdf/2403.03883.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.03883.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.03883)), ([:house:](https://huggingface.co/papers/2403.03883)), ([HTML](https://browse.arxiv.org/html/2403.03883v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.03883)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.03883v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.03883)), ([SS](https://api.semanticscholar.org/arXiv:2403.03883)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/saullm-7b-a-pioneering-large-language-model))
  * 03/06 - **Learning to Decode Collaboratively with Multiple Language Models** <br>([:x:](https://arxiv.org/abs/2403.03870)), ([:book:](https://browse.arxiv.org/pdf/2403.03870.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.03870.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.03870)), ([:house:](https://huggingface.co/papers/2403.03870)), ([HTML](https://browse.arxiv.org/html/2403.03870v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.03870)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.03870v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.03870)), ([SS](https://api.semanticscholar.org/arXiv:2403.03870)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/learning-to-decode-collaboratively-with)), ([:octocat:](https://github.com/clinicalml/co-llm)![GitHub Repo stars](https://img.shields.io/github/stars/clinicalml/co-llm?style=social))
  * 03/06 - **Is AGI Getting Closer? Anthropic's Claude 3 Opus Model Shows Glimmers of Metacognitive Reasoning**  ([News](https://hackernoon.com/is-agi-getting-closer-anthropics-claude-3-opus-model-shows-glimmers-of-metacognitive-reasoning))													
  * 03/05 - **OpenAI and Elon Musk**  ([Blog](https://openai.com/blog/openai-elon-musk)), 
  * 03/05 - **AIs ranked by IQ; AI passes 100 IQ for first time, with release of Claude-3**  ([News](https://www.maximumtruth.org/p/ais-ranked-by-iq-ai-passes-100-iq)), 
  * 03/05 - **WikiTableEdit: A Benchmark for Table Editing by Natural Language Instruction** <br>([:x:](https://arxiv.org/abs/2403.02962)), ([:book:](https://browse.arxiv.org/pdf/2403.02962.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.02962.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.02962)), ([:house:](https://huggingface.co/papers/2403.02962)), ([HTML](https://browse.arxiv.org/html/2403.02962v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.02962)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.02962v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.02962)), ([SS](https://api.semanticscholar.org/arXiv:2403.02962)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/wikitableedit-a-benchmark-for-table-editing))
  * 03/05 - **SNIFFER: Multimodal Large Language Model for Explainable Out-of-Context Misinformation Detection**  <br>([:x:](https://arxiv.org/abs/2403.03170)), ([:book:](https://browse.arxiv.org/pdf/2403.03170.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.03170.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.03170)), ([:house:](https://huggingface.co/papers/2403.03170)), ([HTML](https://browse.arxiv.org/html/2403.03170v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.03170)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.03170v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.03170)), ([SS](https://api.semanticscholar.org/arXiv:2403.03170)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/sniffer-multimodal-large-language-model-for))
  * 03/05 - **Revisiting Meta-evaluation for Grammatical Error Correction** <br> ([:x:](https://arxiv.org/abs/2403.02674)), ([:book:](https://browse.arxiv.org/pdf/2403.02674.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.02674.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.02674)), ([:house:](https://huggingface.co/papers/2403.02674)), ([HTML](https://browse.arxiv.org/html/2403.02674v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.02674)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.02674v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.02674)), ([SS](https://api.semanticscholar.org/arXiv:2403.02674)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/revisiting-meta-evaluation-for-grammatical))
  * 03/05 - **Online Learning of Human Constraints from Feedback in Shared Autonomy**  <br> ([:x:](https://arxiv.org/abs/2403.02974)), ([:book:](https://browse.arxiv.org/pdf/2403.02974.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.02974.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.02974)), ([:house:](https://huggingface.co/papers/2403.02974)), ([HTML](https://browse.arxiv.org/html/2403.02974v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.02974)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.02974v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.02974)), ([SS](https://api.semanticscholar.org/arXiv:2403.02974)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/online-learning-of-human-constraints-from))
  * 03/05 - **MAGID: An Automated Pipeline for Generating Synthetic Multi-modal Datasets** <br> ([:x:](https://arxiv.org/abs/2403.03194)), ([:book:](https://browse.arxiv.org/pdf/2403.03194.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.03194.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.03194)), ([:house:](https://huggingface.co/papers/2403.03194)), ([HTML](https://browse.arxiv.org/html/2403.03194v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.03194)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.03194v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.03194)), ([SS](https://api.semanticscholar.org/arXiv:2403.03194)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/magid-an-automated-pipeline-for-generating))
  * 03/05 - **KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents**  <br> ([:x:](https://arxiv.org/abs/2403.03101)), ([:book:](https://browse.arxiv.org/pdf/2403.03101.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.03101.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.03101)), ([:house:](https://huggingface.co/papers/2403.03101)), ([HTML](https://browse.arxiv.org/html/2403.03101v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.03101)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.03101v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.03101)), ([SS](https://api.semanticscholar.org/arXiv:2403.03101)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/knowagent-knowledge-augmented-planning-for)), ([:octocat:](https://github.com/zjunlp/knowagent)![GitHub Repo stars](https://img.shields.io/github/stars/zjunlp/knowagent?style=social))
  * 03/05 - **Interactive Continual Learning: Fast and Slow Thinking** ([:x:](https://arxiv.org/abs/2403.02628)), ([:book:](https://browse.arxiv.org/pdf/2403.02628.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.02628.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.02628)), ([:house:](https://huggingface.co/papers/2403.02628)), ([HTML](https://browse.arxiv.org/html/2403.02628v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.02628)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.02628v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.02628)), ([SS](https://api.semanticscholar.org/arXiv:2403.02628)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/interactive-continual-learning-fast-and-slow))
  * 03/05 - **InjecAgent: Benchmarking Indirect Prompt Injections in Tool-Integrated Large Language Model Agents** ([:x:](https://arxiv.org/abs/2403.02691)), ([:book:](https://browse.arxiv.org/pdf/2403.02691.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.02691.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.02691)), ([:house:](https://huggingface.co/papers/2403.02691)), ([HTML](https://browse.arxiv.org/html/2403.02691v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.02691)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.02691v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.02691)), ([SS](https://api.semanticscholar.org/arXiv:2403.02691)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/injecagent-benchmarking-indirect-prompt))
  * 03/05 - **Generative Software Engineering** ([:x:](https://arxiv.org/abs/2403.02583)), ([:book:](https://browse.arxiv.org/pdf/2403.02583.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.02583.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.02583)), ([:house:](https://huggingface.co/papers/2403.02583)), ([HTML](https://browse.arxiv.org/html/2403.02583v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.02583)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.02583v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.02583)), ([SS](https://api.semanticscholar.org/arXiv:2403.02583))
  * 03/05 - **Exploring the Limitations of Large Language Models in Compositional Relation Reasoning** ([:x:](https://arxiv.org/abs/2403.02615)), ([:book:](https://browse.arxiv.org/pdf/2403.02615.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.02615.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.02615)), ([:house:](https://huggingface.co/papers/2403.02615)), ([HTML](https://browse.arxiv.org/html/2403.02615v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.02615)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.02615v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.02615)), ([SS](https://api.semanticscholar.org/arXiv:2403.02615)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/exploring-the-limitations-of-large-language))
  * 03/05 - **Evidence-Focused Fact Summarization for Knowledge-Augmented Zero-Shot Question Answering** ([:x:](https://arxiv.org/abs/2403.02966)), ([:book:](https://browse.arxiv.org/pdf/2403.02966.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.02966.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.02966)), ([:house:](https://huggingface.co/papers/2403.02966)), ([HTML](https://browse.arxiv.org/html/2403.02966v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.02966)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.02966v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.02966)), ([SS](https://api.semanticscholar.org/arXiv:2403.02966)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/evidence-focused-fact-summarization-for))
  * 03/05 - **Design2Code: How Far Are We From Automating Front-End Engineering?** ([:x:](https://arxiv.org/abs/2403.03163)), ([:book:](https://browse.arxiv.org/pdf/2403.03163.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.03163.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.03163)), ([:house:](https://huggingface.co/papers/2403.03163)), ([HTML](https://browse.arxiv.org/html/2403.03163v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.03163)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.03163v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.03163)), ([SS](https://api.semanticscholar.org/arXiv:2403.03163)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/design2code-how-far-are-we-from-automating))
  * 03/05 - **CURATRON: Complete Robust Preference Data for Robust Alignment of Large Language Models** ([:x:](https://arxiv.org/abs/2403.02745)), ([:book:](https://browse.arxiv.org/pdf/2403.02745.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.02745.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.02745)), ([:house:](https://huggingface.co/papers/2403.02745)), ([HTML](https://browse.arxiv.org/html/2403.02745v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.02745)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.02745v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.02745)), ([SS](https://api.semanticscholar.org/arXiv:2403.02745)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/curatron-complete-robust-preference-data-for))
  * 03/05 - **Benchmarking the Text-to-SQL Capability of Large Language Models: A Comprehensive Evaluation** ([:x:](https://arxiv.org/abs/2403.02951)), ([:book:](https://browse.arxiv.org/pdf/2403.02951.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.02951.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.02951)), ([:house:](https://huggingface.co/papers/2403.02951)), ([HTML](https://browse.arxiv.org/html/2403.02951v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.02951)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.02951v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.02951)), ([SS](https://api.semanticscholar.org/arXiv:2403.02951)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/benchmarking-the-text-to-sql-capability-of))
  * 03/05 - **An Empirical Study of LLM-as-a-Judge for LLM Evaluation: Fine-tuned Judge Models are Task-specific Classifiers** ([:x:](https://arxiv.org/abs/2403.02839)), ([:book:](https://browse.arxiv.org/pdf/2403.02839.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.02839.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.02839)), ([:house:](https://huggingface.co/papers/2403.02839)), ([HTML](https://browse.arxiv.org/html/2403.02839v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.02839)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.02839v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.02839)), ([SS](https://api.semanticscholar.org/arXiv:2403.02839)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/an-empirical-study-of-llm-as-a-judge-for-llm))
  * 3/5 - India asks tech firms to seek approval before releasing 'unreliable' AI tools   ([News](https://www.reuters.com/world/india/india-asks-tech-firms-seek-approval-before-releasing-unreliable-ai-tools-2024-03-04/)),
  * 03/04 - **Large language models surpass human experts in predicting neuroscience results** <br>([:x:](https://arxiv.org/abs/2403.03230)), ([:book:](https://browse.arxiv.org/pdf/2403.03230.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.03230.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.03230)), ([:house:](https://huggingface.co/papers/2403.03230)), ([HTML](https://browse.arxiv.org/html/2403.03230v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.03230)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.03230v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.03230)), ([SS](https://api.semanticscholar.org/arXiv:2403.03230)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/large-language-models-surpass-human-experts))
  * 03/04 - **The Claude 3 Model Family: Opus, Sonnet, Haiku** ([:x:](https://www.anthropic.com/news/claude-3-family))  ([twitter](https://twitter.com/AnthropicAI/status/1764653830468428150)), , ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/the-claude-3-model-family-opus-sonnet-haiku))
  * 03/04 - **Enhancing LLM Safety via Constrained Direct Preference Optimization** ([:x:](https://arxiv.org/abs/2403.02475)), ([:book:](https://browse.arxiv.org/pdf/2403.02475.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.02475.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.02475)), ([:house:](https://huggingface.co/papers/2403.02475)), ([HTML](https://browse.arxiv.org/html/2403.02475v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.02475)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.02475v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.02475)), ([SS](https://api.semanticscholar.org/arXiv:2403.02475)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/enhancing-llm-safety-via-constrained-direct))
  * 03/04 - **DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation** ([:x:](https://arxiv.org/abs/2403.02528)), ([:book:](https://browse.arxiv.org/pdf/2403.02528.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.02528.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.02528)), ([:house:](https://huggingface.co/papers/2403.02528)), ([HTML](https://browse.arxiv.org/html/2403.02528v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.02528)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.02528v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.02528)), ([SS](https://api.semanticscholar.org/arXiv:2403.02528)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/daco-towards-application-driven-and)), ([:octocat:](https://github.com/shirley-wu/daco)![GitHub Repo stars](https://img.shields.io/github/stars/shirley-wu/daco?style=social))
  * 03/04 - **CatCode: A Comprehensive Evaluation Framework for LLMs On the Mixture of Code and Text** ([:x:](https://arxiv.org/abs/2403.01784)), ([:book:](https://browse.arxiv.org/pdf/2403.01784.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.01784.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.01784)), ([:house:](https://huggingface.co/papers/2403.01784)), ([HTML](https://browse.arxiv.org/html/2403.01784v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.01784)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.01784v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.01784)), ([SS](https://api.semanticscholar.org/arXiv:2403.01784)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/catcode-a-comprehensive-evaluation-framework))
  * 03/04 - **Balancing Enhancement, Harmlessness, and General Capabilities: Enhancing Conversational LLMs with Direct RLHF** ([:x:](https://arxiv.org/abs/2403.02513)), ([:book:](https://browse.arxiv.org/pdf/2403.02513.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.02513.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.02513)), ([:house:](https://huggingface.co/papers/2403.02513)), ([HTML](https://browse.arxiv.org/html/2403.02513v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.02513)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.02513v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.02513)), ([SS](https://api.semanticscholar.org/arXiv:2403.02513)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/balancing-enhancement-harmlessness-and))
  * 03/04 - **adaptMLLM: Fine-Tuning Multilingual Language Models on Low-Resource Languages with Integrated LLM Playgrounds** ([:x:](https://arxiv.org/abs/2403.02370)), ([:book:](https://browse.arxiv.org/pdf/2403.02370.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.02370.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.02370)), ([:house:](https://huggingface.co/papers/2403.02370)), ([HTML](https://browse.arxiv.org/html/2403.02370v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.02370)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.02370v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.02370)), ([SS](https://api.semanticscholar.org/arXiv:2403.02370)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/adaptmllm-fine-tuning-multilingual-language)), ([:octocat:](https://github.com/adaptnmt/adaptmllm)![GitHub Repo stars](https://img.shields.io/github/stars/adaptnmt/adaptmllm?style=social)) 
  * 3/4 - Why OpenAI’s nonprofit mission to build AGI is under fire — again | The AI Beat   ([News](https://venturebeat.com/ai/why-openais-nonprofit-mission-to-build-agi-is-under-fire-again-the-ai-beat/)), 
  * 3/4 - SciAssess: Benchmarking LLM Proficiency in Scientific Literature Analysis ([:x:](https://arxiv.org/abs/2403.01976)), ([:book:](https://browse.arxiv.org/pdf/2403.01976.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.01976.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.01976)), ([:house:](https://huggingface.co/papers/2403.01976)), ([HTML](https://browse.arxiv.org/html/2403.01976v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.01976v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.01976)), ([SS](https://api.semanticscholar.org/arXiv:2403.01976)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/sciassess-benchmarking-llm-proficiency-in))
  * 3/4 - NPHardEval4V: A Dynamic Reasoning Benchmark of Multimodal Large Language Models ([:x:](https://arxiv.org/abs/2403.01777)), ([:book:](https://browse.arxiv.org/pdf/2403.01777.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.01777.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.01777)), ([:house:](https://huggingface.co/papers/2403.01777)), ([HTML](https://browse.arxiv.org/html/2403.01777v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.01777v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.01777)), ([SS](https://api.semanticscholar.org/arXiv:2403.01777)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/nphardeval4v-a-dynamic-reasoning-benchmark-of))
  * 3/4 - Build AI for a Better Future   ([twitter](https://twitter.com/RonConway/status/1764652519324778966)),  ([News](https://openletter.svangel.com/)), 
  * 3/3 - The AGI Lawsuit: Elon Musk vs. OpenAI and the Quest for Artificial General Intelligence that Benefits Humanity   ([Blog](https://patentlyo.com/patent/2024/03/artificial-intelligence-benefits.html), 
  * 3/3 - Nvidia CEO Jensen Huang says AI could pass most human tests in 5 years   ([News](https://www.foxbusiness.com/technology/nvidia-ceo-jensen-huang-says-ai-could-pass-most-human-tests-5-years)
  * 3/2 - Nvidia CEO says AI could pass human tests in five years   ([News](https://www.reuters.com/technology/nvidia-ceo-says-ai-could-pass-human-tests-five-years-2024-03-01/)
  * 3/2 - LAB: Large-Scale Alignment for ChatBots ([:x:](https://arxiv.org/abs/2403.01081)), ([:book:](https://browse.arxiv.org/pdf/2403.01081.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.01081.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.01081)), ([:house:](https://huggingface.co/papers/2403.01081)), ([HTML](https://browse.arxiv.org/html/2403.01081v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.01081v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.01081)), ([SS](https://api.semanticscholar.org/arXiv:2403.01081)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/lab-large-scale-alignment-for-chatbots))
  * 3/2 - Evaluating Large Language Models as Virtual Annotators for Time-series Physical Sensing Data ([:x:](https://arxiv.org/abs/2403.01133)), ([:book:](https://browse.arxiv.org/pdf/2403.01133.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.01133.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.01133)), ([:house:](https://huggingface.co/papers/2403.01133)), ([HTML](https://browse.arxiv.org/html/2403.01133v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.01133v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.01133)), ([SS](https://api.semanticscholar.org/arXiv:2403.01133)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/evaluating-large-language-models-as-virtual))
  * 3/1 - Private Benchmarking to Prevent Contamination and Improve Comparative Evaluation of LLMs ([:x:](https://arxiv.org/abs/2403.00393)), ([:book:](https://browse.arxiv.org/pdf/2403.00393.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.00393.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.00393)), ([:house:](https://huggingface.co/papers/2403.00393)), ([HTML](https://browse.arxiv.org/html/2403.00393v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.00393v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.00393)), ([SS](https://api.semanticscholar.org/arXiv:2403.00393)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/private-benchmarking-to-prevent-contamination))
  * 3/1 - Formulation Comparison for Timeline Construction using LLMs ([:x:](https://arxiv.org/abs/2403.00990)), ([:book:](https://browse.arxiv.org/pdf/2403.00990.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.00990.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.00990)), ([:house:](https://huggingface.co/papers/2403.00990)), ([HTML](https://browse.arxiv.org/html/2403.00990v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.00990v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.00990)), ([SS](https://api.semanticscholar.org/arXiv:2403.00990)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/formulation-comparison-for-timeline)), ([:octocat:](https://github.com/kimihiroh/timeset)![GitHub Repo stars](https://img.shields.io/github/stars/kimihiroh/timeset?style=social))
  * 3/1 - Elon Musk sues OpenAI and CEO Sam Altman over contract breach   ([News](https://www.cnbc.com/2024/03/01/elon-musk-sues-openai-and-ceo-sam-altman-over-contract-breach.html)), 
  * 3/1 - DiaHalu: A Dialogue-level Hallucination Evaluation Benchmark for Large Language Models ([:x:](https://arxiv.org/abs/2403.00896)), ([:book:](https://browse.arxiv.org/pdf/2403.00896.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.00896.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.00896)), ([:house:](https://huggingface.co/papers/2403.00896)), ([HTML](https://browse.arxiv.org/html/2403.00896v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.00896v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.00896)), ([SS](https://api.semanticscholar.org/arXiv:2403.00896)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/diahalu-a-dialogue-level-hallucination))
  * 3/1 - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries ([:x:](https://arxiv.org/abs/2403.01002)), ([:book:](https://browse.arxiv.org/pdf/2403.01002.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.01002.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.01002)), ([:house:](https://huggingface.co/papers/2403.01002)), ([HTML](https://browse.arxiv.org/html/2403.01002v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.01002v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.01002)), ([SS](https://api.semanticscholar.org/arXiv:2403.01002)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/attribute-structuring-improves-llm-based)), ([:octocat:](https://github.com/microsoft/attribute-structuring)![GitHub Repo stars](https://img.shields.io/github/stars/microsoft/attribute-structuring?style=social))
  * 02/29 - **Functional Benchmarks for Robust Evaluation of Reasoning Performance, and the Reasoning Gap** <br>([:x:](https://arxiv.org/abs/2402.19450)), ([:book:](https://browse.arxiv.org/pdf/2402.19450.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.19450.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.19450)), ([:house:](https://huggingface.co/papers/2402.19450)), ([HTML](https://browse.arxiv.org/html/2402.19450v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2402.19450)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.19450v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.19450)), ([SS](https://api.semanticscholar.org/arXiv:2402.19450)) ([twitter](https://twitter.com/_saurabh/status/1763626711407816930)), 
  * 2/29 - OpenMedLM: Prompt engineering can out-perform fine-tuning in medical question-answering with open-source large language models ([:x:](https://arxiv.org/abs/2402.19371)), ([:book:](https://browse.arxiv.org/pdf/2402.19371.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.19371.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.19371)), ([:house:](https://huggingface.co/papers/2402.19371)), ([HTML](https://browse.arxiv.org/html/2402.19371v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.19371v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.19371)), ([SS](https://api.semanticscholar.org/arXiv:2402.19371)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/openmedlm-prompt-engineering-can-out-perform))
  * 2/29 - NewsBench: Systematic Evaluation of LLMs for Writing Proficiency and Safety Adherence in Chinese Journalistic Editorial Applications ([:x:](https://arxiv.org/abs/2403.00862)), ([:book:](https://browse.arxiv.org/pdf/2403.00862.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.00862.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.00862)), ([:house:](https://huggingface.co/papers/2403.00862)), ([HTML](https://browse.arxiv.org/html/2403.00862v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.00862v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.00862)), ([SS](https://api.semanticscholar.org/arXiv:2403.00862)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/newsbench-systematic-evaluation-of-llms-for))
  * 2/29 - Let LLMs Take on the Latest Challenges! A Chinese Dynamic Question Answering Benchmark ([:x:](https://arxiv.org/abs/2402.19248)), ([:book:](https://browse.arxiv.org/pdf/2402.19248.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.19248.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.19248)), ([:house:](https://huggingface.co/papers/2402.19248)), ([HTML](https://browse.arxiv.org/html/2402.19248v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.19248v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.19248)), ([SS](https://api.semanticscholar.org/arXiv:2402.19248)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/let-llms-take-on-the-latest-challenges-a)), ([:octocat:](https://github.com/alibaba-nlp/cdqa)![GitHub Repo stars](https://img.shields.io/github/stars/alibaba-nlp/cdqa?style=social))
  * 2/29 - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers ([:x:](https://arxiv.org/abs/2402.19255)), ([:book:](https://browse.arxiv.org/pdf/2402.19255.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.19255.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.19255)), ([:house:](https://huggingface.co/papers/2402.19255)), ([HTML](https://browse.arxiv.org/html/2402.19255v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.19255v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.19255)), ([SS](https://api.semanticscholar.org/arXiv:2402.19255)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/gsm-plus-a-comprehensive-benchmark-for)), ([:octocat:](https://github.com/qtli/gsm-plus)![GitHub Repo stars](https://img.shields.io/github/stars/qtli/gsm-plus?style=social))
  * 2/29 - Exploring the Efficacy of Large Language Models in Summarizing Mental Health Counseling Sessions: A Benchmark Study ([:x:](https://arxiv.org/abs/2402.19052)), ([:book:](https://browse.arxiv.org/pdf/2402.19052.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.19052.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.19052)), ([:house:](https://huggingface.co/papers/2402.19052)), ([HTML](https://browse.arxiv.org/html/2402.19052v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.19052v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.19052)), ([SS](https://api.semanticscholar.org/arXiv:2402.19052)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/exploring-the-efficacy-of-large-language))
  * 2/29 - Analyzing and Reducing Catastrophic Forgetting in Parameter Efficient Tuning ([:x:](https://arxiv.org/abs/2402.18865)), ([:book:](https://browse.arxiv.org/pdf/2402.18865.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.18865.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.18865)), ([:house:](https://huggingface.co/papers/2402.18865)), ([HTML](https://browse.arxiv.org/html/2402.18865v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.18865v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.18865)), ([SS](https://api.semanticscholar.org/arXiv:2402.18865)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/analyzing-and-reducing-catastrophic)), ([:octocat:](https://github.com/which47/llmcl)![GitHub Repo stars](https://img.shields.io/github/stars/which47/llmcl?style=social))
  * 02/28 - **Position Paper: Agent AI Towards a Holistic Intelligence** <br>([:x:](https://arxiv.org/abs/2403.00833)), ([:book:](https://browse.arxiv.org/pdf/2403.00833.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.00833.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.00833)), ([:house:](https://huggingface.co/papers/2403.00833)), ([HTML](https://browse.arxiv.org/html/2403.00833v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.00833)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.00833v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.00833)), ([SS](https://api.semanticscholar.org/arXiv:2403.00833)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/position-paper-agent-ai-towards-a-holistic))
  * 02/28 - **Evaluating LLMs Through a Federated, Scenario-Writing Approach**   ([Blog](https://foundation.mozilla.org/en/blog/evaluating-llms-through-a-federated-scenario-writing-approach/)), 
  * 2/28 - Organizational AGI is coming – most companies aren’t prepared   ([Blog](https://www.intelligentcio.com/north-america/2024/02/28/organizational-agi-is-coming-most-companies-arent-prepared/)), 
  * 2/28 - MIKO: Multimodal Intention Knowledge Distillation from Large Language Models for Social-Media Commonsense Discovery ([:x:](https://arxiv.org/abs/2402.18169)), ([:book:](https://browse.arxiv.org/pdf/2402.18169.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.18169.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.18169)), ([:house:](https://huggingface.co/papers/2402.18169)), ([HTML](https://browse.arxiv.org/html/2402.18169v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.18169v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.18169)), ([SS](https://api.semanticscholar.org/arXiv:2402.18169)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/miko-multimodal-intention-knowledge))
  * 2/28 - From Summary to Action: Enhancing Large Language Models for Complex Tasks with Open World APIs ([:x:](https://arxiv.org/abs/2402.18157)), ([:book:](https://browse.arxiv.org/pdf/2402.18157.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.18157.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.18157)), ([:house:](https://huggingface.co/papers/2402.18157)), ([HTML](https://browse.arxiv.org/html/2402.18157v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.18157v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.18157)), ([SS](https://api.semanticscholar.org/arXiv:2402.18157)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/from-summary-to-action-enhancing-large))
  * 2/28 - FOFO: A Benchmark to Evaluate LLMs' Format-Following Capability ([:x:](https://arxiv.org/abs/2402.18667)), ([:book:](https://browse.arxiv.org/pdf/2402.18667.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.18667.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.18667)), ([:house:](https://huggingface.co/papers/2402.18667)), ([HTML](https://browse.arxiv.org/html/2402.18667v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.18667v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.18667)), ([SS](https://api.semanticscholar.org/arXiv:2402.18667)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/fofo-a-benchmark-to-evaluate-llms-format))
  * 2/28 - Focus on Your Question! Interpreting and Mitigating Toxic CoT Problems in Commonsense Reasoning ([:x:](https://arxiv.org/abs/2402.18344)), ([:book:](https://browse.arxiv.org/pdf/2402.18344.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.18344.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.18344)), ([:house:](https://huggingface.co/papers/2402.18344)), ([HTML](https://browse.arxiv.org/html/2402.18344v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.18344v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.18344)), ([SS](https://api.semanticscholar.org/arXiv:2402.18344)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/focus-on-your-question-interpreting-and))
  * 2/28 - Editing Factual Knowledge and Explanatory Ability of Medical Large Language Models ([:x:](https://arxiv.org/abs/2402.18099)), ([:book:](https://browse.arxiv.org/pdf/2402.18099.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.18099.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.18099)), ([:house:](https://huggingface.co/papers/2402.18099)), ([HTML](https://browse.arxiv.org/html/2402.18099v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.18099v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.18099)), ([SS](https://api.semanticscholar.org/arXiv:2402.18099)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/editing-factual-knowledge-and-explanatory)), ([:octocat:](https://github.com/quqxui/medlasa)![GitHub Repo stars](https://img.shields.io/github/stars/quqxui/medlasa?style=social))
  * 2/28 - CogBench: a large language model walks into a psychology lab ([:x:](https://arxiv.org/abs/2402.18225)), ([:book:](https://browse.arxiv.org/pdf/2402.18225.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.18225.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.18225)), ([:house:](https://huggingface.co/papers/2402.18225)), ([HTML](https://browse.arxiv.org/html/2402.18225v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.18225v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.18225)), ([SS](https://api.semanticscholar.org/arXiv:2402.18225)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/cogbench-a-large-language-model-walks-into-a)), ([:octocat:](https://github.com/juliancodaforno/cogbench)![GitHub Repo stars](https://img.shields.io/github/stars/juliancodaforno/cogbench?style=social))
  * 2/28 - CLLMs: Consistency Large Language Models ([:x:](https://arxiv.org/abs/2403.00835)), ([:book:](https://browse.arxiv.org/pdf/2403.00835.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.00835.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.00835)), ([:house:](https://huggingface.co/papers/2403.00835)), ([HTML](https://browse.arxiv.org/html/2403.00835v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.00835v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.00835)), ([SS](https://api.semanticscholar.org/arXiv:2403.00835)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/cllms-consistency-large-language-models))
  * 2/28 - Cause and Effect: Can Large Language Models Truly Understand Causality? ([:x:](https://arxiv.org/abs/2402.18139)), ([:book:](https://browse.arxiv.org/pdf/2402.18139.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.18139.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.18139)), ([:house:](https://huggingface.co/papers/2402.18139)), ([HTML](https://browse.arxiv.org/html/2402.18139v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.18139v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.18139)), ([SS](https://api.semanticscholar.org/arXiv:2402.18139)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/cause-and-effect-can-large-language-models))
  * 2/28 - Benchmarking Large Language Models on Answering and Explaining Challenging Medical Questions ([:x:](https://arxiv.org/abs/2402.18060)), ([:book:](https://browse.arxiv.org/pdf/2402.18060.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.18060.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.18060)), ([:house:](https://huggingface.co/papers/2402.18060)), ([HTML](https://browse.arxiv.org/html/2402.18060v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.18060v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.18060)), ([SS](https://api.semanticscholar.org/arXiv:2402.18060)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/benchmarking-large-language-models-on-2))
  * 2/28 - ‘Baby AGI’ could be a reality in early 2025: SingularityNET founder   ([News](https://cointelegraph.com/news/artificial-general-intelligence-agi-prototype-early-2025-ben-goertzel)), 
  * 02/27 - **A High Level Guide to LLM Evaluation Metrics**   ([Blog](https://towardsdatascience.com/a-high-level-guide-to-llm-evaluation-metrics-fbecd08f725c)), 
  * 2/27 - When Scaling Meets LLM Finetuning: The Effect of Data, Model and Finetuning Method ([:x:](https://arxiv.org/abs/2402.17193)), ([:book:](https://browse.arxiv.org/pdf/2402.17193.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.17193.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.17193)), ([:house:](https://huggingface.co/papers/2402.17193)), ([HTML](https://browse.arxiv.org/html/2402.17193v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.17193v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.17193)), ([SS](https://api.semanticscholar.org/arXiv:2402.17193)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/when-scaling-meets-llm-finetuning-the-effect))
  * 2/27 - Users Say Microsoft's AI Has Alternate Personality as Godlike AGI That Demands to Be Worshipped   ([News](https://futurism.com/microsoft-copilot-alter-egos)), 
  * 2/27 - TruthX: Alleviating Hallucinations by Editing Large Language Models in Truthful Space ([:x:](https://arxiv.org/abs/2402.17811)), ([:book:](https://browse.arxiv.org/pdf/2402.17811.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.17811.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.17811)), ([:house:](https://huggingface.co/papers/2402.17811)), ([HTML](https://browse.arxiv.org/html/2402.17811v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.17811v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.17811)), ([SS](https://api.semanticscholar.org/arXiv:2402.17811)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/truthx-alleviating-hallucinations-by-editing)), ([:octocat:](https://github.com/ictnlp/truthx)![GitHub Repo stars](https://img.shields.io/github/stars/ictnlp/truthx?style=social))
  * 2/27 - The Emergence of Large Language Models in Static Analysis: A First Look through Micro-Benchmarks ([:x:](https://arxiv.org/abs/2402.17679)), ([:book:](https://browse.arxiv.org/pdf/2402.17679.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.17679.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.17679)), ([:house:](https://huggingface.co/papers/2402.17679)), ([HTML](https://browse.arxiv.org/html/2402.17679v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.17679v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.17679)), ([SS](https://api.semanticscholar.org/arXiv:2402.17679))
  * 2/27 - ShapeLLM: Universal 3D Object Understanding for Embodied Interaction ([:x:](https://arxiv.org/abs/2402.17766)), ([:book:](https://browse.arxiv.org/pdf/2402.17766.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.17766.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.17766)), ([:house:](https://huggingface.co/papers/2402.17766)), ([HTML](https://browse.arxiv.org/html/2402.17766v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.17766v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.17766)), ([SS](https://api.semanticscholar.org/arXiv:2402.17766)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/shapellm-universal-3d-object-understanding)), ([:octocat:](https://github.com/qizekun/ShapeLLM)![GitHub Repo stars](https://img.shields.io/github/stars/qizekun/ShapeLLM?style=social))
  * 2/27 - Re-Ex: Revising after Explanation Reduces the Factual Errors in LLM Responses ([:x:](https://arxiv.org/abs/2402.17097)), ([:book:](https://browse.arxiv.org/pdf/2402.17097.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.17097.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.17097)), ([:house:](https://huggingface.co/papers/2402.17097)), ([HTML](https://browse.arxiv.org/html/2402.17097v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.17097v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.17097)), ([SS](https://api.semanticscholar.org/arXiv:2402.17097)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/re-ex-revising-after-explanation-reduces-the))
  * 2/27 - Investigating Continual Pretraining in Large Language Models: Insights and Implications ([:x:](https://arxiv.org/abs/2402.17400)), ([:book:](https://browse.arxiv.org/pdf/2402.17400.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.17400.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.17400)), ([:house:](https://huggingface.co/papers/2402.17400)), ([HTML](https://browse.arxiv.org/html/2402.17400v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.17400v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.17400)), ([SS](https://api.semanticscholar.org/arXiv:2402.17400)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/investigating-continual-pretraining-in-large))
  * 2/27 - How the “Frontier” Became the Slogan of Uncontrolled AI   ([Blog](https://jacobin.com/2024/02/artificial-intelligence-frontier-colonialism)), 
  * 2/27 - Google DeepMind CEO on AGI, OpenAI and Beyond – MWC 2024   ([News](https://aibusiness.com/nlp/google-deepmind-ceo-on-agi-openai-and-beyond-mwc-2024)), 
  * 2/27 - Evaluating Very Long-Term Conversational Memory of LLM Agents ([:x:](https://arxiv.org/abs/2402.17753)), ([:book:](https://browse.arxiv.org/pdf/2402.17753.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.17753.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.17753)), ([:house:](https://huggingface.co/papers/2402.17753)), ([HTML](https://browse.arxiv.org/html/2402.17753v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.17753v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.17753)), ([SS](https://api.semanticscholar.org/arXiv:2402.17753)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/evaluating-very-long-term-conversational))
  * 2/27 - Benchmarking GPT-4 on Algorithmic Problems: A Systematic Evaluation of Prompting Strategies ([:x:](https://arxiv.org/abs/2402.17396)), ([:book:](https://browse.arxiv.org/pdf/2402.17396.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.17396.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.17396)), ([:house:](https://huggingface.co/papers/2402.17396)), ([HTML](https://browse.arxiv.org/html/2402.17396v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.17396v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.17396)), ([SS](https://api.semanticscholar.org/arXiv:2402.17396)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/benchmarking-gpt-4-on-algorithmic-problems-a))
  * 2/27 - Benchmarking Data Science Agents ([:x:](https://arxiv.org/abs/2402.17168)), ([:book:](https://browse.arxiv.org/pdf/2402.17168.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.17168.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.17168)), ([:house:](https://huggingface.co/papers/2402.17168)), ([HTML](https://browse.arxiv.org/html/2402.17168v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.17168v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.17168)), ([SS](https://api.semanticscholar.org/arXiv:2402.17168)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/benchmarking-data-science-agents)), ([:octocat:](https://github.com/metacopilot/dseval)![GitHub Repo stars](https://img.shields.io/github/stars/metacopilot/dseval?style=social))
  * 2/27 - Are LLMs Capable of Data-based Statistical and Causal Reasoning? Benchmarking Advanced Quantitative Reasoning with Data ([:x:](https://arxiv.org/abs/2402.17644)), ([:book:](https://browse.arxiv.org/pdf/2402.17644.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.17644.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.17644)), ([:house:](https://huggingface.co/papers/2402.17644)), ([HTML](https://browse.arxiv.org/html/2402.17644v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.17644v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.17644)), ([SS](https://api.semanticscholar.org/arXiv:2402.17644)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/are-llms-capable-of-data-based-statistical)), ([:octocat:](https://github.com/xxxiaol/qrdata)![GitHub Repo stars](https://img.shields.io/github/stars/xxxiaol/qrdata?style=social))
  * 2/27 - A Language Model based Framework for New Concept Placement in Ontologies ([:x:](https://arxiv.org/abs/2402.17897)), ([:book:](https://browse.arxiv.org/pdf/2402.17897.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.17897.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.17897)), ([:house:](https://huggingface.co/papers/2402.17897)), ([HTML](https://browse.arxiv.org/html/2402.17897v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.17897v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.17897)), ([SS](https://api.semanticscholar.org/arXiv:2402.17897)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/a-language-model-based-framework-for-new))
  * 2/26 - Think Big, Generate Quick: LLM-to-SLM for Fast Autoregressive Decoding ([:x:](https://arxiv.org/abs/2402.16844)), ([:book:](https://browse.arxiv.org/pdf/2402.16844.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.16844.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.16844)), ([:house:](https://huggingface.co/papers/2402.16844)), ([HTML](https://browse.arxiv.org/html/2402.16844v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.16844v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.16844)), ([SS](https://api.semanticscholar.org/arXiv:2402.16844)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/think-big-generate-quick-llm-to-slm-for-fast))
  * 2/26 - MoZIP: A Multilingual Benchmark to Evaluate Large Language Models in Intellectual Property ([:x:](https://arxiv.org/abs/2402.16389)), ([:book:](https://browse.arxiv.org/pdf/2402.16389.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.16389.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.16389)), ([:house:](https://huggingface.co/papers/2402.16389)), ([HTML](https://browse.arxiv.org/html/2402.16389v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.16389v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.16389)), ([SS](https://api.semanticscholar.org/arXiv:2402.16389)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/mozip-a-multilingual-benchmark-to-evaluate)), ([:octocat:](https://github.com/ai-for-science/mozi)![GitHub Repo stars](https://img.shields.io/github/stars/ai-for-science/mozi?style=social))
  * 2/26 - LLMArena: Assessing Capabilities of Large Language Models in Dynamic Multi-Agent Environments ([:x:](https://arxiv.org/abs/2402.16499)), ([:book:](https://browse.arxiv.org/pdf/2402.16499.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.16499.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.16499)), ([:house:](https://huggingface.co/papers/2402.16499)), ([HTML](https://browse.arxiv.org/html/2402.16499v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.16499v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.16499)), ([SS](https://api.semanticscholar.org/arXiv:2402.16499)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/llmarena-assessing-capabilities-of-large))
  * 2/26 - HumanEval-XL: A Multilingual Code Generation Benchmark for Cross-lingual Natural Language Generalization ([:x:](https://arxiv.org/abs/2402.16694)), ([:book:](https://browse.arxiv.org/pdf/2402.16694.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.16694.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.16694)), ([:house:](https://huggingface.co/papers/2402.16694)), ([HTML](https://browse.arxiv.org/html/2402.16694v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.16694v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.16694)), ([SS](https://api.semanticscholar.org/arXiv:2402.16694)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/humaneval-xl-a-multilingual-code-generation)), ([:octocat:](https://github.com/FloatAI/HumanEval-XL )![GitHub Repo stars](https://img.shields.io/github/stars/FloatAI/HumanEval-XL ?style=social))
  * 2/26 - Benchmarking LLMs on the Semantic Overlap Summarization Task ([:x:](https://arxiv.org/abs/2402.17008)), ([:book:](https://browse.arxiv.org/pdf/2402.17008.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.17008.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.17008)), ([:house:](https://huggingface.co/papers/2402.17008)), ([HTML](https://browse.arxiv.org/html/2402.17008v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.17008v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.17008)), ([SS](https://api.semanticscholar.org/arXiv:2402.17008)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/benchmarking-llms-on-the-semantic-overlap))
  * 2/26 - A Comprehensive Evaluation of Quantization Strategies for Large Language Models ([:x:](https://arxiv.org/abs/2402.16775)), ([:book:](https://browse.arxiv.org/pdf/2402.16775.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.16775.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.16775)), ([:house:](https://huggingface.co/papers/2402.16775)), ([HTML](https://browse.arxiv.org/html/2402.16775v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.16775v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.16775)), ([SS](https://api.semanticscholar.org/arXiv:2402.16775)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/a-comprehensive-evaluation-of-quantization))
  * 2/25 - HypoTermQA: Hypothetical Terms Dataset for Benchmarking Hallucination Tendency of LLMs ([:x:](https://arxiv.org/abs/2402.16211)), ([:book:](https://browse.arxiv.org/pdf/2402.16211.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.16211.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.16211)), ([:house:](https://huggingface.co/papers/2402.16211)), ([HTML](https://browse.arxiv.org/html/2402.16211v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.16211v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.16211)), ([SS](https://api.semanticscholar.org/arXiv:2402.16211)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/hypotermqa-hypothetical-terms-dataset-for))
  * 2/25 - Defending Large Language Models against Jailbreak Attacks via Semantic Smoothing ([:x:](https://arxiv.org/abs/2402.16192)), ([:book:](https://browse.arxiv.org/pdf/2402.16192.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.16192.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.16192)), ([:house:](https://huggingface.co/papers/2402.16192)), ([HTML](https://browse.arxiv.org/html/2402.16192v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.16192v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.16192)), ([SS](https://api.semanticscholar.org/arXiv:2402.16192)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/defending-large-language-models-against-1))
  * 2/24 - SportQA: A Benchmark for Sports Understanding in Large Language Models ([:x:](https://arxiv.org/abs/2402.15862)), ([:book:](https://browse.arxiv.org/pdf/2402.15862.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.15862.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.15862)), ([:house:](https://huggingface.co/papers/2402.15862)), ([HTML](https://browse.arxiv.org/html/2402.15862v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.15862v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.15862)), ([SS](https://api.semanticscholar.org/arXiv:2402.15862)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/sportqa-a-benchmark-for-sports-understanding))
  * 2/24 - OAG-Bench: A Human-Curated Benchmark for Academic Graph Mining ([:x:](https://arxiv.org/abs/2402.15810)), ([:book:](https://browse.arxiv.org/pdf/2402.15810.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.15810.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.15810)), ([:house:](https://huggingface.co/papers/2402.15810)), ([HTML](https://browse.arxiv.org/html/2402.15810v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.15810v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.15810)), ([SS](https://api.semanticscholar.org/arXiv:2402.15810)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/oag-bench-a-human-curated-benchmark-for))
  * 2/24 - Measuring Bargaining Abilities of LLMs: A Benchmark and A Buyer-Enhancement Method ([:x:](https://arxiv.org/abs/2402.15813)), ([:book:](https://browse.arxiv.org/pdf/2402.15813.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.15813.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.15813)), ([:house:](https://huggingface.co/papers/2402.15813)), ([HTML](https://browse.arxiv.org/html/2402.15813v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.15813v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.15813)), ([SS](https://api.semanticscholar.org/arXiv:2402.15813)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/measuring-bargaining-abilities-of-llms-a)), ([:octocat:](https://github.com/tianxiasjtu/amazonpricehistory)![GitHub Repo stars](https://img.shields.io/github/stars/tianxiasjtu/amazonpricehistory?style=social))
  * 2/24 - Hal-Eval: A Universal and Fine-grained Hallucination Evaluation Framework for Large Vision Language Models ([:x:](https://arxiv.org/abs/2402.15721)), ([:book:](https://browse.arxiv.org/pdf/2402.15721.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.15721.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.15721)), ([:house:](https://huggingface.co/papers/2402.15721)), ([HTML](https://browse.arxiv.org/html/2402.15721v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.15721v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.15721)), ([SS](https://api.semanticscholar.org/arXiv:2402.15721)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/hal-eval-a-universal-and-fine-grained))
  * 2/23 - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models ([:x:](https://arxiv.org/abs/2402.15043)), ([:book:](https://browse.arxiv.org/pdf/2402.15043.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.15043.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.15043)), ([:house:](https://huggingface.co/papers/2402.15043)), ([HTML](https://browse.arxiv.org/html/2402.15043v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.15043v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.15043)), ([SS](https://api.semanticscholar.org/arXiv:2402.15043)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/kieval-a-knowledge-grounded-interactive)), ([:octocat:](https://github.com/zhuohaoyu/kieval)![GitHub Repo stars](https://img.shields.io/github/stars/zhuohaoyu/kieval?style=social))
  * 2/23 - Google DeepMind C.E.O. Demis Hassabis on the Path From Chatbots to A.G.I.   ([News](https://archive.is/bCUXT#selection-4377.17-4430.0))
  * 2/23 - Getting Serious about Humor: Crafting Humor Datasets with Unfunny Large Language Models ([:x:](https://arxiv.org/abs/2403.00794)), ([:book:](https://browse.arxiv.org/pdf/2403.00794.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.00794.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.00794)), ([:house:](https://huggingface.co/papers/2403.00794)), ([HTML](https://browse.arxiv.org/html/2403.00794v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.00794v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.00794)), ([SS](https://api.semanticscholar.org/arXiv:2403.00794))
  * 2/23 - AttributionBench: How Hard is Automatic Attribution Evaluation? ([:x:](https://arxiv.org/abs/2402.15089)), ([:book:](https://browse.arxiv.org/pdf/2402.15089.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.15089.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.15089)), ([:house:](https://huggingface.co/papers/2402.15089)), ([HTML](https://browse.arxiv.org/html/2402.15089v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.15089v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.15089)), ([SS](https://api.semanticscholar.org/arXiv:2402.15089)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/attributionbench-how-hard-is-automatic)), ([:octocat:](https://github.com/osu-nlp-group/attributionbench)![GitHub Repo stars](https://img.shields.io/github/stars/osu-nlp-group/attributionbench?style=social))
  * 2/22 - Visual Hallucinations of Multi-modal Large Language Models ([:x:](https://arxiv.org/abs/2402.14683)), ([:book:](https://browse.arxiv.org/pdf/2402.14683.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.14683.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.14683)), ([:house:](https://huggingface.co/papers/2402.14683)), ([HTML](https://browse.arxiv.org/html/2402.14683v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.14683v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.14683)), ([SS](https://api.semanticscholar.org/arXiv:2402.14683)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/visual-hallucinations-of-multi-modal-large)), ([:octocat:](https://github.com/wenhuang2000/vhtest)![GitHub Repo stars](https://img.shields.io/github/stars/wenhuang2000/vhtest?style=social))
  * 2/22 - Unintended Impacts of LLM Alignment on Global Representation ([:x:](https://arxiv.org/abs/2402.15018)), ([:book:](https://browse.arxiv.org/pdf/2402.15018.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.15018.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.15018)), ([:house:](https://huggingface.co/papers/2402.15018)), ([HTML](https://browse.arxiv.org/html/2402.15018v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.15018v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.15018)), ([SS](https://api.semanticscholar.org/arXiv:2402.15018)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/unintended-impacts-of-llm-alignment-on-global))
  * 2/22 - UFO: a Unified and Flexible Framework for Evaluating Factuality of Large Language Models ([:x:](https://arxiv.org/abs/2402.14690)), ([:book:](https://browse.arxiv.org/pdf/2402.14690.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.14690.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.14690)), ([:house:](https://huggingface.co/papers/2402.14690)), ([HTML](https://browse.arxiv.org/html/2402.14690v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.14690v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.14690)), ([SS](https://api.semanticscholar.org/arXiv:2402.14690)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/ufo-a-unified-and-flexible-framework-for)), ([:octocat:](https://github.com/waldenruc/ufo)![GitHub Repo stars](https://img.shields.io/github/stars/waldenruc/ufo?style=social))
  * 2/22 - tinyBenchmarks: evaluating LLMs with fewer examples ([:x:](https://arxiv.org/abs/2402.14992)), ([:book:](https://browse.arxiv.org/pdf/2402.14992.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.14992.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.14992)), ([:house:](https://huggingface.co/papers/2402.14992)), ([HTML](https://browse.arxiv.org/html/2402.14992v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.14992v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.14992)), ([SS](https://api.semanticscholar.org/arXiv:2402.14992)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/tinybenchmarks-evaluating-llms-with-fewer)), ([:octocat:](https://github.com/felipemaiapolo/tinybenchmarks)![GitHub Repo stars](https://img.shields.io/github/stars/felipemaiapolo/tinybenchmarks?style=social))
  * 2/22 - The European Commitment to Human-Centered Technology: The Integral Role of HCI in the EU AI Act's Success ([:x:](https://arxiv.org/abs/2402.14728)), ([:book:](https://browse.arxiv.org/pdf/2402.14728.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.14728.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.14728)), ([:house:](https://huggingface.co/papers/2402.14728)), ([HTML](https://browse.arxiv.org/html/2402.14728v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.14728v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.14728)), ([SS](https://api.semanticscholar.org/arXiv:2402.14728)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/the-european-commitment-to-human-centered))
  * 2/22 - Rethinking Scientific Summarization Evaluation: Grounding Explainable Metrics on Facet-aware Benchmark ([:x:](https://arxiv.org/abs/2402.14359)), ([:book:](https://browse.arxiv.org/pdf/2402.14359.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.14359.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.14359)), ([:house:](https://huggingface.co/papers/2402.14359)), ([HTML](https://browse.arxiv.org/html/2402.14359v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.14359v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.14359)), ([SS](https://api.semanticscholar.org/arXiv:2402.14359)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/rethinking-scientific-summarization))
  * 2/22 - MT-Bench-101: A Fine-Grained Benchmark for Evaluating Large Language Models in Multi-Turn Dialogues ([:x:](https://arxiv.org/abs/2402.14762)), ([:book:](https://browse.arxiv.org/pdf/2402.14762.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.14762.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.14762)), ([:house:](https://huggingface.co/papers/2402.14762)), ([HTML](https://browse.arxiv.org/html/2402.14762v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.14762v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.14762)), ([SS](https://api.semanticscholar.org/arXiv:2402.14762)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/mt-bench-101-a-fine-grained-benchmark-for))
  * 2/22 - MeTMaP: Metamorphic Testing for Detecting False Vector Matching Problems in LLM Augmented Generation ([:x:](https://arxiv.org/abs/2402.14480)), ([:book:](https://browse.arxiv.org/pdf/2402.14480.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.14480.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.14480)), ([:house:](https://huggingface.co/papers/2402.14480)), ([HTML](https://browse.arxiv.org/html/2402.14480v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.14480v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.14480)), ([SS](https://api.semanticscholar.org/arXiv:2402.14480))
  * 2/22 - Identifying Multiple Personalities in Large Language Models with External Evaluation ([:x:](https://arxiv.org/abs/2402.14805)), ([:book:](https://browse.arxiv.org/pdf/2402.14805.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.14805.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.14805)), ([:house:](https://huggingface.co/papers/2402.14805)), ([HTML](https://browse.arxiv.org/html/2402.14805v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.14805v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.14805)), ([SS](https://api.semanticscholar.org/arXiv:2402.14805)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/identifying-multiple-personalities-in-large))
  * 2/22 - Copilot Evaluation Harness: Evaluating LLM-Guided Software Programming ([:x:](https://arxiv.org/abs/2402.14261)), ([:book:](https://browse.arxiv.org/pdf/2402.14261.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.14261.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.14261)), ([:house:](https://huggingface.co/papers/2402.14261)), ([HTML](https://browse.arxiv.org/html/2402.14261v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.14261v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.14261)), ([SS](https://api.semanticscholar.org/arXiv:2402.14261)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/copilot-evaluation-harness-evaluating-llm))
  * 2/22 - ConceptMath: A Bilingual Concept-wise Benchmark for Measuring Mathematical Reasoning of Large Language Models ([:x:](https://arxiv.org/abs/2402.14660)), ([:book:](https://browse.arxiv.org/pdf/2402.14660.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.14660.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.14660)), ([:house:](https://huggingface.co/papers/2402.14660)), ([HTML](https://browse.arxiv.org/html/2402.14660v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.14660v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.14660)), ([SS](https://api.semanticscholar.org/arXiv:2402.14660)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/conceptmath-a-bilingual-concept-wise)), ([:octocat:](https://github.com/conceptmath/conceptmath)![GitHub Repo stars](https://img.shields.io/github/stars/conceptmath/conceptmath?style=social))
  * 2/21 - SaGE: Evaluating Moral Consistency in Large Language Models ([:x:](https://arxiv.org/abs/2402.13709)), ([:book:](https://browse.arxiv.org/pdf/2402.13709.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.13709.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.13709)), ([:house:](https://huggingface.co/papers/2402.13709)), ([HTML](https://browse.arxiv.org/html/2402.13709v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.13709v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.13709)), ([SS](https://api.semanticscholar.org/arXiv:2402.13709)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/sage-evaluating-moral-consistency-in-large))
  * 2/21 - RefuteBench: Evaluating Refuting Instruction-Following for Large Language Models ([:x:](https://arxiv.org/abs/2402.13463)), ([:book:](https://browse.arxiv.org/pdf/2402.13463.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.13463.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.13463)), ([:house:](https://huggingface.co/papers/2402.13463)), ([HTML](https://browse.arxiv.org/html/2402.13463v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.13463v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.13463)), ([SS](https://api.semanticscholar.org/arXiv:2402.13463)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/refutebench-evaluating-refuting-instruction))
  * 2/21 - Potential and Challenges of Model Editing for Social Debiasing ([:x:](https://arxiv.org/abs/2402.13462)), ([:book:](https://browse.arxiv.org/pdf/2402.13462.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.13462.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.13462)), ([:house:](https://huggingface.co/papers/2402.13462)), ([HTML](https://browse.arxiv.org/html/2402.13462v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.13462v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.13462)), ([SS](https://api.semanticscholar.org/arXiv:2402.13462)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/potential-and-challenges-of-model-editing-for))
  * 2/21 - OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large Language Models ([:x:](https://arxiv.org/abs/2402.13524)), ([:book:](https://browse.arxiv.org/pdf/2402.13524.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.13524.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.13524)), ([:house:](https://huggingface.co/papers/2402.13524)), ([HTML](https://browse.arxiv.org/html/2402.13524v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.13524v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.13524)), ([SS](https://api.semanticscholar.org/arXiv:2402.13524)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/omgeval-an-open-multilingual-generative))
  * 2/21 - OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems ([:x:](https://arxiv.org/abs/2402.14008)), ([:book:](https://browse.arxiv.org/pdf/2402.14008.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.14008.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.14008)), ([:house:](https://huggingface.co/papers/2402.14008)), ([HTML](https://browse.arxiv.org/html/2402.14008v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.14008v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.14008)), ([SS](https://api.semanticscholar.org/arXiv:2402.14008)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/olympiadbench-a-challenging-benchmark-for)), ([SS](https://www.semanticscholar.org/paper/OlympiadBench%3A-A-Challenging-Benchmark-for-AGI-with-He-Luo/bcf2c7e3f4ed64c8294c35a59220a26dd4f40060))
  * 2/21 - LLM Jailbreak Attack versus Defense Techniques -- A Comprehensive Study ([:x:](https://arxiv.org/abs/2402.13457)), ([:book:](https://browse.arxiv.org/pdf/2402.13457.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.13457.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.13457)), ([:house:](https://huggingface.co/papers/2402.13457)), ([HTML](https://browse.arxiv.org/html/2402.13457v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.13457v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.13457)), ([SS](https://api.semanticscholar.org/arXiv:2402.13457)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/llm-jailbreak-attack-versus-defense))
  * 2/21 - KorNAT: LLM Alignment Benchmark for Korean Social Values and Common Knowledge ([:x:](https://arxiv.org/abs/2402.13605)), ([:book:](https://browse.arxiv.org/pdf/2402.13605.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.13605.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.13605)), ([:house:](https://huggingface.co/papers/2402.13605)), ([HTML](https://browse.arxiv.org/html/2402.13605v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.13605v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.13605)), ([SS](https://api.semanticscholar.org/arXiv:2402.13605)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/kornat-llm-alignment-benchmark-for-korean))
  * 2/21 - Is LLM-as-a-Judge Robust? Investigating Universal Adversarial Attacks on Zero-shot LLM Assessment ([:x:](https://arxiv.org/abs/2402.14016)), ([:book:](https://browse.arxiv.org/pdf/2402.14016.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.14016.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.14016)), ([:house:](https://huggingface.co/papers/2402.14016)), ([HTML](https://browse.arxiv.org/html/2402.14016v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.14016v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.14016)), ([SS](https://api.semanticscholar.org/arXiv:2402.14016)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/is-llm-as-a-judge-robust-investigating))
  * 2/21 - Hallucinations or Attention Misdirection? The Path to Strategic Value Extraction in Business Using Large Language Models ([:x:](https://arxiv.org/abs/2402.14002)), ([:book:](https://browse.arxiv.org/pdf/2402.14002.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.14002.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.14002)), ([:house:](https://huggingface.co/papers/2402.14002)), ([HTML](https://browse.arxiv.org/html/2402.14002v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.14002v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.14002)), ([SS](https://api.semanticscholar.org/arXiv:2402.14002)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/hallucinations-or-attention-misdirection-the))
  * 2/21 - GradSafe: Detecting Unsafe Prompts for LLMs via Safety-Critical Gradient Analysis ([:x:](https://arxiv.org/abs/2402.13494)), ([:book:](https://browse.arxiv.org/pdf/2402.13494.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.13494.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.13494)), ([:house:](https://huggingface.co/papers/2402.13494)), ([HTML](https://browse.arxiv.org/html/2402.13494v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.13494v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.13494)), ([SS](https://api.semanticscholar.org/arXiv:2402.13494)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/gradsafe-detecting-unsafe-prompts-for-llms)), ([:octocat:](https://github.com/xyq7/gradsafe)![GitHub Repo stars](https://img.shields.io/github/stars/xyq7/gradsafe?style=social))
  * 2/21 - Factual Consistency Evaluation of Summarisation in the Era of Large Language Models ([:x:](https://arxiv.org/abs/2402.13758)), ([:book:](https://browse.arxiv.org/pdf/2402.13758.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.13758.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.13758)), ([:house:](https://huggingface.co/papers/2402.13758)), ([HTML](https://browse.arxiv.org/html/2402.13758v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.13758v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.13758)), ([SS](https://api.semanticscholar.org/arXiv:2402.13758)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/factual-consistency-evaluation-of))
  * 2/21 - CriticBench: Evaluating Large Language Models as Critic ([:x:](https://arxiv.org/abs/2402.13764)), ([:book:](https://browse.arxiv.org/pdf/2402.13764.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.13764.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.13764)), ([:house:](https://huggingface.co/papers/2402.13764)), ([HTML](https://browse.arxiv.org/html/2402.13764v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.13764v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.13764)), ([SS](https://api.semanticscholar.org/arXiv:2402.13764)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/criticbench-evaluating-large-language-models)), ([:octocat:](https://github.com/open-compass/CriticBench)![GitHub Repo stars](https://img.shields.io/github/stars/open-compass/CriticBench?style=social))
  * 2/21 - BIRCO: A Benchmark of Information Retrieval Tasks with Complex Objectives ([:x:](https://arxiv.org/abs/2402.14151)), ([:book:](https://browse.arxiv.org/pdf/2402.14151.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.14151.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.14151)), ([:house:](https://huggingface.co/papers/2402.14151)), ([HTML](https://browse.arxiv.org/html/2402.14151v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.14151v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.14151)), ([SS](https://api.semanticscholar.org/arXiv:2402.14151)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/birco-a-benchmark-of-information-retrieval)), ([:octocat:](https://github.com/birco-benchmark/birco)![GitHub Repo stars](https://img.shields.io/github/stars/birco-benchmark/birco?style=social))
  * 2/21 - Beyond Probabilities: Unveiling the Misalignment in Evaluating Large Language Models ([:x:](https://arxiv.org/abs/2402.13887)), ([:book:](https://browse.arxiv.org/pdf/2402.13887.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.13887.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.13887)), ([:house:](https://huggingface.co/papers/2402.13887)), ([HTML](https://browse.arxiv.org/html/2402.13887v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.13887v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.13887)), ([SS](https://api.semanticscholar.org/arXiv:2402.13887)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/beyond-probabilities-unveiling-the))
  * 2/21 - Bench: Extending Long Context Evaluation Beyond 100K Tokens ([:x:](https://arxiv.org/abs/2402.13718)), ([:book:](https://browse.arxiv.org/pdf/2402.13718.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.13718.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.13718)), ([:house:](https://huggingface.co/papers/2402.13718)), ([HTML](https://browse.arxiv.org/html/2402.13718v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.13718v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.13718)), ([SS](https://api.semanticscholar.org/arXiv:2402.13718)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/infty-bench-extending-long-context-evaluation))
  * 02/20 - **Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions** <br>([:x:](https://arxiv.org/abs/2404.07214)), ([:book:](https://browse.arxiv.org/pdf/2404.07214.pdf)), ([:paperclip:](https://arxiv.org/pdf/2404.07214.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2404.07214)), ([:house:](https://huggingface.co/papers/2404.07214)), ([HTML](https://browse.arxiv.org/html/2404.07214v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2404.07214)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2404.07214v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2404.07214)), ([SS](https://api.semanticscholar.org/arXiv:2404.07214)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/exploring-the-frontier-of-vision-language))
  * 2/20 - What if LLMs Have Different World Views: Simulating Alien Civilizations with LLM-based Agents ([:x:](https://arxiv.org/abs/2402.13184)), ([:book:](https://browse.arxiv.org/pdf/2402.13184.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.13184.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.13184)), ([:house:](https://huggingface.co/papers/2402.13184)), ([HTML](https://browse.arxiv.org/html/2402.13184v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.13184v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.13184)), ([SS](https://api.semanticscholar.org/arXiv:2402.13184)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/what-if-llms-have-different-world-views))
  * 2/20 - DrBenchmark: A Large Language Understanding Evaluation Benchmark for French Biomedical Domain ([:x:](https://arxiv.org/abs/2402.13432)), ([:book:](https://browse.arxiv.org/pdf/2402.13432.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.13432.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.13432)), ([:house:](https://huggingface.co/papers/2402.13432)), ([HTML](https://browse.arxiv.org/html/2402.13432v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.13432v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.13432)), ([SS](https://api.semanticscholar.org/arXiv:2402.13432)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/drbenchmark-a-large-language-understanding)), ([:octocat:](https://github.com/drbenchmark/drbenchmark)![GitHub Repo stars](https://img.shields.io/github/stars/drbenchmark/drbenchmark?style=social))
  * 2/20 - An Autonomous Large Language Model Agent for Chemical Literature Data Mining ([:x:](https://arxiv.org/abs/2402.12993)), ([:book:](https://browse.arxiv.org/pdf/2402.12993.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.12993.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.12993)), ([:house:](https://huggingface.co/papers/2402.12993)), ([HTML](https://browse.arxiv.org/html/2402.12993v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.12993v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.12993)), ([SS](https://api.semanticscholar.org/arXiv:2402.12993)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/an-autonomous-large-language-model-agent-for))
  * 2/20 - A Survey on Knowledge Distillation of Large Language Models ([:x:](https://arxiv.org/abs/2402.13116)), ([:book:](https://browse.arxiv.org/pdf/2402.13116.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.13116.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.13116)), ([:house:](https://huggingface.co/papers/2402.13116)), ([HTML](https://browse.arxiv.org/html/2402.13116v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.13116v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.13116)), ([SS](https://api.semanticscholar.org/arXiv:2402.13116)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/a-survey-on-knowledge-distillation-of-large)), ([SS](https://www.semanticscholar.org/paper/A-Survey-on-Knowledge-Distillation-of-Large-Models-Xu-Li/94db8a625418800c8ae7b48157a9cad1c8129051))
  * 02/19 - **Simulacra as Conscious Exotica** ([:x:](https://arxiv.org/abs/2402.12422)), ([:book:](https://browse.arxiv.org/pdf/2402.12422.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.12422.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.12422)), ([:house:](https://huggingface.co/papers/2402.12422)), ([HTML](https://browse.arxiv.org/html/2402.12422v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2402.12422)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.12422v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.12422)), ([SS](https://api.semanticscholar.org/arXiv:2402.12422)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/simulacra-as-conscious-exotica))
  * 02/19 - **A Critical Evaluation of AI Feedback for Aligning Large Language Models** ([:x:](https://arxiv.org/abs/2402.12366)), ([:book:](https://browse.arxiv.org/pdf/2402.12366.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.12366.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.12366)), ([:house:](https://huggingface.co/papers/2402.12366)), ([HTML](https://browse.arxiv.org/html/2402.12366v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2402.12366)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.12366v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.12366)), ([SS](https://api.semanticscholar.org/arXiv:2402.12366)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/a-critical-evaluation-of-ai-feedback-for)), ([:octocat:](https://github.com/architsharma97/dpo-rlaif)![GitHub Repo stars](https://img.shields.io/github/stars/architsharma97/dpo-rlaif?style=social))
  * 2/19 - WildFake: A Large-scale Challenging Dataset for AI-Generated Images Detection ([:x:](https://arxiv.org/abs/2402.11843)), ([:book:](https://browse.arxiv.org/pdf/2402.11843.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.11843.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.11843)), ([:house:](https://huggingface.co/papers/2402.11843)), ([HTML](https://browse.arxiv.org/html/2402.11843v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.11843v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.11843)), ([SS](https://api.semanticscholar.org/arXiv:2402.11843)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/wildfake-a-large-scale-challenging-dataset))
  * 2/19 - TrustScore: Reference-Free Evaluation of LLM Response Trustworthiness ([:x:](https://arxiv.org/abs/2402.12545)), ([:book:](https://browse.arxiv.org/pdf/2402.12545.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.12545.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.12545)), ([:house:](https://huggingface.co/papers/2402.12545)), ([HTML](https://browse.arxiv.org/html/2402.12545v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.12545v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.12545)), ([SS](https://api.semanticscholar.org/arXiv:2402.12545)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/trustscore-reference-free-evaluation-of-llm))
  * 2/19 - Evolving AI Collectives to Enhance Human Diversity and Enable Self-Regulation ([:x:](https://arxiv.org/abs/2402.12590)), ([:book:](https://browse.arxiv.org/pdf/2402.12590.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.12590.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.12590)), ([:house:](https://huggingface.co/papers/2402.12590)), ([HTML](https://browse.arxiv.org/html/2402.12590v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.12590v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.12590)), ([SS](https://api.semanticscholar.org/arXiv:2402.12590)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/evolving-ai-collectives-to-enhance-human))
  * 2/19 - EmoBench: Evaluating the Emotional Intelligence of Large Language Models ([:x:](https://arxiv.org/abs/2402.12071)), ([:book:](https://browse.arxiv.org/pdf/2402.12071.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.12071.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.12071)), ([:house:](https://huggingface.co/papers/2402.12071)), ([HTML](https://browse.arxiv.org/html/2402.12071v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.12071v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.12071)), ([SS](https://api.semanticscholar.org/arXiv:2402.12071)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/emobench-evaluating-the-emotional)), ([:octocat:](https://github.com/sahandfer/emobench)![GitHub Repo stars](https://img.shields.io/github/stars/sahandfer/emobench?style=social))
  * 2/18 - ModelGPT: Unleashing LLM's Capabilities for Tailored Model Generation ([:x:](https://arxiv.org/abs/2402.12408)), ([:book:](https://browse.arxiv.org/pdf/2402.12408.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.12408.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.12408)), ([:house:](https://huggingface.co/papers/2402.12408)), ([HTML](https://browse.arxiv.org/html/2402.12408v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.12408v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.12408)), ([SS](https://api.semanticscholar.org/arXiv:2402.12408)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/modelgpt-unleashing-llm-s-capabilities-for)), ([SS](https://www.semanticscholar.org/paper/ModelGPT%3A-Unleashing-LLM's-Capabilities-for-Model-Tang-Lv/6a4cc1a573e1db5cbc8b1c3feeee193587f708fc)), ([:octocat:](https://github.com/ishikura-a/modelgpt)![GitHub Repo stars](https://img.shields.io/github/stars/ishikura-a/modelgpt?style=social))
  * 2/18 - KMMLU: Measuring Massive Multitask Language Understanding in Korean ([:x:](https://arxiv.org/abs/2402.11548)), ([:book:](https://browse.arxiv.org/pdf/2402.11548.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.11548.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.11548)), ([:house:](https://huggingface.co/papers/2402.11548)), ([HTML](https://browse.arxiv.org/html/2402.11548v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.11548v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.11548)), ([SS](https://api.semanticscholar.org/arXiv:2402.11548)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/kmmlu-measuring-massive-multitask-language))
  * 2/18 - Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM Evaluation ([:x:](https://arxiv.org/abs/2402.11443)), ([:book:](https://browse.arxiv.org/pdf/2402.11443.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.11443.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.11443)), ([:house:](https://huggingface.co/papers/2402.11443)), ([HTML](https://browse.arxiv.org/html/2402.11443v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.11443v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.11443)), ([SS](https://api.semanticscholar.org/arXiv:2402.11443)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/benchmark-self-evolving-a-multi-agent)), ([:octocat:](https://github.com/nanshineloong/self-evolving-benchmark)![GitHub Repo stars](https://img.shields.io/github/stars/nanshineloong/self-evolving-benchmark?style=social))
  * 2/17 - M4GT-Bench: Evaluation Benchmark for Black-Box Machine-Generated Text Detection ([:x:](https://arxiv.org/abs/2402.11175)), ([:book:](https://browse.arxiv.org/pdf/2402.11175.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.11175.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.11175)), ([:house:](https://huggingface.co/papers/2402.11175)), ([HTML](https://browse.arxiv.org/html/2402.11175v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.11175v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.11175)), ([SS](https://api.semanticscholar.org/arXiv:2402.11175)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/m4gt-bench-evaluation-benchmark-for-black-box))
  * 2/16 - Comparing Hallucination Detection Metrics for Multilingual Generation ([:x:](https://arxiv.org/abs/2402.10496)), ([:book:](https://browse.arxiv.org/pdf/2402.10496.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.10496.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.10496)), ([:house:](https://huggingface.co/papers/2402.10496)), ([HTML](https://browse.arxiv.org/html/2402.10496v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.10496v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.10496)), ([SS](https://api.semanticscholar.org/arXiv:2402.10496)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/comparing-hallucination-detection-metrics-for))
  * 2/15 - Taxonomy-based CheckList for Large Language Model Evaluation ([:x:](https://arxiv.org/abs/2402.10899)), ([:book:](https://browse.arxiv.org/pdf/2402.10899.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.10899.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.10899)), ([:house:](https://huggingface.co/papers/2402.10899)), ([HTML](https://browse.arxiv.org/html/2402.10899v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.10899v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.10899)), ([SS](https://api.semanticscholar.org/arXiv:2402.10899))
  * 2/15 - Inadequacies of Large Language Model Benchmarks in the Era of Generative Artificial Intelligence ([:x:](https://arxiv.org/abs/2402.09880)), ([:book:](https://browse.arxiv.org/pdf/2402.09880.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.09880.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.09880)), ([:house:](https://huggingface.co/papers/2402.09880)), ([HTML](https://browse.arxiv.org/html/2402.09880v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.09880v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.09880)), ([SS](https://api.semanticscholar.org/arXiv:2402.09880)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/inadequacies-of-large-language-model))
  * 2/15 - Exploring the Adversarial Capabilities of Large Language Models ([:x:](https://arxiv.org/abs/2402.09132)), ([:book:](https://browse.arxiv.org/pdf/2402.09132.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.09132.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.09132)), ([:house:](https://huggingface.co/papers/2402.09132)), ([HTML](https://browse.arxiv.org/html/2402.09132v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.09132v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.09132)), ([SS](https://api.semanticscholar.org/arXiv:2402.09132)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/exploring-the-adversarial-capabilities-of))
  * 2/15 - AMAZON AGI TEAM SAY THEIR AI IS SHOWING "EMERGENT ABILITIES" ([:x:](https://arxiv.org/abs/2402.08093)), ([:book:](https://browse.arxiv.org/pdf/2402.08093.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.08093.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.08093)), ([:house:](https://huggingface.co/papers/2402.08093)), ([HTML](https://browse.arxiv.org/html/2402.08093v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.08093v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.08093)), ([SS](https://api.semanticscholar.org/arXiv:2402.08093)) ([News](https://futurism.com/the-byte/amazon-researchers-ai-emergent)
  * 2/14 - Using Counterfactual Tasks to Evaluate the Generality of Analogical Reasoning in Large Language Models ([:x:](https://arxiv.org/abs/2402.08955)), ([:book:](https://browse.arxiv.org/pdf/2402.08955.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.08955.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.08955)), ([:house:](https://huggingface.co/papers/2402.08955)), ([HTML](https://browse.arxiv.org/html/2402.08955v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.08955v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.08955)), ([SS](https://api.semanticscholar.org/arXiv:2402.08955)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/using-counterfactual-tasks-to-evaluate-the))
  * 2/14 - AuditLLM: A Tool for Auditing Large Language Models Using Multiprobe Approach ([:x:](https://arxiv.org/abs/2402.09334)), ([:book:](https://browse.arxiv.org/pdf/2402.09334.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.09334.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.09334)), ([:house:](https://huggingface.co/papers/2402.09334)), ([HTML](https://browse.arxiv.org/html/2402.09334v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.09334v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.09334)), ([SS](https://api.semanticscholar.org/arXiv:2402.09334)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/auditllm-a-tool-for-auditing-large-language))
  * 2/13 - Meta’s AI Chief Yann LeCun on AGI, Open-Source, and AI Risk   ([News](https://time.com/6694432/yann-lecun-meta-ai-interview/))
  * 2/8 - Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey ([:x:](https://arxiv.org/abs/2402.05391)), ([:book:](https://browse.arxiv.org/pdf/2402.05391.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.05391.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.05391)), ([:house:](https://huggingface.co/papers/2402.05391)), ([HTML](https://browse.arxiv.org/html/2402.05391v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.05391v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.05391)), ([SS](https://api.semanticscholar.org/arXiv:2402.05391)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/knowledge-graphs-meet-multi-modal-learning-a)), ([SS](https://www.semanticscholar.org/paper/Knowledge-Graphs-Meet-Multi-Modal-Learning%3A-A-Chen-Zhang/00747fa0b08a7c991436d39530677fce78bdaca1)), ([:octocat:](https://github.com/zjukg/kg-mm-survey)![GitHub Repo stars](https://img.shields.io/github/stars/zjukg/kg-mm-survey?style=social))
  * 02/08 - **Biden-Harris Administration Announces First-Ever Consortium Dedicated to AI Safety** <br>  ([News](https://www.nist.gov/news-events/news/2024/02/biden-harris-administration-announces-first-ever-consortium-dedicated-ai)), 
  * 02/07 - **AISIC Working Groups** <br>  ([Blog](https://www.nist.gov/artificial-intelligence-safety-institute/aisic-working-groups)), 
  * 02/07 - **AISIC Members** <br>  ([Blog](https://www.nist.gov/aisi/aisic-members)), 
  * 02/07 - **A Roadmap to Pluralistic Alignment** <br>([:x:](https://arxiv.org/abs/2402.05070)), ([:book:](https://browse.arxiv.org/pdf/2402.05070.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.05070.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.05070)), ([:house:](https://huggingface.co/papers/2402.05070)), ([HTML](https://browse.arxiv.org/html/2402.05070v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2402.05070)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.05070v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.05070)), ([SS](https://api.semanticscholar.org/arXiv:2402.05070)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/a-roadmap-to-pluralistic-alignment))
  * 2/7 - Advancing Explainable AI Toward Human-Like Intelligence: Forging the Path to Artificial Brain ([:x:](https://arxiv.org/abs/2402.06673)), ([:book:](https://browse.arxiv.org/pdf/2402.06673.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.06673.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.06673)), ([:house:](https://huggingface.co/papers/2402.06673)), ([HTML](https://browse.arxiv.org/html/2402.06673v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.06673v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.06673)), ([SS](https://api.semanticscholar.org/arXiv:2402.06673)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/advancing-explainable-ai-toward-human-like)), ([SS](https://www.semanticscholar.org/paper/Advancing-Explainable-AI-Toward-Human-Like-Forging-Zhou-Jiang/bf987a09c830f13d5bd48043969c0c8e3cac3b12))
  * 02/05 - **UK AI Safety Institute: third progress report** <br>  ([Blog](https://www.gov.uk/government/publications/uk-ai-safety-institute-third-progress-report))
  * 02/05 - **Governance of Generative Artificial Intelligence for Companies** <br>([:x:](https://arxiv.org/abs/2403.08802)), ([:book:](https://browse.arxiv.org/pdf/2403.08802.pdf)), ([:paperclip:](https://arxiv.org/pdf/2403.08802.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2403.08802)), ([:house:](https://huggingface.co/papers/2403.08802)), ([HTML](https://browse.arxiv.org/html/2403.08802v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2403.08802)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2403.08802v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2403.08802)), ([SS](https://api.semanticscholar.org/arXiv:2403.08802)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/governance-of-generative-artificial))
  * 2/5 - AI-Augmented Predictions: LLM Assistants Improve Human Forecasting Accuracy ([:x:](https://arxiv.org/abs/2402.07862)), ([:book:](https://browse.arxiv.org/pdf/2402.07862.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.07862.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.07862)), ([:house:](https://huggingface.co/papers/2402.07862)), ([HTML](https://browse.arxiv.org/html/2402.07862v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.07862v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.07862)), ([SS](https://api.semanticscholar.org/arXiv:2402.07862)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/ai-augmented-predictions-llm-assistants)), ([SS](https://www.semanticscholar.org/paper/AI-Augmented-Predictions%3A-LLM-Assistants-Improve-Schoenegger-Park/38472e4242e0aa632ed594c3b0ed9c0bd6429c41))
  * 1/31 - Code-Aware Prompting: A study of Coverage Guided Test Generation in Regression Setting using LLM ([:x:](https://arxiv.org/abs/2402.00097)), ([:book:](https://browse.arxiv.org/pdf/2402.00097.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.00097.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.00097)), ([:house:](https://huggingface.co/papers/2402.00097)), ([HTML](https://browse.arxiv.org/html/2402.00097v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.00097v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.00097)), ([SS](https://api.semanticscholar.org/arXiv:2402.00097)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/code-aware-prompting-a-study-of-coverage)), ([SS](https://www.semanticscholar.org/paper/Code-Aware-Prompting%3A-A-study-of-Coverage-Guided-in-Ryan-Jain/46db418ac45d17f4381b26daab73e8e3e0728d99))
  * 1/29 - Beyond Direct Diagnosis: LLM-based Multi-Specialist Agent Consultation for Automatic Diagnosis ([:x:](https://arxiv.org/abs/2401.16107)), ([:book:](https://browse.arxiv.org/pdf/2401.16107.pdf)), ([:paperclip:](https://arxiv.org/pdf/2401.16107.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2401.16107)), ([:house:](https://huggingface.co/papers/2401.16107)), ([HTML](https://browse.arxiv.org/html/2401.16107v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2401.16107v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2401.16107)), ([SS](https://api.semanticscholar.org/arXiv:2401.16107)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/beyond-direct-diagnosis-llm-based-multi)), ([SS](https://www.semanticscholar.org/paper/Beyond-Direct-Diagnosis%3A-LLM-based-Multi-Specialist-Wang-Zhao/34c6cf6dcd23cd448a11165dbde28671e995ce8d))
  * 01/23 - **Large Language Models are Superpositions of All Characters: Attaining Arbitrary Role-play via Self-Alignment** ([:x:](https://arxiv.org/abs/2401.12474)), ([:book:](https://browse.arxiv.org/pdf/2401.12474.pdf)), ([:paperclip:](https://arxiv.org/pdf/2401.12474.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2401.12474)), ([:house:](https://huggingface.co/papers/2401.12474)), ([HTML](https://browse.arxiv.org/html/2401.12474v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2401.12474)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2401.12474v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2401.12474)), ([SS](https://api.semanticscholar.org/arXiv:2401.12474)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/large-language-models-are-superpositions-of))
  * 1/23 - Unsocial Intelligence: a Pluralistic, Democratic, and Participatory Investigation of AGI Discourse ([:x:](https://arxiv.org/abs/2401.13142)), ([:book:](https://browse.arxiv.org/pdf/2401.13142.pdf)), ([:paperclip:](https://arxiv.org/pdf/2401.13142.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2401.13142)), ([:house:](https://huggingface.co/papers/2401.13142)), ([HTML](https://browse.arxiv.org/html/2401.13142v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2401.13142v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2401.13142)), ([SS](https://api.semanticscholar.org/arXiv:2401.13142)), ([SS](https://www.semanticscholar.org/paper/Unsocial-Intelligence%3A-a-Pluralistic%2C-Democratic%2C-Blili-Hamelin-Hancox-Li/1cfbde66cbd5c554be63590a9939399499eee705))
  * 1/22 - Generative AI-Driven Human Digital Twin in IoT-Healthcare: A Comprehensive Survey ([:x:](https://arxiv.org/abs/2401.13699)), ([:book:](https://browse.arxiv.org/pdf/2401.13699.pdf)), ([:paperclip:](https://arxiv.org/pdf/2401.13699.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2401.13699)), ([:house:](https://huggingface.co/papers/2401.13699)), ([HTML](https://browse.arxiv.org/html/2401.13699v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2401.13699v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2401.13699)), ([SS](https://api.semanticscholar.org/arXiv:2401.13699)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/generative-ai-driven-human-digital-twin-in)), ([SS](https://www.semanticscholar.org/paper/Generative-AI-Driven-Human-Digital-Twin-in-A-Survey-Chen-Shi/ec65cc0c0f3186c43ee839e61a4f1ae30acd50e3))
  * 1/22 - Detecting Multimedia Generated by Large AI Models: A Survey ([:x:](https://arxiv.org/abs/2402.00045)), ([:book:](https://browse.arxiv.org/pdf/2402.00045.pdf)), ([:paperclip:](https://arxiv.org/pdf/2402.00045.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2402.00045)), ([:house:](https://huggingface.co/papers/2402.00045)), ([HTML](https://browse.arxiv.org/html/2402.00045v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2402.00045v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2402.00045)), ([SS](https://api.semanticscholar.org/arXiv:2402.00045)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/detecting-multimedia-generated-by-large-ai)), ([SS](https://www.semanticscholar.org/paper/Detecting-Multimedia-Generated-by-Large-AI-Models%3A-Lin-Gupta/12ed45473dee6d0917f8577157cb86952cb162ce)), ([:octocat:](https://github.com/purdue-m2/detect-laim-generated-multimedia-survey)![GitHub Repo stars](https://img.shields.io/github/stars/purdue-m2/detect-laim-generated-multimedia-survey?style=social))
  * 1/21 - MedLM: Exploring Language Models for Medical Question Answering Systems ([:x:](https://arxiv.org/abs/2401.11389)), ([:book:](https://browse.arxiv.org/pdf/2401.11389.pdf)), ([:paperclip:](https://arxiv.org/pdf/2401.11389.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2401.11389)), ([:house:](https://huggingface.co/papers/2401.11389)), ([HTML](https://browse.arxiv.org/html/2401.11389v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2401.11389v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2401.11389)), ([SS](https://api.semanticscholar.org/arXiv:2401.11389)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/medlm-exploring-language-models-for-medical)), ([SS](https://www.semanticscholar.org/paper/MedLM%3A-Exploring-Language-Models-for-Medical-Yagnik-Jhaveri/331c0d54e02b03b72e70b5058c86969ca392e71b)), ([:octocat:](https://github.com/jayjhaveri1906/cse291_medlm)![GitHub Repo stars](https://img.shields.io/github/stars/jayjhaveri1906/cse291_medlm?style=social))
  * 1/21 - Interactive AI with Retrieval-Augmented Generation for Next Generation Networking ([:x:](https://arxiv.org/abs/2401.11391)), ([:book:](https://browse.arxiv.org/pdf/2401.11391.pdf)), ([:paperclip:](https://arxiv.org/pdf/2401.11391.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2401.11391)), ([:house:](https://huggingface.co/papers/2401.11391)), ([HTML](https://browse.arxiv.org/html/2401.11391v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2401.11391v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2401.11391)), ([SS](https://api.semanticscholar.org/arXiv:2401.11391)), ([SS](https://www.semanticscholar.org/paper/Interactive-AI-with-Retrieval-Augmented-Generation-Zhang-Du/c81c7fb670ac0e27c9d2025d95d68f4752aed99d))
  * 01/18 - **WHO - Ethics and governance of artificial intelligence for health: Guidance on large multi-modal models**   ([News](https://www.who.int/publications/i/item/9789240084759)), 
  * 1/17 - Caught in the Quicksand of Reasoning, Far from AGI Summit: Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions ([:x:](https://arxiv.org/abs/2401.09395)), ([:book:](https://browse.arxiv.org/pdf/2401.09395.pdf)), ([:paperclip:](https://arxiv.org/pdf/2401.09395.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2401.09395)), ([:house:](https://huggingface.co/papers/2401.09395)), ([HTML](https://browse.arxiv.org/html/2401.09395v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2401.09395v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2401.09395)), ([SS](https://api.semanticscholar.org/arXiv:2401.09395)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/stuck-in-the-quicksand-of-numeracy-far-from)), ([SS](https://www.semanticscholar.org/paper/Caught-in-the-Quicksand-of-Reasoning%2C-Far-from-AGI-Hong-Ghosal/f52492203adce016a24c949f71631e9156066b56)), ([:octocat:](https://github.com/declare-lab/llm_robustness)![GitHub Repo stars](https://img.shields.io/github/stars/declare-lab/llm_robustness?style=social))
  * 1/11 - A Universal Knowledge Model and Cognitive Architecture for Prototyping AGI ([:x:](https://arxiv.org/abs/2401.06256)), ([:book:](https://browse.arxiv.org/pdf/2401.06256.pdf)), ([:paperclip:](https://arxiv.org/pdf/2401.06256.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2401.06256)), ([:house:](https://huggingface.co/papers/2401.06256)), ([HTML](https://browse.arxiv.org/html/2401.06256v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2401.06256v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2401.06256)), ([SS](https://api.semanticscholar.org/arXiv:2401.06256)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/a-universal-knowledge-model-and-cognitive)), ([SS](https://www.semanticscholar.org/paper/A-Universal-Knowledge-Model-and-Cognitive-for-AGI-Sukhobokov-Belousov/97931ccda9c3db44d4468863fa76bc5c049d6596))
  * 01/10 - **Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training** ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/sleeper-agents-training-deceptive-llms-that)), ([:octocat:](https://github.com/anthropics/sleeper-agents-paper)![GitHub Repo stars](https://img.shields.io/github/stars/anthropics/sleeper-agents-paper?style=social))
  * 1/9 - A Taxonomy for AI Hazard Analysis ([:x:](https://journals.sagepub.com/doi/10.1177/15553434231224096)) , ([SS](https://www.semanticscholar.org/paper/A-Taxonomy-for-AI-Hazard-Analysis-Cummings/970a00da406725a43d10649e9df28c1de56e4e9b))
  * 01/08 - **PythonSaga: Redefining the Benchmark to Evaluate Code Generating LLM** ([:x:](https://arxiv.org/abs/2401.03855)), ([:book:](https://browse.arxiv.org/pdf/2401.03855.pdf)), ([:paperclip:](https://arxiv.org/pdf/2401.03855.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2401.03855)), ([:house:](https://huggingface.co/papers/2401.03855)), ([HTML](https://browse.arxiv.org/html/2401.03855v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2401.03855)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2401.03855v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2401.03855)), ([SS](https://api.semanticscholar.org/arXiv:2401.03855)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/boldly-going-where-no-benchmark-has-gone))
  * 1/6 - Human-Instruction-Free LLM Self-Alignment with Limited Samples ([:x:](https://arxiv.org/abs/2401.06785)), ([:book:](https://browse.arxiv.org/pdf/2401.06785.pdf)), ([:paperclip:](https://arxiv.org/pdf/2401.06785.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2401.06785)), ([:house:](https://huggingface.co/papers/2401.06785)), ([HTML](https://browse.arxiv.org/html/2401.06785v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2401.06785v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2401.06785)), ([SS](https://api.semanticscholar.org/arXiv:2401.06785)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/human-instruction-free-llm-self-alignment)), ([SS](https://www.semanticscholar.org/paper/Human-Instruction-Free-LLM-Self-Alignment-with-Guo-Yao/5708f725e13362da80a1062f51df118fca3529ab))
  * 1/5 - The EU AI Act: A pioneering effort to regulate frontier AI? ([:x:](https://journal.iberamia.org/index.php/intartif/article/view/1257)) , ([SS](https://www.semanticscholar.org/paper/The-EU-AI-Act%3A-A-pioneering-effort-to-regulate-AI-Bas-Salinas/040d4b58387c0f46b02032a8155390a22999673e))
  * 1/3 - A Review of Findings from Neuroscience and Cognitive Psychology as Possible Inspiration for the Path to Artificial General Intelligence ([:x:](https://arxiv.org/abs/2401.10904)), ([:book:](https://browse.arxiv.org/pdf/2401.10904.pdf)), ([:paperclip:](https://arxiv.org/pdf/2401.10904.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2401.10904)), ([:house:](https://huggingface.co/papers/2401.10904)), ([HTML](https://browse.arxiv.org/html/2401.10904v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2401.10904v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2401.10904)), ([SS](https://api.semanticscholar.org/arXiv:2401.10904)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/a-review-of-findings-from-neuroscience-and)), ([SS](https://www.semanticscholar.org/paper/A-Review-of-Findings-from-Neuroscience-and-as-for-Leon/14909e6dd163a98687cd29042c26e34c2f78de4e))
  * 1/2 - A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models ([:x:](https://arxiv.org/abs/2401.01313)), ([:book:](https://browse.arxiv.org/pdf/2401.01313.pdf)), ([:paperclip:](https://arxiv.org/pdf/2401.01313.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2401.01313)), ([:house:](https://huggingface.co/papers/2401.01313)), ([HTML](https://browse.arxiv.org/html/2401.01313v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2401.01313v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2401.01313)), ([SS](https://api.semanticscholar.org/arXiv:2401.01313)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/a-comprehensive-survey-of-hallucination)), ([SS](https://www.semanticscholar.org/paper/A-Comprehensive-Survey-of-Hallucination-Mitigation-Tonmoy-Zaman/5272acad9e4201e93dabe3fd99bd7ead9b1a544d)), ([:octocat:](https://github.com/lastmile-ai/aiconfig)![GitHub Repo stars](https://img.shields.io/github/stars/lastmile-ai/aiconfig?style=social))
  * 1/1 - TrustLLM: Trustworthiness in Large Language Models ([:x:](https://arxiv.org/abs/2401.05561)), ([:book:](https://browse.arxiv.org/pdf/2401.05561.pdf)), ([:paperclip:](https://arxiv.org/pdf/2401.05561.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2401.05561)), ([:house:](https://huggingface.co/papers/2401.05561)), ([HTML](https://browse.arxiv.org/html/2401.05561v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2401.05561v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2401.05561)), ([SS](https://api.semanticscholar.org/arXiv:2401.05561)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/trustllm-trustworthiness-in-large-language)), ([SS](https://www.semanticscholar.org/paper/TrustLLM%3A-Trustworthiness-in-Large-Language-Models-Sun-Huang/8747e7ac4425200804ac6159902ab064c98b98f3)), ([:octocat:](https://github.com/HowieHwong/TrustLLM)![GitHub Repo stars](https://img.shields.io/github/stars/HowieHwong/TrustLLM?style=social))

### 2023

  * 12/30 - Responses to catastrophic AGI risk: a survey ([:x:](https://philarchive.org/rec/SOTRTC-2)) , ([SS](https://www.semanticscholar.org/paper/Responses-to-catastrophic-AGI-risk%3A-a-survey-Sotala-Yampolskiy/fb6eefc6a42fbbf286476e435d87eacb99a9a047))
  * 12/18 - From Google Gemini to OpenAI Q* (Q-Star): A Survey of Reshaping the Generative Artificial Intelligence (AI) Research Landscap ([:x:](https://arxiv.org/abs/2312.10868)), ([:book:](https://browse.arxiv.org/pdf/2312.10868.pdf)), ([:paperclip:](https://arxiv.org/pdf/2312.10868.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2312.10868)), ([:house:](https://huggingface.co/papers/2312.10868)), ([HTML](https://browse.arxiv.org/html/2312.10868v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2312.10868v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2312.10868)), ([SS](https://api.semanticscholar.org/arXiv:2312.10868)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/from-google-gemini-to-openai-q-q-star-a)), ([SS](https://www.semanticscholar.org/paper/From-Google-Gemini-to-OpenAI-Q*-(Q-Star)%3A-A-Survey-McIntosh-Susnjak/a1abf4d8bad5694621e4d8cd09e41c80cdbba318))
  * 12/14 - CERN for AGI: A Theoretical Framework for Autonomous Simulation-Based Artificial Intelligence Testing and Alignment ([:x:](https://arxiv.org/abs/2312.09402)), ([:book:](https://browse.arxiv.org/pdf/2312.09402.pdf)), ([:paperclip:](https://arxiv.org/pdf/2312.09402.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2312.09402)), ([:house:](https://huggingface.co/papers/2312.09402)), ([HTML](https://browse.arxiv.org/html/2312.09402v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2312.09402v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2312.09402)), ([SS](https://api.semanticscholar.org/arXiv:2312.09402)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/cern-for-agi-a-theoretical-framework-for)), ([SS](https://www.semanticscholar.org/paper/CERN-for-AGI%3A-A-Theoretical-Framework-for-Testing-Boji%C4%87-Cinelli/0cef9b572565c93366b3228b0812e9c0069d4f18))
  * 12/12 - Hallucination Augmented Contrastive Learning for Multimodal Large Language Model ([:x:](https://arxiv.org/abs/2312.06968)), ([:book:](https://browse.arxiv.org/pdf/2312.06968.pdf)), ([:paperclip:](https://arxiv.org/pdf/2312.06968.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2312.06968)), ([:house:](https://huggingface.co/papers/2312.06968)), ([HTML](https://browse.arxiv.org/html/2312.06968v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2312.06968v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2312.06968)), ([SS](https://api.semanticscholar.org/arXiv:2312.06968)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/hallucination-augmented-contrastive-learning)), ([SS](https://www.semanticscholar.org/paper/Hallucination-Augmented-Contrastive-Learning-for-Jiang-Xu/d1f925c65d56ff4de5d317a54d47d6df34b17d4e)), ([:octocat:](https://github.com/x-plug/mplug-halowl)![GitHub Repo stars](https://img.shields.io/github/stars/x-plug/mplug-halowl?style=social))
  * 12/10 - Can ChatGPT Defend its Belief in Truth? Evaluating LLM Reasoning via Debate ([:x:](https://arxiv.org/abs/2305.13160)), ([:book:](https://browse.arxiv.org/pdf/2305.13160.pdf)), ([:paperclip:](https://arxiv.org/pdf/2305.13160.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2305.13160)), ([:house:](https://huggingface.co/papers/2305.13160)), ([HTML](https://browse.arxiv.org/html/2305.13160v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2305.13160v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2305.13160)), ([SS](https://api.semanticscholar.org/arXiv:2305.13160)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/can-chatgpt-defend-the-truth-automatic)), ([SS](https://www.semanticscholar.org/paper/Can-ChatGPT-Defend-its-Belief-in-Truth-Evaluating-Wang-Yue/d7784e9aee50148edcab64ffbeea713c19144171))
  * 12.11 - METAL: Metamorphic Testing Framework for Analyzing Large-Language Model Qualities ([:x:](https://arxiv.org/abs/2312.06056)), ([:book:](https://browse.arxiv.org/pdf/2312.06056.pdf)), ([:paperclip:](https://arxiv.org/pdf/2312.06056.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2312.06056)), ([:house:](https://huggingface.co/papers/2312.06056)), ([HTML](https://browse.arxiv.org/html/2312.06056v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2312.06056v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2312.06056)), ([SS](https://api.semanticscholar.org/arXiv:2312.06056)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/metal-metamorphic-testing-framework-for)), ([SS](https://www.semanticscholar.org/paper/METAL%3A-Metamorphic-Testing-Framework-for-Analyzing-Hyun-Guo/f5a91c41fc4c07a83f2fb185162843b21b1cb650))
  * 12/7 - Testing LLM performance on the Physics GRE: some observations ([:x:](https://arxiv.org/abs/2312.04613)), ([:book:](https://browse.arxiv.org/pdf/2312.04613.pdf)), ([:paperclip:](https://arxiv.org/pdf/2312.04613.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2312.04613)), ([:house:](https://huggingface.co/papers/2312.04613)), ([HTML](https://browse.arxiv.org/html/2312.04613v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2312.04613v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2312.04613)), ([SS](https://api.semanticscholar.org/arXiv:2312.04613)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/testing-llm-performance-on-the-physics-gre)), ([SS](https://www.semanticscholar.org/paper/Testing-LLM-performance-on-the-Physics-GRE%3A-some-Gupta/4717c2a55ab3d5ee9e7cad41fc56f1b79c57f9a4))
  * 11/30 - **TaskBench: Benchmarking Large Language Models for Task Automation** ([:x:](https://arxiv.org/abs/2311.18760)), ([:book:](https://browse.arxiv.org/pdf/2311.18760.pdf)), ([:paperclip:](https://arxiv.org/pdf/2311.18760.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2311.18760)), ([:house:](https://huggingface.co/papers/2311.18760)), ([HTML](https://browse.arxiv.org/html/2311.18760v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2311.18760)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2311.18760v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2311.18760)), ([SS](https://api.semanticscholar.org/arXiv:2311.18760)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/taskbench-benchmarking-large-language-models)), ([:octocat:](https://github.com/microsoft/JARVIS)![GitHub Repo stars](https://img.shields.io/github/stars/microsoft/JARVIS?style=social))
  * 11/28 - **Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case Study in Medicine** <br>([:x:](https://arxiv.org/abs/2311.16452)), ([:book:](https://browse.arxiv.org/pdf/2311.16452.pdf)), ([:paperclip:](https://arxiv.org/pdf/2311.16452.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2311.16452)), ([:house:](https://huggingface.co/papers/2311.16452)), ([HTML](https://browse.arxiv.org/html/2311.16452v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2311.16452)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2311.16452v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2311.16452)), ([SS](https://api.semanticscholar.org/arXiv:2311.16452)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/can-generalist-foundation-models-outcompete)), ([:octocat:](https://github.com/microsoft/promptbase)![GitHub Repo stars](https://img.shields.io/github/stars/microsoft/promptbase?style=social))
  * 11/28 - MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI ([:x:](https://arxiv.org/abs/2311.16502)), ([:book:](https://browse.arxiv.org/pdf/2311.16502.pdf)), ([:paperclip:](https://arxiv.org/pdf/2311.16502.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2311.16502)), ([:house:](https://huggingface.co/papers/2311.16502)), ([HTML](https://browse.arxiv.org/html/2311.16502v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2311.16502v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2311.16502)), ([SS](https://api.semanticscholar.org/arXiv:2311.16502)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/mmmu-a-massive-multi-discipline-multimodal)), ([SS](https://www.semanticscholar.org/paper/MMMU%3A-A-Massive-Multi-discipline-Multimodal-and-for-Yue-Ni/f1fc43bb438c36988dd4df7b5b75200bfd2aa5fe)), ([:octocat:](https://github.com/MMMU-Benchmark/MMMU)![GitHub Repo stars](https://img.shields.io/github/stars/MMMU-Benchmark/MMMU?style=social))
  * 11/28 - Deepfakes, Misinformation, and Disinformation in the Era of Frontier AI, Generative AI, and Large AI Models ([:x:](https://ieeexplore.ieee.org/document/10401723/)) , ([SS](https://www.semanticscholar.org/paper/Deepfakes%2C-Misinformation%2C-and-Disinformation-in-of-Shoaib-Wang/ceccf5077ff16baf7df97abe9ba48e0e1ec267a0))
  * 11/23 - Connecting the Dots in Trustworthy Artificial Intelligence: From AI Principles, Ethics, and Key Requirements to Responsible AI Systems and Regulation ([:x:](https://www.sciencedirect.com/science/article/pii/S1566253523002129)) , ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/connecting-the-dots-in-trustworthy-artificial)), ([SS](https://www.semanticscholar.org/paper/Connecting-the-Dots-in-Trustworthy-Artificial-From-Rodr%C3%ADguez-Ser/b47f132fd09632cfc986a99caa70c8f2f958e88d))
  * 11/21 - GAIA: a benchmark for General AI Assistant ([:x:](https://arxiv.org/abs/2311.12983)), ([:book:](https://browse.arxiv.org/pdf/2311.12983.pdf)), ([:paperclip:](https://arxiv.org/pdf/2311.12983.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2311.12983)), ([:house:](https://huggingface.co/papers/2311.12983)), ([HTML](https://browse.arxiv.org/html/2311.12983v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2311.12983v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2311.12983)), ([SS](https://api.semanticscholar.org/arXiv:2311.12983)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/gaia-a-benchmark-for-general-ai-assistants)), ([SS](https://www.semanticscholar.org/paper/GAIA%3A-a-benchmark-for-General-AI-Assistants-Mialon-Fourrier/ab8169d6e4dfabfe7c30ebec1bb871bf3e1551cd))
  * 11/21 - A Survey of Graph Meets Large Language Model: Progress and Future Directions ([:x:](https://arxiv.org/abs/2311.12399)), ([:book:](https://browse.arxiv.org/pdf/2311.12399.pdf)), ([:paperclip:](https://arxiv.org/pdf/2311.12399.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2311.12399)), ([:house:](https://huggingface.co/papers/2311.12399)), ([HTML](https://browse.arxiv.org/html/2311.12399v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2311.12399v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2311.12399)), ([SS](https://api.semanticscholar.org/arXiv:2311.12399)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/a-survey-of-graph-meets-large-language-model)), ([SS](https://www.semanticscholar.org/paper/A-Survey-of-Graph-Meets-Large-Language-Model%3A-and-Li-Li/54630cd92c0c6696a422c3b2aa986c1f75df70b3)), ([:octocat:](https://github.com/yhLeeee/Awesome-LLMs-in-Graph-tasks)![GitHub Repo stars](https://img.shields.io/github/stars/yhLeeee/Awesome-LLMs-in-Graph-tasks?style=social))
  * 11/19 - Meta Prompting for AGI Systems ([:x:](https://arxiv.org/abs/2311.11482)), ([:book:](https://browse.arxiv.org/pdf/2311.11482.pdf)), ([:paperclip:](https://arxiv.org/pdf/2311.11482.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2311.11482)), ([:house:](https://huggingface.co/papers/2311.11482)), ([HTML](https://browse.arxiv.org/html/2311.11482v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2311.11482v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2311.11482)), ([SS](https://api.semanticscholar.org/arXiv:2311.11482)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/meta-prompting-for-agi-systems)), ([SS](https://www.semanticscholar.org/paper/Meta-Prompting-for-AGI-Systems-Zhang/be130fe97c15048dd91cad438894fbed5a05365a)), ([:octocat:](https://github.com/meta-prompting/meta-prompting)![GitHub Repo stars](https://img.shields.io/github/stars/meta-prompting/meta-prompting?style=social))
  * 11/15 - Towards Publicly Accountable Frontier LLMs: Building an External Scrutiny Ecosystem under the ASPIRE Framework ([:x:](https://arxiv.org/abs/2311.14711)), ([:book:](https://browse.arxiv.org/pdf/2311.14711.pdf)), ([:paperclip:](https://arxiv.org/pdf/2311.14711.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2311.14711)), ([:house:](https://huggingface.co/papers/2311.14711)), ([HTML](https://browse.arxiv.org/html/2311.14711v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2311.14711v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2311.14711)), ([SS](https://api.semanticscholar.org/arXiv:2311.14711)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/towards-publicly-accountable-frontier-llms)), ([SS](https://www.semanticscholar.org/paper/Towards-Publicly-Accountable-Frontier-LLMs%3A-an-the-Anderljung-Smith/86c130dee7b3060bc647625b79945927ada43d3e))
  * 11/15 - Distinguishing Fact from Fiction: A Benchmark Dataset for Identifying Machine-Generated Scientific Papers in the LLM Era. ([:x:](https://aclanthology.org/2023.trustnlp-1.17/)) , ([SS](https://www.semanticscholar.org/paper/Distinguishing-Fact-from-Fiction%3A-A-Benchmark-for-Mosca-Abdalla/e019d66184d29ba1c13465d9eb46dcff9e8b87dd))
  * 11/15 - Artificial General Intelligence, Existential Risk, and Human Risk Perception ([:x:](https://arxiv.org/abs/2311.08698)), ([:book:](https://browse.arxiv.org/pdf/2311.08698.pdf)), ([:paperclip:](https://arxiv.org/pdf/2311.08698.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2311.08698)), ([:house:](https://huggingface.co/papers/2311.08698)), ([HTML](https://browse.arxiv.org/html/2311.08698v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2311.08698v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2311.08698)), ([SS](https://api.semanticscholar.org/arXiv:2311.08698)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/artificial-general-intelligence-existential)), ([SS](https://www.semanticscholar.org/paper/Artificial-General-Intelligence%2C-Existential-Risk%2C-Mandel/c28e10616d0f039de2a4acadce0791176fca16ee))
  * 11/13 - An LLM-free Multi-dimensional Benchmark for MLLMs Hallucination Evaluation ([:x:](https://arxiv.org/abs/2311.07397)), ([:book:](https://browse.arxiv.org/pdf/2311.07397.pdf)), ([:paperclip:](https://arxiv.org/pdf/2311.07397.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2311.07397)), ([:house:](https://huggingface.co/papers/2311.07397)), ([HTML](https://browse.arxiv.org/html/2311.07397v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2311.07397v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2311.07397)), ([SS](https://api.semanticscholar.org/arXiv:2311.07397)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/an-llm-free-multi-dimensional-benchmark-for)), ([SS](https://www.semanticscholar.org/paper/An-LLM-free-Multi-dimensional-Benchmark-for-MLLMs-Wang-Wang/18940a4ccd955c72930ee0f8771ff710a9afeef3)), ([:octocat:](https://github.com/junyangwang0410/amber)![GitHub Repo stars](https://img.shields.io/github/stars/junyangwang0410/amber?style=social))
  * 11/10 - Testing LLMs on Code Generation with Varying Levels of Prompt Specificity ([:x:](https://arxiv.org/abs/2311.07599)), ([:book:](https://browse.arxiv.org/pdf/2311.07599.pdf)), ([:paperclip:](https://arxiv.org/pdf/2311.07599.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2311.07599)), ([:house:](https://huggingface.co/papers/2311.07599)), ([HTML](https://browse.arxiv.org/html/2311.07599v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2311.07599v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2311.07599)), ([SS](https://api.semanticscholar.org/arXiv:2311.07599)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/testing-llms-on-code-generation-with-varying)), ([SS](https://www.semanticscholar.org/paper/Testing-LLMs-on-Code-Generation-with-Varying-Levels-Murr-Grainger/4bcf89cd0d771965496aa2c7c56daf1e140fc3b7))
  * 11/10 - How to Bridge the Gap between Modalities: A Comprehensive Survey on Multimodal Large Language Model ([:x:](https://arxiv.org/abs/2311.07594)), ([:book:](https://browse.arxiv.org/pdf/2311.07594.pdf)), ([:paperclip:](https://arxiv.org/pdf/2311.07594.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2311.07594)), ([:house:](https://huggingface.co/papers/2311.07594)), ([HTML](https://browse.arxiv.org/html/2311.07594v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2311.07594v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2311.07594)), ([SS](https://api.semanticscholar.org/arXiv:2311.07594)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/how-to-bridge-the-gap-between-modalities-a)), ([SS](https://www.semanticscholar.org/paper/How-to-Bridge-the-Gap-between-Modalities%3A-A-Survey-Song-Li/8ec7d50250203543a0098d99f04957b22bbe2c77))
  * 11/10 - Advanced AI Governance: A Literature Review of Problems, Options, and Proposals ([:x:](https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4629460)) , ([SS](https://www.semanticscholar.org/paper/Advanced-AI-Governance%3A-A-Literature-Review-of-and-Maas/77cda5655f6ae322bb701796ec6d84d70031c5ac))
  * 11/4 - Levels of AGI: Operationalizing Progress on the Path to AGI ([:x:](https://arxiv.org/abs/2311.02462)), ([:book:](https://browse.arxiv.org/pdf/2311.02462.pdf)), ([:paperclip:](https://arxiv.org/pdf/2311.02462.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2311.02462)), ([:house:](https://huggingface.co/papers/2311.02462)), ([HTML](https://browse.arxiv.org/html/2311.02462v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2311.02462v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2311.02462)), ([SS](https://api.semanticscholar.org/arXiv:2311.02462)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/levels-of-agi-operationalizing-progress-on)), ([SS](https://www.semanticscholar.org/paper/Levels-of-AGI%3A-Operationalizing-Progress-on-the-to-Morris-Sohl-Dickstein/a2160ce64f13948222d6619d8b8b3a86d2991772))
  * 11/3 - Don't Make Your LLM an Evaluation Benchmark Cheater ([:x:](https://arxiv.org/abs/2311.01964)), ([:book:](https://browse.arxiv.org/pdf/2311.01964.pdf)), ([:paperclip:](https://arxiv.org/pdf/2311.01964.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2311.01964)), ([:house:](https://huggingface.co/papers/2311.01964)), ([HTML](https://browse.arxiv.org/html/2311.01964v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2311.01964v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2311.01964)), ([SS](https://api.semanticscholar.org/arXiv:2311.01964)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/don-t-make-your-llm-an-evaluation-benchmark)), ([SS](https://www.semanticscholar.org/paper/Don't-Make-Your-LLM-an-Evaluation-Benchmark-Cheater-Zhou-Zhu/84725855d10b531eb8cbe54935dda0440c2fc750))
  * 11/3 - AlignBench: Benchmarking Chinese Alignment of Large Language Models ([:x:](https://arxiv.org/abs/2311.18743)), ([:book:](https://browse.arxiv.org/pdf/2311.18743.pdf)), ([:paperclip:](https://arxiv.org/pdf/2311.18743.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2311.18743)), ([:house:](https://huggingface.co/papers/2311.18743)), ([HTML](https://browse.arxiv.org/html/2311.18743v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2311.18743v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2311.18743)), ([SS](https://api.semanticscholar.org/arXiv:2311.18743)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/alignbench-benchmarking-chinese-alignment-of)), ([SS](https://www.semanticscholar.org/paper/AlignBench%3A-Benchmarking-Chinese-Alignment-of-Large-Liu-Lei/20a965316352e813b5cce13b35e537dbdcf30b9d)), ([:octocat:](https://github.com/THUDM/AlignBench)![GitHub Repo stars](https://img.shields.io/github/stars/THUDM/AlignBench?style=social))
  * 11/2 - Evil Geniuses: Delving into the Safety of LLM-based Agents ([:x:](https://arxiv.org/abs/2311.11855)), ([:book:](https://browse.arxiv.org/pdf/2311.11855.pdf)), ([:paperclip:](https://arxiv.org/pdf/2311.11855.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2311.11855)), ([:house:](https://huggingface.co/papers/2311.11855)), ([HTML](https://browse.arxiv.org/html/2311.11855v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2311.11855v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2311.11855)), ([SS](https://api.semanticscholar.org/arXiv:2311.11855)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/evil-geniuses-delving-into-the-safety-of-llm)), ([SS](https://www.semanticscholar.org/paper/Evil-Geniuses%3A-Delving-into-the-Safety-of-LLM-based-Tian-Yang/263a58f4fd32caca1dad2351af4d711aec451fe6))
  * 10/30 - Transformation vs Tradition: Artificial General Intelligence (AGI) for Arts and Humanities ([:x:](https://arxiv.org/abs/2310.19626)), ([:book:](https://browse.arxiv.org/pdf/2310.19626.pdf)), ([:paperclip:](https://arxiv.org/pdf/2310.19626.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2310.19626)), ([:house:](https://huggingface.co/papers/2310.19626)), ([HTML](https://browse.arxiv.org/html/2310.19626v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2310.19626v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2310.19626)), ([SS](https://api.semanticscholar.org/arXiv:2310.19626)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/transformation-vs-tradition-artificial)), ([SS](https://www.semanticscholar.org/paper/Transformation-vs-Tradition%3A-Artificial-General-for-Liu-Li/a8fc3745ff459e938c3204c78ac09674ab743fc8))
  * 10/30 - Evaluating Large Language Models: A Comprehensive Survey ([:x:](https://arxiv.org/abs/2310.19736)), ([:book:](https://browse.arxiv.org/pdf/2310.19736.pdf)), ([:paperclip:](https://arxiv.org/pdf/2310.19736.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2310.19736)), ([:house:](https://huggingface.co/papers/2310.19736)), ([HTML](https://browse.arxiv.org/html/2310.19736v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2310.19736v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2310.19736)), ([SS](https://api.semanticscholar.org/arXiv:2310.19736)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/evaluating-large-language-models-a)), ([SS](https://www.semanticscholar.org/paper/Evaluating-Large-Language-Models%3A-A-Comprehensive-Guo-Jin/45a476cb04cccee74b9ddabce4d58d928be99f7d)), ([:octocat:](https://github.com/tjunlp-lab/awesome-llms-evaluation-papers)![GitHub Repo stars](https://img.shields.io/github/stars/tjunlp-lab/awesome-llms-evaluation-papers?style=social))
  * 10/30 - AI Alignment: A Comprehensive Survey ([:x:](https://arxiv.org/abs/2310.19852)), ([:book:](https://browse.arxiv.org/pdf/2310.19852.pdf)), ([:paperclip:](https://arxiv.org/pdf/2310.19852.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2310.19852)), ([:house:](https://huggingface.co/papers/2310.19852)), ([HTML](https://browse.arxiv.org/html/2310.19852v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2310.19852v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2310.19852)), ([SS](https://api.semanticscholar.org/arXiv:2310.19852)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/ai-alignment-a-comprehensive-survey)), ([SS](https://www.semanticscholar.org/paper/AI-Alignment%3A-A-Comprehensive-Survey-Ji-Qiu/4ac2c40b3adcb7b9d36e46bbd41ddf89202c320b))
  * 10/25 - Safety and security risks of generative artificial intelligence to 2025 (Annex B) ([:x:](https://www.gov.uk/government/publications/frontier-ai-capabilities-and-risks-discussion-paper/safety-and-security-risks-of-generative-artificial-intelligence-to-2025-annex-b)) 
  * 10/25 - Future risks of frontier AI (Annex A) ([:x:](https://www.gov.uk/government/publications/frontier-ai-capabilities-and-risks-discussion-paper/future-risks-of-frontier-ai-annex-a)) 
  * 10/25 - Frontier AI: capabilities and risks – discussion paper ([:x:](https://www.gov.uk/government/publications/frontier-ai-capabilities-and-risks-discussion-paper/frontier-ai-capabilities-and-risks-discussion-paper)) 
  * 10/25 - Frontier AI: capabilities and risks – discussion paper ([:x:](https://www.gov.uk/government/publications/frontier-ai-capabilities-and-risks-discussion-paper)) 
  * 10/25 - AI Hazard Management: A framework for the systematic management of root causes for AI risks ([:x:](https://arxiv.org/abs/2310.16727)), ([:book:](https://browse.arxiv.org/pdf/2310.16727.pdf)), ([:paperclip:](https://arxiv.org/pdf/2310.16727.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2310.16727)), ([:house:](https://huggingface.co/papers/2310.16727)), ([HTML](https://browse.arxiv.org/html/2310.16727v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2310.16727v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2310.16727)), ([SS](https://api.semanticscholar.org/arXiv:2310.16727)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/ai-hazard-management-a-framework-for-the)), ([SS](https://www.semanticscholar.org/paper/AI-Hazard-Management%3A-A-framework-for-the-of-root-Schnitzer-Hapfelmeier/3de2a37c8a8fc91e4d9e7a8a525ffeed7851d187))
  * 10/24 - Make LLM a Testing Expert: Bringing Human-like Interaction to Mobile GUI Testing via Functionality-aware Decisions ([:x:](https://arxiv.org/abs/2310.15780)), ([:book:](https://browse.arxiv.org/pdf/2310.15780.pdf)), ([:paperclip:](https://arxiv.org/pdf/2310.15780.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2310.15780)), ([:house:](https://huggingface.co/papers/2310.15780)), ([HTML](https://browse.arxiv.org/html/2310.15780v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2310.15780v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2310.15780)), ([SS](https://api.semanticscholar.org/arXiv:2310.15780)), ([SS](https://www.semanticscholar.org/paper/Make-LLM-a-Testing-Expert%3A-Bringing-Human-like-to-Liu-Chen/1d5ffd4f19355c074da1f9e8b128941ca41d9f11))
  * 10/23 - Systematic AI Approach for AGI: Addressing Alignment, Energy, and AGI Grand Challenges  ([:x:](https://arxiv.org/abs/2310.15274)), ([:book:](https://browse.arxiv.org/pdf/2310.15274.pdf)), ([:paperclip:](https://arxiv.org/pdf/2310.15274.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2310.15274)), ([:house:](https://huggingface.co/papers/2310.15274)), ([HTML](https://browse.arxiv.org/html/2310.15274v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2310.15274v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2310.15274)), ([SS](https://api.semanticscholar.org/arXiv:2310.15274)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/systematic-ai-approach-for-agi-addressing))
  * 10/20 - Oversight for Frontier AI through a Know-Your-Customer Scheme for Compute Providers ([:x:](https://arxiv.org/abs/2310.13625)), ([:book:](https://browse.arxiv.org/pdf/2310.13625.pdf)), ([:paperclip:](https://arxiv.org/pdf/2310.13625.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2310.13625)), ([:house:](https://huggingface.co/papers/2310.13625)), ([HTML](https://browse.arxiv.org/html/2310.13625v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2310.13625v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2310.13625)), ([SS](https://api.semanticscholar.org/arXiv:2310.13625)), ([SS](https://www.semanticscholar.org/paper/Oversight-for-Frontier-AI-through-a-Scheme-for-Egan-Heim/18565476a435fc6ef699c437e01dc29f1ee991b2))
  * 10/13 - Multinational AGI Consortium (MAGIC): A Proposal for International Coordination on AI ([:x:](https://arxiv.org/abs/2310.09217)), ([:book:](https://browse.arxiv.org/pdf/2310.09217.pdf)), ([:paperclip:](https://arxiv.org/pdf/2310.09217.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2310.09217)), ([:house:](https://huggingface.co/papers/2310.09217)), ([HTML](https://browse.arxiv.org/html/2310.09217v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2310.09217v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2310.09217)), ([SS](https://api.semanticscholar.org/arXiv:2310.09217)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/multinational-agi-consortium-magic-a-proposal))
  * 10/01 - **RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models** ([:x:](https://arxiv.org/abs/2310.00746)), ([:book:](https://browse.arxiv.org/pdf/2310.00746.pdf)), ([:paperclip:](https://arxiv.org/pdf/2310.00746.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2310.00746)), ([:house:](https://huggingface.co/papers/2310.00746)), ([HTML](https://browse.arxiv.org/html/2310.00746v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2310.00746)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2310.00746v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2310.00746)), ([SS](https://api.semanticscholar.org/arXiv:2310.00746)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/rolellm-benchmarking-eliciting-and-enhancing)), ([:octocat:](https://github.com/interactivenlp-team/rolellm-public)![GitHub Repo stars](https://img.shields.io/github/stars/interactivenlp-team/rolellm-public?style=social))
  * 9/30 - Deployment Corrections: An incident response framework for frontier AI models ([:x:](https://arxiv.org/abs/2310.00328)), ([:book:](https://browse.arxiv.org/pdf/2310.00328.pdf)), ([:paperclip:](https://arxiv.org/pdf/2310.00328.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2310.00328)), ([:house:](https://huggingface.co/papers/2310.00328)), ([HTML](https://browse.arxiv.org/html/2310.00328v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2310.00328v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2310.00328)), ([SS](https://api.semanticscholar.org/arXiv:2310.00328)), ([SS](https://www.semanticscholar.org/paper/Deployment-Corrections%3A-An-incident-response-for-AI-O'Brien-Ee/69773e5a978b94ad50fb4bb5d977e7b4c7c8d8f2))
  * 9/29 - LLM-Deliberation: Evaluating LLMs with Interactive Multi-Agent Negotiation Games ([:x:](https://arxiv.org/abs/2309.17234)), ([:book:](https://browse.arxiv.org/pdf/2309.17234.pdf)), ([:paperclip:](https://arxiv.org/pdf/2309.17234.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2309.17234)), ([:house:](https://huggingface.co/papers/2309.17234)), ([HTML](https://browse.arxiv.org/html/2309.17234v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2309.17234v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2309.17234)), ([SS](https://api.semanticscholar.org/arXiv:2309.17234)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/llm-deliberation-evaluating-llms-with)), ([:octocat:](https://github.com/s-abdelnabi/llm-deliberation)![GitHub Repo stars](https://img.shields.io/github/stars/s-abdelnabi/llm-deliberation?style=social))
  * 9/26 - Large Language Model Alignment: A Survey ([:x:](https://arxiv.org/abs/2309.15025)), ([:book:](https://browse.arxiv.org/pdf/2309.15025.pdf)), ([:paperclip:](https://arxiv.org/pdf/2309.15025.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2309.15025)), ([:house:](https://huggingface.co/papers/2309.15025)), ([HTML](https://browse.arxiv.org/html/2309.15025v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2309.15025v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2309.15025)), ([SS](https://api.semanticscholar.org/arXiv:2309.15025)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/large-language-model-alignment-a-survey)), ([SS](https://www.semanticscholar.org/paper/Large-Language-Model-Alignment%3A-A-Survey-Shen-Jin/749d59f887c8ac83fd4f5178465e8b03e463358c))
  * 9/24 - LLM for Test Script Generation and Migration: Challenges, Capabilities, and Opportunities ([:x:](https://arxiv.org/abs/2309.13574)), ([:book:](https://browse.arxiv.org/pdf/2309.13574.pdf)), ([:paperclip:](https://arxiv.org/pdf/2309.13574.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2309.13574)), ([:house:](https://huggingface.co/papers/2309.13574)), ([HTML](https://browse.arxiv.org/html/2309.13574v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2309.13574v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2309.13574)), ([SS](https://api.semanticscholar.org/arXiv:2309.13574)), ([SS](https://www.semanticscholar.org/paper/LLM-for-Test-Script-Generation-and-Migration%3A-and-Yu-Fang/737aa146e2d8d044fff40ba830f89e30fd9ae4fd))
  * 09/20 - **Explosive growth from AI automation: A review of the arguments** <br>([:x:](https://arxiv.org/abs/2309.11690)), ([:book:](https://browse.arxiv.org/pdf/2309.11690.pdf)), ([:paperclip:](https://arxiv.org/pdf/2309.11690.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2309.11690)), ([:house:](https://huggingface.co/papers/2309.11690)), ([HTML](https://browse.arxiv.org/html/2309.11690v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2309.11690)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2309.11690v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2309.11690)), ([SS](https://api.semanticscholar.org/arXiv:2309.11690)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/explosive-growth-from-ai-automation-a-review))
  * 9/19 - OpenCog Hyperon: A Framework for AGI at the Human Level and Beyond ([:x:](https://arxiv.org/abs/2309.18318)), ([:book:](https://browse.arxiv.org/pdf/2309.18318.pdf)), ([:paperclip:](https://arxiv.org/pdf/2309.18318.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2309.18318)), ([:house:](https://huggingface.co/papers/2309.18318)), ([HTML](https://browse.arxiv.org/html/2309.18318v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2309.18318v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2309.18318)), ([SS](https://api.semanticscholar.org/arXiv:2309.18318)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/opencog-hyperon-a-framework-for-agi-at-the))
  * 9/19 - MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language Feedback ([:x:](https://arxiv.org/abs/2309.10691)), ([:book:](https://browse.arxiv.org/pdf/2309.10691.pdf)), ([:paperclip:](https://arxiv.org/pdf/2309.10691.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2309.10691)), ([:house:](https://huggingface.co/papers/2309.10691)), ([HTML](https://browse.arxiv.org/html/2309.10691v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2309.10691v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2309.10691)), ([SS](https://api.semanticscholar.org/arXiv:2309.10691)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/mint-evaluating-llms-in-multi-turn)), ([SS](https://www.semanticscholar.org/paper/MINT%3A-Evaluating-LLMs-in-Multi-turn-Interaction-and-Wang-Wang/12b233752c7097ea6525622bed238ae2d2193c5a))
  * 9/17 - ChainForge: A Visual Toolkit for Prompt Engineering and LLM Hypothesis Testing ([:x:](https://arxiv.org/abs/2309.09128)), ([:book:](https://browse.arxiv.org/pdf/2309.09128.pdf)), ([:paperclip:](https://arxiv.org/pdf/2309.09128.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2309.09128)), ([:house:](https://huggingface.co/papers/2309.09128)), ([HTML](https://browse.arxiv.org/html/2309.09128v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2309.09128v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2309.09128)), ([SS](https://api.semanticscholar.org/arXiv:2309.09128)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/chainforge-a-visual-toolkit-for-prompt)), ([SS](https://www.semanticscholar.org/paper/ChainForge%3A-A-Visual-Toolkit-for-Prompt-Engineering-Arawjo-Swoopes/2ed64d90670177bf58cdce6bda04a48a8731a18f)), ([:octocat:](https://github.com/ianarawjo/ChainForge)![GitHub Repo stars](https://img.shields.io/github/stars/ianarawjo/ChainForge?style=social))
  * 9/15 - Self-Assessment Tests are Unreliable Measures of LLM Personality ([:x:](https://arxiv.org/abs/2309.08163)), ([:book:](https://browse.arxiv.org/pdf/2309.08163.pdf)), ([:paperclip:](https://arxiv.org/pdf/2309.08163.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2309.08163)), ([:house:](https://huggingface.co/papers/2309.08163)), ([HTML](https://browse.arxiv.org/html/2309.08163v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2309.08163v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2309.08163)), ([SS](https://api.semanticscholar.org/arXiv:2309.08163)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/investigating-the-applicability-of-self)), ([SS](https://www.semanticscholar.org/paper/Self-Assessment-Tests-are-Unreliable-Measures-of-Gupta-Song/fb5a8983e1a7573de1386f4fea5398874e2c96c7))
  * 9/14 - Towards Artificial General Intelligence (AGI) in the Internet of Things (IoT): Opportunities and Challenges ([:x:](https://arxiv.org/abs/2309.07438)), ([:book:](https://browse.arxiv.org/pdf/2309.07438.pdf)), ([:paperclip:](https://arxiv.org/pdf/2309.07438.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2309.07438)), ([:house:](https://huggingface.co/papers/2309.07438)), ([HTML](https://browse.arxiv.org/html/2309.07438v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2309.07438v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2309.07438)), ([SS](https://api.semanticscholar.org/arXiv:2309.07438)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/towards-artificial-general-intelligence-agi)), ([SS](https://www.semanticscholar.org/paper/Towards-Artificial-General-Intelligence-(AGI)-in-of-Dou-Ye/576a3159d6c3f646d6fda6d047dfece4ea941fdd))
  * 9/14 - The Rise and Potential of Large Language Model Based Agents: A Survey ([:x:](https://arxiv.org/abs/2309.07864)), ([:book:](https://browse.arxiv.org/pdf/2309.07864.pdf)), ([:paperclip:](https://arxiv.org/pdf/2309.07864.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2309.07864)), ([:house:](https://huggingface.co/papers/2309.07864)), ([HTML](https://browse.arxiv.org/html/2309.07864v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2309.07864v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2309.07864)), ([SS](https://api.semanticscholar.org/arXiv:2309.07864)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/the-rise-and-potential-of-large-language)), ([SS](https://www.semanticscholar.org/paper/The-Rise-and-Potential-of-Large-Language-Model-A-Xi-Chen/0c72450890a54b68d63baa99376131fda8f06cf9)), ([:octocat:](https://github.com/woooodyy/llm-agent-paper-list)![GitHub Repo stars](https://img.shields.io/github/stars/woooodyy/llm-agent-paper-list?style=social))
  * 9/13 - Pretraining on the Test Set Is All You Need ([:x:](https://arxiv.org/abs/2309.08632)), ([:book:](https://browse.arxiv.org/pdf/2309.08632.pdf)), ([:paperclip:](https://arxiv.org/pdf/2309.08632.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2309.08632)), ([:house:](https://huggingface.co/papers/2309.08632)), ([HTML](https://browse.arxiv.org/html/2309.08632v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2309.08632v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2309.08632)), ([SS](https://api.semanticscholar.org/arXiv:2309.08632)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/pretraining-on-the-test-set-is-all-you-need)), ([SS](https://www.semanticscholar.org/paper/Pretraining-on-the-Test-Set-Is-All-You-Need-Schaeffer/f9ab990ca3c0715e31854ec1087af572af8de8a6))
  * 9/12 - A Proposal for a Definition of General Purpose Artificial Intelligence Systems ([:x:](https://link.springer.com/article/10.1007/s44206-023-00068-w)) , ([SS](https://www.semanticscholar.org/paper/A-Proposal-for-a-Definition-of-General-Purpose-Gutierrez-Aguirre/d7961b9915a958f1a865de35fcc21eb68cd3bd11))
  * 9/5 - Artificial General Intelligence for Radiation Oncology ([:x:](https://arxiv.org/abs/2309.02590)), ([:book:](https://browse.arxiv.org/pdf/2309.02590.pdf)), ([:paperclip:](https://arxiv.org/pdf/2309.02590.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2309.02590)), ([:house:](https://huggingface.co/papers/2309.02590)), ([HTML](https://browse.arxiv.org/html/2309.02590v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2309.02590v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2309.02590)), ([SS](https://api.semanticscholar.org/arXiv:2309.02590)), ([SS](https://www.semanticscholar.org/paper/Artificial-general-intelligence-for-radiation-Liu-Liu/6770061933096bc52b4e2f817923c285be68204f))
  * 9/4 - Concepts is All You Need: A More Direct Path to AGI ([:x:](https://arxiv.org/abs/2309.01622)), ([:book:](https://browse.arxiv.org/pdf/2309.01622.pdf)), ([:paperclip:](https://arxiv.org/pdf/2309.01622.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2309.01622)), ([:house:](https://huggingface.co/papers/2309.01622)), ([HTML](https://browse.arxiv.org/html/2309.01622v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2309.01622v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2309.01622)), ([SS](https://api.semanticscholar.org/arXiv:2309.01622)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/concepts-is-all-you-need-a-more-direct-path)), ([SS](https://www.semanticscholar.org/paper/Concepts-is-All-You-Need%3A-A-More-Direct-Path-to-AGI-Voss-Jovanovic/2045c025884c3ec3d4923efd78ee37d8120eea20))
  * 8/31 - An overview of research on human-centered design in the development of artificial general intelligence ([:x:](https://arxiv.org/abs/2309.12352)), ([:book:](https://browse.arxiv.org/pdf/2309.12352.pdf)), ([:paperclip:](https://arxiv.org/pdf/2309.12352.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2309.12352)), ([:house:](https://huggingface.co/papers/2309.12352)), ([HTML](https://browse.arxiv.org/html/2309.12352v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2309.12352v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2309.12352)), ([SS](https://api.semanticscholar.org/arXiv:2309.12352)), ([SS](https://www.semanticscholar.org/paper/An-overview-of-research-on-human-centered-design-in-Yue-Shyu/d11898d8aa489aebc8ba68bba1b42b556d7d3efb))
  * 08/27 - **MedAlign: A Clinician-Generated Dataset for Instruction Following with Electronic Medical Records** <br>([:x:](https://arxiv.org/abs/2308.14089)), ([:book:](https://browse.arxiv.org/pdf/2308.14089.pdf)), ([:paperclip:](https://arxiv.org/pdf/2308.14089.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2308.14089)), ([:house:](https://huggingface.co/papers/2308.14089)), ([HTML](https://browse.arxiv.org/html/2308.14089v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2308.14089)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2308.14089v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2308.14089)), ([SS](https://api.semanticscholar.org/arXiv:2308.14089)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/medalign-a-clinician-generated-dataset-for))
  * 8/13 - The risks associated with Artificial General Intelligence: A systematic review ([:x:](https://www.tandfonline.com/doi/full/10.1080/0952813X.2021.1964003)) , ([SS](https://www.semanticscholar.org/paper/The-risks-associated-with-Artificial-General-A-Mclean-Read/220e224b3c5ee56f6d31220d3f087caf4db95635))
  * 8/12 - A new solution and concrete implementation steps for Artificial General Intelligence ([:x:](https://arxiv.org/abs/2308.09721)), ([:book:](https://browse.arxiv.org/pdf/2308.09721.pdf)), ([:paperclip:](https://arxiv.org/pdf/2308.09721.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2308.09721)), ([:house:](https://huggingface.co/papers/2308.09721)), ([HTML](https://browse.arxiv.org/html/2308.09721v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2308.09721v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2308.09721)), ([SS](https://api.semanticscholar.org/arXiv:2308.09721)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/a-new-solution-and-concrete-implementation)), ([SS](https://www.semanticscholar.org/paper/A-new-solution-and-concrete-implementation-steps-Chen-Zeng/f770453e7dc5a9116e37823f6a0929ca60bbc1f1))
  * 8/10 - Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language Models' Alignment ([:x:](https://arxiv.org/abs/2308.05374)), ([:book:](https://browse.arxiv.org/pdf/2308.05374.pdf)), ([:paperclip:](https://arxiv.org/pdf/2308.05374.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2308.05374)), ([:house:](https://huggingface.co/papers/2308.05374)), ([HTML](https://browse.arxiv.org/html/2308.05374v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2308.05374v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2308.05374)), ([SS](https://api.semanticscholar.org/arXiv:2308.05374)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/trustworthy-llms-a-survey-and-guideline-for)), ([SS](https://www.semanticscholar.org/paper/Trustworthy-LLMs%3A-a-Survey-and-Guideline-for-Large-Liu-Yao/eda0c61a2d372677987c9bc6f3dbe549ca71440b)), ([:octocat:](https://github.com/kevinyaobytedance/llm_eval)![GitHub Repo stars](https://img.shields.io/github/stars/kevinyaobytedance/llm_eval?style=social))
  * 8/7 - Why We Don't Have AGI Yet ([:x:](https://arxiv.org/abs/2308.03598)), ([:book:](https://browse.arxiv.org/pdf/2308.03598.pdf)), ([:paperclip:](https://arxiv.org/pdf/2308.03598.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2308.03598)), ([:house:](https://huggingface.co/papers/2308.03598)), ([HTML](https://browse.arxiv.org/html/2308.03598v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2308.03598v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2308.03598)), ([SS](https://api.semanticscholar.org/arXiv:2308.03598)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/why-we-don-t-have-agi-yet)), ([SS](https://www.semanticscholar.org/paper/Why-We-Don't-Have-AGI-Yet-Voss-Jovanovic/80c7c0a6b03c8de6bb795e86cd2db3a247041ebd))
  * 8/5 - A criterion for Artificial General Intelligence: hypothetic-deductive reasoning, tested on ChatGPT ([:x:](https://arxiv.org/abs/2308.02950)), ([:book:](https://browse.arxiv.org/pdf/2308.02950.pdf)), ([:paperclip:](https://arxiv.org/pdf/2308.02950.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2308.02950)), ([:house:](https://huggingface.co/papers/2308.02950)), ([HTML](https://browse.arxiv.org/html/2308.02950v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2308.02950v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2308.02950)), ([SS](https://api.semanticscholar.org/arXiv:2308.02950)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/a-criterion-for-artificial-general)), ([SS](https://www.semanticscholar.org/paper/A-criterion-for-Artificial-General-Intelligence%3A-on-Vervoort-Mizyakov/d484e7c525845c98907393e761d85f046dab7eef))
  * 8/3 - Digital twin brain: a bridge between biological intelligence and artificial intelligence ([:x:](https://arxiv.org/abs/2308.01941)), ([:book:](https://browse.arxiv.org/pdf/2308.01941.pdf)), ([:paperclip:](https://arxiv.org/pdf/2308.01941.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2308.01941)), ([:house:](https://huggingface.co/papers/2308.01941)), ([HTML](https://browse.arxiv.org/html/2308.01941v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2308.01941v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2308.01941)), ([SS](https://api.semanticscholar.org/arXiv:2308.01941)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/digital-twin-brain-a-bridge-between)), ([SS](https://www.semanticscholar.org/paper/Digital-twin-brain%3A-a-bridge-between-biological-and-Xiong-Chu/86549cb1954241bde5c8dc68c1b0c395b72b2059))
  * 7/28 - RSGPT: A Remote Sensing Vision Language Model and Benchmark ([:x:](https://arxiv.org/abs/2307.15266)), ([:book:](https://browse.arxiv.org/pdf/2307.15266.pdf)), ([:paperclip:](https://arxiv.org/pdf/2307.15266.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2307.15266)), ([:house:](https://huggingface.co/papers/2307.15266)), ([HTML](https://browse.arxiv.org/html/2307.15266v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2307.15266v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2307.15266)), ([SS](https://api.semanticscholar.org/arXiv:2307.15266)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/rsgpt-a-remote-sensing-vision-language-model)), ([SS](https://www.semanticscholar.org/paper/RSGPT%3A-A-Remote-Sensing-Vision-Language-Model-and-Hu-Yuan/872c111c4bed5aba086cc023ce6279edb469220a))
  * 7/26 - General Purpose Artificial Intelligence Systems (GPAIS): Properties, Definition, Taxonomy, Open Challenges and Implications ([:x:](https://arxiv.org/abs/2307.14283)), ([:book:](https://browse.arxiv.org/pdf/2307.14283.pdf)), ([:paperclip:](https://arxiv.org/pdf/2307.14283.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2307.14283)), ([:house:](https://huggingface.co/papers/2307.14283)), ([HTML](https://browse.arxiv.org/html/2307.14283v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2307.14283v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2307.14283)), ([SS](https://api.semanticscholar.org/arXiv:2307.14283)), ([SS](https://www.semanticscholar.org/paper/General-Purpose-Artificial-Intelligence-Systems-and-Triguero-Molina/92481db3aebc7bcc7b27fcca9319c3ede2f2a907))
  * 7/24 - Aligning Large Language Models with Human: A Survey ([:x:](https://arxiv.org/abs/2307.12966)), ([:book:](https://browse.arxiv.org/pdf/2307.12966.pdf)), ([:paperclip:](https://arxiv.org/pdf/2307.12966.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2307.12966)), ([:house:](https://huggingface.co/papers/2307.12966)), ([HTML](https://browse.arxiv.org/html/2307.12966v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2307.12966v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2307.12966)), ([SS](https://api.semanticscholar.org/arXiv:2307.12966)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/aligning-large-language-models-with-human-a)), ([SS](https://www.semanticscholar.org/paper/Aligning-Large-Language-Models-with-Human%3A-A-Survey-Wang-Zhong/ac771182d1780c863954243809d1e144433919f9)), ([:octocat:](https://github.com/garyyufei/alignllmhumansurvey)![GitHub Repo stars](https://img.shields.io/github/stars/garyyufei/alignllmhumansurvey?style=social))
  * 7/17 - Risk assessment at AGI companies: A review of popular risk assessment techniques from other safety-critical industries ([:x:](https://arxiv.org/abs/2307.08823)), ([:book:](https://browse.arxiv.org/pdf/2307.08823.pdf)), ([:paperclip:](https://arxiv.org/pdf/2307.08823.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2307.08823)), ([:house:](https://huggingface.co/papers/2307.08823)), ([HTML](https://browse.arxiv.org/html/2307.08823v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2307.08823v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2307.08823)), ([SS](https://api.semanticscholar.org/arXiv:2307.08823)), ([SS](https://www.semanticscholar.org/paper/Risk-assessment-at-AGI-companies%3A-A-review-of-risk-Koessler-Schuett/3270d292aa0ce0c01ca4fadfc0f355ff1d45d754))
  * 7/16 - Look Before You Leap: An Exploratory Study of Uncertainty Measurement for Large Language Models ([:x:](https://arxiv.org/abs/2307.10236)), ([:book:](https://browse.arxiv.org/pdf/2307.10236.pdf)), ([:paperclip:](https://arxiv.org/pdf/2307.10236.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2307.10236)), ([:house:](https://huggingface.co/papers/2307.10236)), ([HTML](https://browse.arxiv.org/html/2307.10236v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2307.10236v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2307.10236)), ([SS](https://api.semanticscholar.org/arXiv:2307.10236)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/look-before-you-leap-an-exploratory-study-of)), ([SS](https://www.semanticscholar.org/paper/Look-Before-You-Leap%3A-An-Exploratory-Study-of-for-Huang-Song/ea0d41514a41f8273f13b3b277e7fcbbc65a8549))
  * 7/12 - A Comprehensive Overview of Large Language Models ([:x:](https://arxiv.org/abs/2307.06435)), ([:book:](https://browse.arxiv.org/pdf/2307.06435.pdf)), ([:paperclip:](https://arxiv.org/pdf/2307.06435.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2307.06435)), ([:house:](https://huggingface.co/papers/2307.06435)), ([HTML](https://browse.arxiv.org/html/2307.06435v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2307.06435v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2307.06435)), ([SS](https://api.semanticscholar.org/arXiv:2307.06435)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/a-comprehensive-overview-of-large-language)), ([SS](https://www.semanticscholar.org/paper/A-Comprehensive-Overview-of-Large-Language-Models-Naveed-Khan/ca31b8584b6c022ef15ddfe994fe361e002b7729)), ([:octocat:](https://github.com/humza909/llm_survey)![GitHub Repo stars](https://img.shields.io/github/stars/humza909/llm_survey?style=social))
  * 7/7 - Brain in a Vat: On Missing Pieces Towards Artificial General Intelligence in Large Language Models ([:x:](https://arxiv.org/abs/2307.03762)), ([:book:](https://browse.arxiv.org/pdf/2307.03762.pdf)), ([:paperclip:](https://arxiv.org/pdf/2307.03762.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2307.03762)), ([:house:](https://huggingface.co/papers/2307.03762)), ([HTML](https://browse.arxiv.org/html/2307.03762v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2307.03762v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2307.03762)), ([SS](https://api.semanticscholar.org/arXiv:2307.03762)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/brain-in-a-vat-on-missing-pieces-towards)), ([SS](https://www.semanticscholar.org/paper/Brain-in-a-Vat%3A-On-Missing-Pieces-Towards-General-Ma-Zhang/50f9f33b284b7363fbd9b9d2da4939b989a1c7cd))
  * 7/6 - Frontier AI Regulation: Managing Emerging Risks to Public Safety ([:x:](https://arxiv.org/abs/2307.03718)), ([:book:](https://browse.arxiv.org/pdf/2307.03718.pdf)), ([:paperclip:](https://arxiv.org/pdf/2307.03718.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2307.03718)), ([:house:](https://huggingface.co/papers/2307.03718)), ([HTML](https://browse.arxiv.org/html/2307.03718v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2307.03718v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2307.03718)), ([SS](https://api.semanticscholar.org/arXiv:2307.03718)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/frontier-ai-regulation-managing-emerging)), ([SS](https://www.semanticscholar.org/paper/Frontier-AI-Regulation%3A-Managing-Emerging-Risks-to-Anderljung-Barnhart/494b043fce4da2ecc7f87bc96f7c29a5278cca61))
  * 7/6 - A Survey on Evaluation of Large Language Models ([:x:](https://arxiv.org/abs/2307.03109)), ([:book:](https://browse.arxiv.org/pdf/2307.03109.pdf)), ([:paperclip:](https://arxiv.org/pdf/2307.03109.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2307.03109)), ([:house:](https://huggingface.co/papers/2307.03109)), ([HTML](https://browse.arxiv.org/html/2307.03109v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2307.03109v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2307.03109)), ([SS](https://api.semanticscholar.org/arXiv:2307.03109)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/a-survey-on-evaluation-of-large-language)), ([SS](https://www.semanticscholar.org/paper/A-Survey-on-Evaluation-of-Large-Language-Models-Chang-Wang/888728745dbb769e29ed475d4f7661eebe1a71cf)), ([:octocat:](https://github.com/MLGroupJLU/LLM-eval-survey)![GitHub Repo stars](https://img.shields.io/github/stars/MLGroupJLU/LLM-eval-survey?style=social))
  * 7/3 - Review of Large Vision Models and Visual Prompt Engineering ([:x:](https://arxiv.org/abs/2307.00855)), ([:book:](https://browse.arxiv.org/pdf/2307.00855.pdf)), ([:paperclip:](https://arxiv.org/pdf/2307.00855.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2307.00855)), ([:house:](https://huggingface.co/papers/2307.00855)), ([HTML](https://browse.arxiv.org/html/2307.00855v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2307.00855v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2307.00855)), ([SS](https://api.semanticscholar.org/arXiv:2307.00855)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/review-of-large-vision-models-and-visual)), ([SS](https://www.semanticscholar.org/paper/Review-of-Large-Vision-Models-and-Visual-Prompt-Wang-Liu/7619a98ef077c8f75e0bfb98953457649209e07e))
  * 6/30 - Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning ([:x:](https://arxiv.org/abs/2306.14565)), ([:book:](https://browse.arxiv.org/pdf/2306.14565.pdf)), ([:paperclip:](https://arxiv.org/pdf/2306.14565.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2306.14565)), ([:house:](https://huggingface.co/papers/2306.14565)), ([HTML](https://browse.arxiv.org/html/2306.14565v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2306.14565v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2306.14565)), ([SS](https://api.semanticscholar.org/arXiv:2306.14565)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/aligning-large-multi-modal-model-with-robust)), ([:octocat:](https://github.com/FuxiaoLiu/LRV-Instruction)![GitHub Repo stars](https://img.shields.io/github/stars/FuxiaoLiu/LRV-Instruction?style=social))
  * 6/26 - Kosmos-2: Grounding Multimodal Large Language Models to the World ([:x:](https://arxiv.org/abs/2306.14824)), ([:book:](https://browse.arxiv.org/pdf/2306.14824.pdf)), ([:paperclip:](https://arxiv.org/pdf/2306.14824.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2306.14824)), ([:house:](https://huggingface.co/papers/2306.14824)), ([HTML](https://browse.arxiv.org/html/2306.14824v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2306.14824v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2306.14824)), ([SS](https://api.semanticscholar.org/arXiv:2306.14824)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/kosmos-2-grounding-multimodal-large-language)), ([SS](https://www.semanticscholar.org/paper/Kosmos-2%3A-Grounding-Multimodal-Large-Language-to-Peng-Wang/3b6179c293df29e31d31cea46476f104ab6950f2)), ([:octocat:](https://github.com/microsoft/unilm)![GitHub Repo stars](https://img.shields.io/github/stars/microsoft/unilm?style=social))
  * 6/23 - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models ([:x:](https://arxiv.org/abs/2306.13394)), ([:book:](https://browse.arxiv.org/pdf/2306.13394.pdf)), ([:paperclip:](https://arxiv.org/pdf/2306.13394.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2306.13394)), ([:house:](https://huggingface.co/papers/2306.13394)), ([HTML](https://browse.arxiv.org/html/2306.13394v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2306.13394v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2306.13394)), ([SS](https://api.semanticscholar.org/arXiv:2306.13394)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/mme-a-comprehensive-evaluation-benchmark-for)), ([SS](https://www.semanticscholar.org/paper/MME%3A-A-Comprehensive-Evaluation-Benchmark-for-Large-Fu-Chen/697e0add95e880bd42e00bef838181e105f91981)), ([:octocat:](https://github.com/bradyfu/awesome-multimodal-large-language-models)![GitHub Repo stars](https://img.shields.io/github/stars/bradyfu/awesome-multimodal-large-language-models?style=social))
  * 6/23 - A Survey on Multimodal Large Language Models ([:x:](https://arxiv.org/abs/2306.13549)), ([:book:](https://browse.arxiv.org/pdf/2306.13549.pdf)), ([:paperclip:](https://arxiv.org/pdf/2306.13549.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2306.13549)), ([:house:](https://huggingface.co/papers/2306.13549)), ([HTML](https://browse.arxiv.org/html/2306.13549v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2306.13549v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2306.13549)), ([SS](https://api.semanticscholar.org/arXiv:2306.13549)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/a-survey-on-multimodal-large-language-models)), ([SS](https://www.semanticscholar.org/paper/A-Survey-on-Multimodal-Large-Language-Models-Yin-Fu/ebedc4d7a2356090904baba4104ef0832bc236df)), ([:octocat:](https://github.com/bradyfu/awesome-multimodal-large-language-models)![GitHub Repo stars](https://img.shields.io/github/stars/bradyfu/awesome-multimodal-large-language-models?style=social))
  * 6/19 - Path to Medical AGI: Unify Domain-specific Medical LLMs with the Lowest Cost ([:x:](https://arxiv.org/abs/2306.10765)), ([:book:](https://browse.arxiv.org/pdf/2306.10765.pdf)), ([:paperclip:](https://arxiv.org/pdf/2306.10765.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2306.10765)), ([:house:](https://huggingface.co/papers/2306.10765)), ([HTML](https://browse.arxiv.org/html/2306.10765v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2306.10765v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2306.10765)), ([SS](https://api.semanticscholar.org/arXiv:2306.10765)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/path-to-medical-agi-unify-domain-specific)), ([SS](https://www.semanticscholar.org/paper/Path-to-Medical-AGI%3A-Unify-Domain-specific-Medical-Zhou-Chen/7839d037bb0e41f8a9898f177d2710cfe23633fc)), ([:octocat:](https://github.com/joshuachou2018/medagi)![GitHub Repo stars](https://img.shields.io/github/stars/joshuachou2018/medagi?style=social))
  * 6/17 - Large Language Models for Telecom: The Next Big Thing? ([:x:](https://arxiv.org/abs/2306.10249)), ([:book:](https://browse.arxiv.org/pdf/2306.10249.pdf)), ([:paperclip:](https://arxiv.org/pdf/2306.10249.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2306.10249)), ([:house:](https://huggingface.co/papers/2306.10249)), ([HTML](https://browse.arxiv.org/html/2306.10249v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2306.10249v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2306.10249)), ([SS](https://api.semanticscholar.org/arXiv:2306.10249)), ([SS](https://www.semanticscholar.org/paper/Large-Generative-AI-Models-for-Telecom%3A-The-Next-Bariah-Zhao/0c5fbcd73343d7527863ddd15c91fbcb774fca49))
  * 6/14 - Towards AGI in Computer Vision: Lessons Learned from GPT and Large Language Models ([:x:](https://arxiv.org/abs/2306.08641)), ([:book:](https://browse.arxiv.org/pdf/2306.08641.pdf)), ([:paperclip:](https://arxiv.org/pdf/2306.08641.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2306.08641)), ([:house:](https://huggingface.co/papers/2306.08641)), ([HTML](https://browse.arxiv.org/html/2306.08641v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2306.08641v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2306.08641)), ([SS](https://api.semanticscholar.org/arXiv:2306.08641)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/towards-agi-in-computer-vision-lessons)), ([SS](https://www.semanticscholar.org/paper/Towards-AGI-in-Computer-Vision%3A-Lessons-Learned-GPT-Xie-Wei/051549d8ef56937b2f4d113afdcf8c7586d3770b))
  * 6/9 - Judging LLM-as-a-judge with MT-Bench and Chatbot Arena ([:x:](https://arxiv.org/abs/2306.05685)), ([:book:](https://browse.arxiv.org/pdf/2306.05685.pdf)), ([:paperclip:](https://arxiv.org/pdf/2306.05685.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2306.05685)), ([:house:](https://huggingface.co/papers/2306.05685)), ([HTML](https://browse.arxiv.org/html/2306.05685v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2306.05685v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2306.05685)), ([SS](https://api.semanticscholar.org/arXiv:2306.05685)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/judging-llm-as-a-judge-with-mt-bench-and-1)), ([SS](https://www.semanticscholar.org/paper/Judging-LLM-as-a-judge-with-MT-Bench-and-Chatbot-Zheng-Chiang/a0a79dad89857a96f8f71b14238e5237cbfc4787)), ([:octocat:](https://github.com/lm-sys/fastchat)![GitHub Repo stars](https://img.shields.io/github/stars/lm-sys/fastchat?style=social))
  * 6/8 - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark for Finance ([:x:](https://arxiv.org/abs/2306.05443)), ([:book:](https://browse.arxiv.org/pdf/2306.05443.pdf)), ([:paperclip:](https://arxiv.org/pdf/2306.05443.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2306.05443)), ([:house:](https://huggingface.co/papers/2306.05443)), ([HTML](https://browse.arxiv.org/html/2306.05443v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2306.05443v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2306.05443)), ([SS](https://api.semanticscholar.org/arXiv:2306.05443)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/pixiu-a-large-language-model-instruction-data)), ([SS](https://www.semanticscholar.org/paper/PIXIU%3A-A-Large-Language-Model%2C-Instruction-Data-and-Xie-Han/109929be7890ef982fb3b6be0d78609cfab1ea13)), ([:octocat:](https://github.com/chancefocus/pixiu)![GitHub Repo stars](https://img.shields.io/github/stars/chancefocus/pixiu?style=social))
  * 6/8 - Artificial General Intelligence for Medical Imaging ([:x:](https://arxiv.org/abs/2306.05480)), ([:book:](https://browse.arxiv.org/pdf/2306.05480.pdf)), ([:paperclip:](https://arxiv.org/pdf/2306.05480.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2306.05480)), ([:house:](https://huggingface.co/papers/2306.05480)), ([HTML](https://browse.arxiv.org/html/2306.05480v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2306.05480v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2306.05480)), ([SS](https://api.semanticscholar.org/arXiv:2306.05480)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/artificial-general-intelligence-for-medical)), ([SS](https://www.semanticscholar.org/paper/Artificial-General-Intelligence-for-Medical-Imaging-Li-Zhang/d818f40ea693a335e02f32dab520351d271c58bf))
  * 6/7 - The Two Word Test: A Semantic Benchmark for Large Language Models ([:x:](https://arxiv.org/abs/2306.04610)), ([:book:](https://browse.arxiv.org/pdf/2306.04610.pdf)), ([:paperclip:](https://arxiv.org/pdf/2306.04610.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2306.04610)), ([:house:](https://huggingface.co/papers/2306.04610)), ([HTML](https://browse.arxiv.org/html/2306.04610v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2306.04610v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2306.04610)), ([SS](https://api.semanticscholar.org/arXiv:2306.04610)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/the-two-word-test-a-semantic-benchmark-for)), ([SS](https://www.semanticscholar.org/paper/The-Two-Word-Test%3A-A-Semantic-Benchmark-for-Large-Riccardi-Desai/a4a7bb906df135107008e940aabfa42b43f621fd)), ([:octocat:](https://github.com/nickriccardi/two-word-test)![GitHub Repo stars](https://img.shields.io/github/stars/nickriccardi/two-word-test?style=social))
  * 6/5 - Transformative AGI by 2043 is <1% likely ([:x:](https://arxiv.org/abs/2306.02519)), ([:book:](https://browse.arxiv.org/pdf/2306.02519.pdf)), ([:paperclip:](https://arxiv.org/pdf/2306.02519.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2306.02519)), ([:house:](https://huggingface.co/papers/2306.02519)), ([HTML](https://browse.arxiv.org/html/2306.02519v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2306.02519v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2306.02519)), ([SS](https://api.semanticscholar.org/arXiv:2306.02519)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/transformative-agi-by-2043-is-1-likely)), ([SS](https://www.semanticscholar.org/paper/Transformative-AGI-by-2043-is-%3C1-likely-Allyn-Feuer-Sanders/d95331013f1df1c96bb4e5cbf9ab3bdf0ba2fe68))
  * 5/30 - GPT4Tools: Teaching Large Language Model to Use Tools via Self-instruction ([:x:](https://arxiv.org/abs/2305.18752)), ([:book:](https://browse.arxiv.org/pdf/2305.18752.pdf)), ([:paperclip:](https://arxiv.org/pdf/2305.18752.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2305.18752)), ([:house:](https://huggingface.co/papers/2305.18752)), ([HTML](https://browse.arxiv.org/html/2305.18752v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2305.18752v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2305.18752)), ([SS](https://api.semanticscholar.org/arXiv:2305.18752)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/gpt4tools-teaching-large-language-model-to)), ([SS](https://www.semanticscholar.org/paper/GPT4Tools%3A-Teaching-Large-Language-Model-to-Use-via-Yang-Song/b458fc5261595f44b36325e5eaea1f874d65138f)), ([:octocat:](https://github.com/stevengrove/gpt4tools)![GitHub Repo stars](https://img.shields.io/github/stars/stevengrove/gpt4tools?style=social))
  * 5/28 - Managing the risks of artificial general intelligence: A human factors and ergonomics perspective ([:x:](https://onlinelibrary.wiley.com/doi/10.1002/hfm.20996 )) , ([SS](https://www.semanticscholar.org/paper/Managing-the-risks-of-artificial-general-A-human-Salmon-Baber/ce70f576c80602ba707a1249043d8c4173e3f15c))
  * 5/26 - AGI labs need an internal audit function ([:x:](https://arxiv.org/abs/2305.17038)), ([:book:](https://browse.arxiv.org/pdf/2305.17038.pdf)), ([:paperclip:](https://arxiv.org/pdf/2305.17038.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2305.17038)), ([:house:](https://huggingface.co/papers/2305.17038)), ([HTML](https://browse.arxiv.org/html/2305.17038v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2305.17038v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2305.17038)), ([SS](https://api.semanticscholar.org/arXiv:2305.17038)), ([SS](https://www.semanticscholar.org/paper/AGI-labs-need-an-internal-audit-function-Schuett/4ca5746de709c94e878c4b4e6cb40d4f43b3427c))
  * 05/25 - **Role-Play with Large Language Models** ([:x:](https://arxiv.org/abs/2305.16367)), ([:book:](https://browse.arxiv.org/pdf/2305.16367.pdf)), ([:paperclip:](https://arxiv.org/pdf/2305.16367.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2305.16367)), ([:house:](https://huggingface.co/papers/2305.16367)), ([HTML](https://browse.arxiv.org/html/2305.16367v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2305.16367)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2305.16367v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2305.16367)), ([SS](https://api.semanticscholar.org/arXiv:2305.16367)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/role-play-with-large-language-models))
  * 5/23 - LLM-Eval: Unified Multi-Dimensional Automatic Evaluation for Open-Domain Conversations with Large Language Models ([:x:](https://arxiv.org/abs/2305.13711)), ([:book:](https://browse.arxiv.org/pdf/2305.13711.pdf)), ([:paperclip:](https://arxiv.org/pdf/2305.13711.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2305.13711)), ([:house:](https://huggingface.co/papers/2305.13711)), ([HTML](https://browse.arxiv.org/html/2305.13711v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2305.13711v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2305.13711)), ([SS](https://api.semanticscholar.org/arXiv:2305.13711)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/llm-eval-unified-multi-dimensional-automatic)), ([SS](https://www.semanticscholar.org/paper/LLM-Eval%3A-Unified-Multi-Dimensional-Automatic-for-Lin-Chen/4f480bae3196dbbc27ab383bce33478ea963f9b3))
  * 5/22 - Reflective Linguistic Programming (RLP): A Stepping Stone in Socially-Aware AGI (SocialAGI) ([:x:](https://arxiv.org/abs/2305.12647)), ([:book:](https://browse.arxiv.org/pdf/2305.12647.pdf)), ([:paperclip:](https://arxiv.org/pdf/2305.12647.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2305.12647)), ([:house:](https://huggingface.co/papers/2305.12647)), ([HTML](https://browse.arxiv.org/html/2305.12647v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2305.12647v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2305.12647)), ([SS](https://api.semanticscholar.org/arXiv:2305.12647)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/reflective-linguistic-programming-rlp-a)), ([SS](https://www.semanticscholar.org/paper/Reflective-Linguistic-Programming-(RLP)%3A-A-Stepping-Fischer/2b11fd27740a75eeff3b6bf2e02684427aa30385))
  * 5/14 - A Comprehensive Survey on Segment Anything Model for Vision and Beyond ([:x:](https://arxiv.org/abs/2305.08196)), ([:book:](https://browse.arxiv.org/pdf/2305.08196.pdf)), ([:paperclip:](https://arxiv.org/pdf/2305.08196.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2305.08196)), ([:house:](https://huggingface.co/papers/2305.08196)), ([HTML](https://browse.arxiv.org/html/2305.08196v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2305.08196v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2305.08196)), ([SS](https://api.semanticscholar.org/arXiv:2305.08196)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/a-comprehensive-survey-on-segment-anything)), ([SS](https://www.semanticscholar.org/paper/A-Comprehensive-Survey-on-Segment-Anything-Model-Zhang-Liu/1856bebc4cb35e68368d9c83bd2ac2d26cd4bcfa)), ([:octocat:](https://github.com/liliu-avril/Awesome-Segment-Anything)![GitHub Repo stars](https://img.shields.io/github/stars/liliu-avril/Awesome-Segment-Anything?style=social))
  * 5/11 - Towards best practices in AGI safety and governance: A survey of expert opinion ([:x:](https://arxiv.org/abs/2305.07153)), ([:book:](https://browse.arxiv.org/pdf/2305.07153.pdf)), ([:paperclip:](https://arxiv.org/pdf/2305.07153.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2305.07153)), ([:house:](https://huggingface.co/papers/2305.07153)), ([HTML](https://browse.arxiv.org/html/2305.07153v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2305.07153v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2305.07153)), ([SS](https://api.semanticscholar.org/arXiv:2305.07153)), ([SS](https://www.semanticscholar.org/paper/Towards-best-practices-in-AGI-safety-and-A-survey-Schuett-Dreksler/c387a3999113f3f8bcf26681d95cf0f4313f64f4))
  * 5/4 - Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision ([:x:](https://arxiv.org/abs/2305.03047)), ([:book:](https://browse.arxiv.org/pdf/2305.03047.pdf)), ([:paperclip:](https://arxiv.org/pdf/2305.03047.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2305.03047)), ([:house:](https://huggingface.co/papers/2305.03047)), ([HTML](https://browse.arxiv.org/html/2305.03047v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2305.03047v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2305.03047)), ([SS](https://api.semanticscholar.org/arXiv:2305.03047)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/principle-driven-self-alignment-of-language-1)), ([SS](https://www.semanticscholar.org/paper/Principle-Driven-Self-Alignment-of-Language-Models-Sun-Shen/e01515c6138bc525f7aec30fc85f2adf028d4156)), ([:octocat:](https://github.com/IBM/Dromedary)![GitHub Repo stars](https://img.shields.io/github/stars/IBM/Dromedary?style=social))
  * 4/26 - Towards Medical Artificial General Intelligence via Knowledge-Enhanced Multimodal Pretraining ([:x:](https://arxiv.org/abs/2304.14204)), ([:book:](https://browse.arxiv.org/pdf/2304.14204.pdf)), ([:paperclip:](https://arxiv.org/pdf/2304.14204.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2304.14204)), ([:house:](https://huggingface.co/papers/2304.14204)), ([HTML](https://browse.arxiv.org/html/2304.14204v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2304.14204v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2304.14204)), ([SS](https://api.semanticscholar.org/arXiv:2304.14204)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/towards-medical-artificial-general)), ([SS](https://www.semanticscholar.org/paper/Towards-Medical-Artificial-General-Intelligence-via-Lin-Chen/ac4d13b6a4f9fb67337099f4602135a0351f5c99)), ([:octocat:](https://github.com/chenzcv7/motor)![GitHub Repo stars](https://img.shields.io/github/stars/chenzcv7/motor?style=social))
  * 4/19 - Fundamental Limitations of Alignment in Large Language Models ([:x:](https://arxiv.org/abs/2304.11082)), ([:book:](https://browse.arxiv.org/pdf/2304.11082.pdf)), ([:paperclip:](https://arxiv.org/pdf/2304.11082.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2304.11082)), ([:house:](https://huggingface.co/papers/2304.11082)), ([HTML](https://browse.arxiv.org/html/2304.11082v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2304.11082v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2304.11082)), ([SS](https://api.semanticscholar.org/arXiv:2304.11082)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/fundamental-limitations-of-alignment-in-large)), ([SS](https://www.semanticscholar.org/paper/Fundamental-Limitations-of-Alignment-in-Large-Wolf-Wies/dbac86036cb5ed4dd6bbdda4a8613b163e20ec90))
  * 4/13 - AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models ([:x:](https://arxiv.org/abs/2304.06364)), ([:book:](https://browse.arxiv.org/pdf/2304.06364.pdf)), ([:paperclip:](https://arxiv.org/pdf/2304.06364.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2304.06364)), ([:house:](https://huggingface.co/papers/2304.06364)), ([HTML](https://browse.arxiv.org/html/2304.06364v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2304.06364v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2304.06364)), ([SS](https://api.semanticscholar.org/arXiv:2304.06364)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/agieval-a-human-centric-benchmark-for)), ([SS](https://www.semanticscholar.org/paper/AGIEval%3A-A-Human-Centric-Benchmark-for-Evaluating-Zhong-Cui/68c834c19cd126bbd6d25a3572d7205cfed76271)), ([:octocat:](https://github.com/ruixiangcui/agieval)![GitHub Repo stars](https://img.shields.io/github/stars/ruixiangcui/agieval?style=social))
  * 4/10 - OpenAGI: When LLM Meets Domain Experts ([:x:](https://arxiv.org/abs/2304.04370)), ([:book:](https://browse.arxiv.org/pdf/2304.04370.pdf)), ([:paperclip:](https://arxiv.org/pdf/2304.04370.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2304.04370)), ([:house:](https://huggingface.co/papers/2304.04370)), ([HTML](https://browse.arxiv.org/html/2304.04370v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2304.04370v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2304.04370)), ([SS](https://api.semanticscholar.org/arXiv:2304.04370)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/openagi-when-llm-meets-domain-experts)), ([SS](https://www.semanticscholar.org/paper/OpenAGI%3A-When-LLM-Meets-Domain-Experts-Ge-Hua/38179848e2d6a3ad373b1793848816111428ac36)), ([:octocat:](https://github.com/agiresearch/OpenAGI)![GitHub Repo stars](https://img.shields.io/github/stars/agiresearch/OpenAGI?style=social))
  * 4/4 - One Small Step for Generative AI, One Giant Leap for AGI: A Complete Survey on ChatGPT in AIGC Era ([:x:](https://arxiv.org/abs/2304.06488)), ([:book:](https://browse.arxiv.org/pdf/2304.06488.pdf)), ([:paperclip:](https://arxiv.org/pdf/2304.06488.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2304.06488)), ([:house:](https://huggingface.co/papers/2304.06488)), ([HTML](https://browse.arxiv.org/html/2304.06488v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2304.06488v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2304.06488)), ([SS](https://api.semanticscholar.org/arXiv:2304.06488)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/one-small-step-for-generative-ai-one-giant)), ([SS](https://www.semanticscholar.org/paper/One-Small-Step-for-Generative-AI%2C-One-Giant-Leap-A-Zhang-Zhang/4de290467d903b9977e31b3d4084006789bd6ebd))
  * 3/2 - Sparks of Artificial General Intelligence: Early experiments with GPT-4 ([:x:](https://arxiv.org/abs/2303.12712)), ([:book:](https://browse.arxiv.org/pdf/2303.12712.pdf)), ([:paperclip:](https://arxiv.org/pdf/2303.12712.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2303.12712)), ([:house:](https://huggingface.co/papers/2303.12712)), ([HTML](https://browse.arxiv.org/html/2303.12712v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2303.12712v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2303.12712)), ([SS](https://api.semanticscholar.org/arXiv:2303.12712)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/sparks-of-artificial-general-intelligence)), ([SS](https://www.semanticscholar.org/paper/Sparks-of-Artificial-General-Intelligence%3A-Early-Bubeck-Chandrasekaran/574beee702be3856d60aa482ec725168fe64fc99)), ([:octocat:](https://github.com/microsoft/guidance)![GitHub Repo stars](https://img.shields.io/github/stars/microsoft/guidance?style=social))
  * 2/18 - A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT ([:x:](https://arxiv.org/abs/2302.09419)), ([:book:](https://browse.arxiv.org/pdf/2302.09419.pdf)), ([:paperclip:](https://arxiv.org/pdf/2302.09419.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2302.09419)), ([:house:](https://huggingface.co/papers/2302.09419)), ([HTML](https://browse.arxiv.org/html/2302.09419v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2302.09419v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2302.09419)), ([SS](https://api.semanticscholar.org/arXiv:2302.09419)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/a-comprehensive-survey-on-pretrained)), ([SS](https://www.semanticscholar.org/paper/A-Comprehensive-Survey-on-Pretrained-Foundation-A-Zhou-Li/3599a236f285af48782fc30b1341d13ec7320735))
  * 2/13 - An Empirical Evaluation of Using Large Language Models for Automated Unit Test Generation ([:x:](https://arxiv.org/abs/2302.06527)), ([:book:](https://browse.arxiv.org/pdf/2302.06527.pdf)), ([:paperclip:](https://arxiv.org/pdf/2302.06527.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2302.06527)), ([:house:](https://huggingface.co/papers/2302.06527)), ([HTML](https://browse.arxiv.org/html/2302.06527v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2302.06527v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2302.06527)), ([SS](https://api.semanticscholar.org/arXiv:2302.06527)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/adaptive-test-generation-using-a-large)), ([SS](https://www.semanticscholar.org/paper/An-Empirical-Evaluation-of-Using-Large-Language-for-Sch%C3%A4fer-Nadi/4e3c65511292a800b17be6653bd057e7a545a0b0)), ([:octocat:](https://github.com/githubnext/testpilot)![GitHub Repo stars](https://img.shields.io/github/stars/githubnext/testpilot?style=social))

### 2022

  * 12/20 - Benchmarking Spatial Relationships in Text-to-Image Generation ([:x:](https://arxiv.org/abs/2212.10015)), ([:book:](https://browse.arxiv.org/pdf/2212.10015.pdf)), ([:paperclip:](https://arxiv.org/pdf/2212.10015.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2212.10015)), ([:house:](https://huggingface.co/papers/2212.10015)), ([HTML](https://browse.arxiv.org/html/2212.10015v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2212.10015v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2212.10015)), ([SS](https://api.semanticscholar.org/arXiv:2212.10015)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/benchmarking-spatial-relationships-in-text-to)), ([SS](https://www.semanticscholar.org/paper/Benchmarking-Spatial-Relationships-in-Text-to-Image-Gokhale-Palangi/4bf77d64b860ed0cd84a63aecd92a3cb295b88ee)), ([:octocat:](https://github.com/microsoft/VISOR)![GitHub Repo stars](https://img.shields.io/github/stars/microsoft/VISOR?style=social))
2020
  * 11/12 - A Survey of Artificial General Intelligence Projects for Ethics, Risk, and Policy ([:x:](https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3070741)) , ([SS](https://www.semanticscholar.org/paper/A-Survey-of-Artificial-General-Intelligence-for-and-Baum/8e6a7ecdb5a4b419d31b6b2225f07c56d4f71910))
2016
  * 4/5 - Evaluation of General-Purpose Artificial Intelligence : Why , What & How ([:x:](https://alumni.media.mit.edu/~kris/ftp/EGPAI_2016_paper_9.pdf )) , ([SS](https://www.semanticscholar.org/paper/Evaluation-of-General-Purpose-Artificial-%3A-Why-%2C-%26-Bieger-Th%C3%B3risson/4e0189629d0041890e8dc602886c72a12692cd3a))
  * 4/2 - The AGI Containment Problem ([:x:](https://arxiv.org/abs/1604.00545)), ([:book:](https://browse.arxiv.org/pdf/1604.00545.pdf)), ([:paperclip:](https://arxiv.org/pdf/1604.00545.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/1604.00545)), ([:house:](https://huggingface.co/papers/1604.00545)), ([HTML](https://browse.arxiv.org/html/1604.00545v1)), ([SP](https://www.summarizepaper.com/en/arxiv-id/1604.00545v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=1604.00545)), ([SS](https://api.semanticscholar.org/arXiv:1604.00545)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/the-agi-containment-problem)), ([SS](https://www.semanticscholar.org/paper/Artificial-General-Intelligence-Babcock-Kram%C3%A1r/fa794a84f08546a630cfd90b0b1d5efd532fd112))
  * 2/19 - Additional Comments on the “White Paper: On Artificial Intelligence - A European approach to excellence and trust” ([:x:](https://futureoflife.org/wp-content/uploads/2020/10/Future-of-Life-Institute-_-Additional-Comments-on-European-Commision-White-Paper-on-AI-.pdf)) , ([SS](https://www.semanticscholar.org/paper/Additional-Comments-on-the-%E2%80%9CWhite-Paper%3A-On-A-to/b24b06069392197c5835983f4aba41853fbc1b62))
2017

### 2021

  * 02/15 - **Prompt Programming for Large Language Models: Beyond the Few-Shot Paradigm** ([:x:](https://arxiv.org/abs/2102.07350)), ([:book:](https://browse.arxiv.org/pdf/2102.07350.pdf)), ([:paperclip:](https://arxiv.org/pdf/2102.07350.pdf)),  ([:orange_book:](https://www.arxiv-vanity.com/papers/2102.07350)), ([:house:](https://huggingface.co/papers/2102.07350)), ([HTML](https://browse.arxiv.org/html/2102.07350v1)), ([SL](https://arxiv-sanity-lite.com/?rank=pid&pid=2102.07350)), ([SP](https://www.summarizepaper.com/en/arxiv-id/2102.07350v1/)), ([GS](https://scholar.google.com/scholar_lookup?arxiv_id=2102.07350)), ([SS](https://api.semanticscholar.org/arXiv:2102.07350)), ([:eight_spoked_asterisk:](https://paperswithcode.com/paper/prompt-programming-for-large-language-models))

### 2014

  * 12/30 - Artificial General Intelligence: Concept, State of the Art, and Future Prospects ([:x:](https://sciendo.com/article/10.2478/jagi-2014-0001)) , ([SS](https://www.semanticscholar.org/paper/Artificial-General-Intelligence%3A-Concept%2C-State-of-Goertzel/5c41252db73e543bc6a4935e5743f6a85055d191))


## Additional Links
* [Awesome Korean LLM](https://github.com/NomaDamas/awesome-korean-llm)
* [Awesome-LLMOps](https://github.com/tensorchord/Awesome-LLMOps)![GitHub Repo stars](https://img.shields.io/github/stars/tensorchord/Awesome-LLMOps?style=social)
* [Language Model Evaluation Harness](https://github.com/EleutherAI/lm-evaluation-harness)![GitHub Repo stars](https://img.shields.io/github/stars/EleutherAI/lm-evaluation-harness?style=social)
* [A collection of papers and resources related to evaluations on large language models](https://github.com/MLGroupJLU/LLM-eval-survey)![GitHub Repo stars](https://img.shields.io/github/stars/Jianing-Qiu//MLGroupJLU/LLM-eval-survey?style=social)
* [Awesome-Healthcare-Foundation-Models](https://github.com/Jianing-Qiu/Awesome-Healthcare-Foundation-Models)![GitHub Repo stars](https://img.shields.io/github/stars/Jianing-Qiu/Awesome-Healthcare-Foundation-Models?style=social)
* [LLM-evaluation](https://github.com/Hannibal046/Awesome-LLM/blob/main/paper_list/evaluation.md)
* [Awesome-LLM](https://github.com/Hannibal046/Awesome-LLM)![GitHub Repo stars](https://img.shields.io/github/stars/Hannibal046/Awesome-LLM?style=social)
* [Examples and guides for using the OpenAI API](https://github.com/openai/openai-cookbook)![GitHub Repo stars](https://img.shields.io/github/stars/openai/openai-cookbook?style=social)
* [Ultimate-Awesome-Transformer-Attention](https://github.com/cmhungsteve/Awesome-Transformer-Attention)![GitHub Repo stars](https://img.shields.io/github/stars/cmhungsteve/Awesome-Transformer-Attention?style=social)
* [Awesome Segment Anything](https://github.com/Hedlen/awesome-segment-anything)![GitHub Repo stars](https://img.shields.io/github/stars/Hedlen/awesome-segment-anything?style=social)
* [Segment Anything Model (SAM) for Medical Image Segmentation](https://github.com/YichiZhang98/SAM4MIS)![GitHub Repo stars](https://img.shields.io/github/stars/YichiZhang98/SAM4MIS?style=social)
* [GPT-4登場以降に出てきたChatGPT/LLMに関する論文や技術の振り返り](https://blog.brainpad.co.jp/entry/2023/06/05/153034) 
* [LLM Collection](https://www.promptingguide.ai/models/collection)
* [🤗 Open LLM Leaderboard](https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard)
* [AI Incident Database](https://incidentdatabase.ai/)
* [Daily papers by AK](https://huggingface.co/papers)
* [Awesome-Generative-RecSys](https://github.com/jihoo-kim/Awesome-Generative-RecSys)![GitHub Repo stars](https://img.shields.io/github/stars/jihoo-kim/Awesome-Generative-RecSys?style=social) - A curated list of Generative Recommender Systems (Paper & Code)
* [Prompt Engineering Guide](https://www.promptingguide.ai/) - [papers](https://www.promptingguide.ai/papers) - [:octocat:](https://github.com/dair-ai/Prompt-Engineering-Guide)![GitHub Repo stars](https://img.shields.io/github/stars/dair-ai/Prompt-Engineering-Guide?style=social)
* [awesome-ChatGPT-repositories](https://github.com/taishi-i/awesome-ChatGPT-repositories)![GitHub Repo stars](https://img.shields.io/github/stars/taishi-i/awesome-ChatGPT-repositories?style=social) 
* [The Rundown](https://www.therundown.ai/)
* [WEEKLY PAPERS](https://papers.labml.ai/papers/weekly)
* [Primo.ai LLM wiki](https://primo.ai/index.php?title=Large_Language_Model_(LLM))
* [ML Papers of the Week](https://github.com/dair-ai/ML-Papers-of-the-Week)![GitHub Repo stars](https://img.shields.io/github/stars/dair-ai/ML-Papers-of-the-Week?style=social)
* [CS 324 - Advances in Foundation Models](https://stanford-cs324.github.io/winter2023/)
* [ML timeline](https://github.com/osanseviero/ml_timeline)![GitHub Repo stars](https://img.shields.io/github/stars/osanseviero/ml_timeline?style=social)
* [ChatGPT Timeline](https://timelines.issarice.com/wiki/Timeline_of_ChatGPT)
* [OpenAI Timeline](https://www.jointjs.com/demos/chatgpt-timeline)
* [LLM Explained: The LLM Training Landscape](https://liu-gendary.medium.com/llm-explained-the-llm-training-landscape)