-
OCRDetInternVL2 Public
OCR Large Multi-model Model,基于Internvl2微调OCR文字检测的多模态大模型,在4张A800上基于internvl2-8b模型微调。不仅在ocr文字检测任务上,在大多数的目标检测任务也是work的。
-
XrayLLama3.2Vision Public
Xray Large Multi-model Model,基于llama3.2-vision微调Xray的多模态大模型,在4张VA800上基于llama3_2-11b-vision-instruct模型微调。
-
OCRInternVL2 Public
OCR Large Multi-model Model,基于Internvl2微调OCR的多模态大模型,在4张A800上基于internvl2-8b模型微调。internvl2-8b在我们自测的ocr的vqa场景效果表现很好,我们再使用ocr数据微调之后,对于一般的ocr的vqa任务都能实现很好的效果。
-
-
-
EcommerceLLMQwen2.5 Public
基于电商数据微调的Qwen2.5系列的电商大模型,电商数据sft后电商大模型。是https://github.com/leeguandong/EcommerceLLM的升级版本。qwen2.5的效果很好。
-
-
-
leeguandong.github.io Public
Forked from jindongwang/jindongwang.github.ioPersonal website
JavaScript MIT License UpdatedSep 25, 2024 -
XrayQwen2VL Public
Xray Large Multi-model Model,基于Qwen2VL微调Xray的多模态大模型,在4张A800上基于qwen2-vl-7b-instruct模型微调。a large multi-modal model fine-tuned from Qwen2VL for X-ray analysis, trained on 4 A800 GPUs based on the qwen…
-
-
ComfyUI_CompareModelWeights Public
对比相同结构的stable diffusion的权重之间的偏差,主要用来直观的考量模型融合的权重之间的差异。
-
-
-
ComfyUI_VisualAttentionMap Public
对sd中text prompt和self-attention以及cross-attention时的特征图进行可视化。
-
ComfyUI_SelfGuidance Public
可以帮助锁定prompt中的特定对象在二次编辑中不被改变,对两次推理的crossattention map进行loss guidance。
-
ComfyUI_CrossImageAttention Public
CrossImageAttention是zero-shot方法,可以在制定外观图和结构的前提下,生成具有一致结构和外观的图,在qkv层面的工作。
-
ComfyUI_Style_Aligned Public
style_aligned,通过共享qkv的方式来zero shot得到相似图,风格一致图生成,reference方法。
-
ComfyUI_M3Net Public
comfyui的m3net插件,m3net是不错的显著性检测模型,抠图上效果不错,我开源了一个训练的电商的模型,供大家试玩
-
ComfyUI_VideoEditing Public
视频生成,controlnet+sd对输入视频进行一致性控制,对unet中的self-attention的qkv进行第一帧和前一帧参考。
-
ComfyUI_InternVL2 Public
comfyui的InternVL2插件,InternVL2是当前不错的开源多模态大语言模型,在文档vqa上表现很好
-
-
sd_webui_ZeST Public
ZeST是zero-shot的材质迁移模型,本质上是ip-adapter+controlnet+inpaint算法的组合,只是在输入到inpaint的图生图的图上做了一些改动,包括对image+mask的改动
-
sd_webui_instantid Public
Instantid在stable diffusion webui上的插件,instantid是风格迁移和换脸,脸部id信息保留的很好的选择。
-
EcommerceSD Public
电商场景的stable diffusion模型,包括电商大模型,lora组件和controlnet等一系列应用
-
-
MiniLLaMA3 Public
llama3的迷你版本,包括了从0-1构造数据,训练tokenizer,pt,sft,dpo的全流程
-
更好的离线翻译效果mBART-50,优于MarianMT,并且支持预设翻译词,内置了大量建筑单词。
-
-
EcommerceLLM Public
基于电商数据微调的Qwen1.5系列的电商大模型,包括0.5b-base,0.5b-chat,1.8b-base,7b-base,以及基于llama3-chinese-sft版本的基础模型的sft后电商大模型。