Skip to content

SignalA_up 提供了用于分析上市公司临时公告的模型和函数,包括不同的大语言模型(LLM)、嵌入(embedding)方法、测试模型和辅助工具(如OpenAI API的本地调用。

Notifications You must be signed in to change notification settings

Anotherlynn/SignalA_up

Repository files navigation

SignalA_up

Build Status

SignalA_up 提供了用于分析上市公司临时公告的模型和函数,包括不同的大语言模型(LLM)、嵌入(embedding)方法、测试模型和辅助工具(如OpenAI API的本地调用)。

您可以在这里找到使用示例。

安装

创建虚拟环境(可选)

注意:在开始部署前,强烈建议使用 python3.10 或 python3.9 创建虚拟环境,以免干扰原始环境。

要启动或停止虚拟环境,可以使用 conda 命令

conda create -n your_env_name python=3.10

要启动或停用虚拟环境,可以使用: 在 Linux 上

source activate your_env_nam
# 要停止:
source deactivate

在 Windows 上

source activate your_env_nam
# 要停止:
source deactivate

构建文档

要使用这些工具,需要安装所需版本的软件包:

cd proj/
conda install -n your_env_nam requirements.txt # 或 pip install -r requirements.txt

开始使用

如果已经有数据集,输入文件应该是一个表格,列值的格式与SQL数据库的输出格式匹配: [[InnerCode]、[SecuCode]、[BulletinDate]、[InsertDate(数据入库的时间)]、[InfoTitle]、[Detail]] ; 如果没有,请参考 get_word_cloud.py 进行数据抓取。

示例


示例1:LDA训练结果(gensim)
# LDA0713_临时股东大会前十主题及主题词
Topic #0: 简易程序 特定 法律 意见书 特定 董事会 办理 对象 发行股票 提请 授权 提请 授权 董事会  授权
Topic #1: 事务所 律师 法律 意见书 见证 决议 会议 资料 通知 更正
Topic #2: 法律 集团股份 意见书 律师事务所 取消 部分 事务所 集团股份 法律 议案 会议 资料
Topic #3: 会议材料 董事会 全权 办理 法律意见书 见证 通知 更正 授权 
Topic #4: 会议材料 发行上市 法律意见书 本次发行 本次发行上市 会议决议 会议资料 通知 更正 上市决议 法律意见
Topic #5: 律师事务所 法律意见书 集团股份 集团股份 会议资料 法律意见
Topic #6: 法律意见书 集团股份 法律意见书 新材料股份有限公司 法律 集团股份
Topic #7: 大会决议 有效期 法律意见书 提案 补充 通知 增加提案 特定对象
Topic #8: 类别 会议 股东会 会议材料 h股 法律意见书 会议资料 a股 法律意见
Topic #9: 律师事务所 会议材料 出版 传媒股份有限公司 法律 意见书 律师事务所 会议资料

示例2:多标签-多输出Xgboost分类器+穷举搜索最优(GridSearch-Multioutput(XGB(learning_rate=0.1,max_depth=3,min_child_weight:=6,min_samples_leaf=30,reg_alpha=0.1))
Best score on test set:0.552
Best beta on test set:1.0
Best parameters set:   
      learning_rate: 0.1
      max_depth: 3
      min_child_weight: 6
      min_samples_leaf: 30
      reg_alpha: 0.1

---------------------分红---------------------------------------------
            precision    recall  f1-score   support
         0       0.99      1.00      0.99       949
         1       0.97      0.69      0.81        42

  accuracy                           0.99       991
 macro avg       0.98      0.84      0.90       991
weighted avg       0.99      0.99      0.98       991


……

---------------------诉讼案件---------------------------------------------
              precision    recall  f1-score   support
           0       0.99      1.00      1.00       978
           1       1.00      0.38      0.56        13
    accuracy                           0.99       991
   macro avg       1.00      0.69      0.78       991
weighted avg       0.99      0.99      0.99       991

The F1 Micro Score is: 0.59
The F1 Macro Score (Unweighted average) is: 0.56
The F1_Beta Score is:  0.56
ROC AUC 分红: 0.8447
ROC AUC 股东大会决议: 0.8035
……
ROC AUC 诉讼案件: 0.6923

示例3:三种匹配对象的PSM结果对比

现金管理_20_三种基准对比PSM

                  precision    recall  f1-score   support
    
               0       0.93      1.00      0.96       894
               1       0.92      0.36      0.52        97
    
        accuracy                           0.93       991
       macro avg       0.93      0.68      0.74       991
    weighted avg       0.93      0.93      0.92       991

现金管理



资产重组_20_三种基准对比PSM

                  precision    recall  f1-score   support
    
               0       0.87      0.97      0.92       790
               1       0.78      0.42      0.54       201
    
        accuracy                           0.86       991
       macro avg       0.82      0.69      0.73       991
    weighted avg       0.85      0.86      0.84       991

资产重组



业绩预告_20_三种基准对比PSM

                  precision    recall  f1-score   support
    
               0       0.93      0.99      0.96       883
               1       0.85      0.44      0.58       108
    
        accuracy                           0.93       991
       macro avg       0.89      0.71      0.77       991
    weighted avg       0.93      0.93      0.92       991

业绩预告



诉讼案件_20_三种基准对比PSM

                  precision    recall  f1-score   support
    
               0       0.99      1.00      1.00       978
               1       1.00      0.38      0.56        13
    
        accuracy                           0.99       991
       macro avg       1.00      0.69      0.78       991
    weighted avg       0.99      0.99      0.99       991

诉讼案件



会计政策变更_20_三种基准对比PSM

                  precision    recall  f1-score   support
    
               0       0.92      0.99      0.96       893
               1       0.74      0.23      0.36        98
    
        accuracy                           0.92       991
       macro avg       0.83      0.61      0.66       991
    weighted avg       0.90      0.92      0.90       991

会计政策变更

补充信息

  1. 数据:2023年上半年公司临时公告(以交易所发布为主) JYDB(当天或一天内更新)
    • 举例:"募集资金永久改道补充流动资金":公司终止募集项目,资金不受监管约束->利空事件 (38/5000)


2. [《江化微:江阴江化微电子材料股份有限公司关于使用部分闲置募集资金进行现金管理到期赎回的公告》](./603078_20230324_IC35.pdf)

4. 逻辑

构建思路



4. 事件标签:(人工打标 200+官方文件)24->15
临时公告事件 临时公告事件 临时公告事件
分红 股东大会决议 资产重组
业绩预告 持股变动 再融资
股权激励 交易所公开信息 关联交易
退市风险 新项目开展 担保
会计政策变更 人员聘请 现金管理
变更信息 IPO 审计保留意见
异常波动 变更信息 内部控制


  1. 样本数据格式:


后续要做

  1. 数据源的扩充

    • 稀疏的临时公告--> 加入公司新闻+行业新闻+股吧文本
    • 示例:E9920BF4-9460-4ce7-9F59-1258E6012EBF.png
    • 添加白噪声
  2. 标签的细化

  3. NLP技术

    • 文本相似度
    • 专门的语料+停词(根据训练数据循环生产)
  4. 大语言模型对于上下文的理解(慢,确定有效性后进行)

    • Roberta_chinese
    • 哈工大讯飞联合实验室发布的 Bert-wwm-ext 和 Roberta-wwm-ext
  5. 大语言模型+后处理(规则模型

About

SignalA_up 提供了用于分析上市公司临时公告的模型和函数,包括不同的大语言模型(LLM)、嵌入(embedding)方法、测试模型和辅助工具(如OpenAI API的本地调用。

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published