Feat/update llm schema #45

igoromote · 2023-07-18T16:49:38Z

☕ Purpose

A brief summary about the purpose of this PR.

🧐 Checklist

A feature that will work with this PR
A feature that I'm still working on

🐞 Testing

A brief description about how the reviewer can test my PR.

# don't forget to insert cli commands

🍩 Further details

Anything that the reviewer should know before approving it.

🔗 Related PRs

This PR is related to some other PRs in different services, they are:

project#PR_NUMBER

danilo-valente · 2023-07-19T00:31:32Z

warehouse/models/data_marts/okr/staging/stg_llm__open_ai_completion_status.sql

 createdat :: timestamp as created_at,
- referenceid as reference_id,
+ referenceid :: uuid as reference_id,


É uma convenção colocar o ID do KR nesse campo na sumarização, mas não é uma constraint. Ou seja, pode ser que outros casos de uso do LLM (ou até esse mesmo caso) no futuro salvem dados em outros formatos aqui. Recomendo manter o referenceId :: text.

Entendi, mas me parece estranho não termos uma convenção de usar a mesma tecnologia para criação de id's.
Vou alterar aqui para ser o mais genérico possível.
Depois vou estudar um pouco boas práticas, pq quando esse momento chegar nessa tabela (de termos id's que não são uuid), minha vontade é separar nas dimensions e refazer o casting para uuid lá

Exemplo:
action: X1, entity: Y1, id: uuid -> criar uma dim__llm_actionX1_entityY1 -> fazer casting com uuid
action: X2, entity: Y2, id: mongoid -> criar uma dim__llm_actionX2_entityY2 -> fazer casting para text

Só que não sei se é best practice, mas funciona.

É que este é um caso de ID diferente de uma chave primária, mas também é normal existirem diferentes tipos de ID em uma mesma aplicação, porque esse formato também atende a um caso de uso (ex: UUID vs Snowflake tem aplicações diferentes).

De resto, o que você propôs parece fazer sentido sim e é mais ou menos a ideia que eu tinha para lidar com estes casos. Dentro do domínio de OpenAiCompletion, o referenceId é genérico por design. Porém, dentro de cada subdomínio ele segue uma convenção específica, então é perfeitamente válido tratar isso para análises que contemplem o escopo action-entity. Tudo é uma questão de caso de uso e, para cada um deles, podemos criar as abstrações que precisarmos.

danilo-valente · 2023-07-19T00:57:47Z

warehouse/models/data_marts/okr/staging/stg_llm__open_ai_completion_status.sql

 ),

 final as (
 select
- SPLIT_PART(id, '.', 3) :: text as id,
- input,
+ SPLIT_PART(id, '.', 3) :: uuid as id,


Não sei se eu entendi o motivo de você estar fazendo isso, mas acho que rolou uma confusão sobre o formato do id. As duas primeiras partes dele são a action e a entity, mas a terceira não é um UUID. Na verdade, é um hash calculado a partir do input/prompt da completion em questão, e ele é construído dessa forma para garantir idempotência de uma forma fácil e rápida.

Além disso, recentemente eu adicionei a versão do prompt no final usando o formato @<version>.<patch>, então talvez quebre essa função. Fiz isso para garantir que uma completion vai ser gerada novamente quando uma nova versão do prompt é liberada.

Resumindo, o formato do id é:

id = `${action}.${entity}.${objectHash(input)}@${promptVersion}` // Exemplo id = '[email protected]'

Sendo assim, recomendo manter o mapeamento dessa coluna "as is" (em text e sem split), pois não vai ter nenhuma informação muito útil que pode ser extraída dele a não ser o id em si.

Mas, se realmente for necessário ter IDs em formato UUID, recomendo que você faça uma conversão utilizando o UUID v5 e um namespace fixo qualquer (ex: 00000000-0000-0000-0000-000000000000):

https://stackoverflow.com/a/28776880/1378681

https://www.uuidtools.com/v5

Got it, vlw pela explicação!

igoromote added 2 commits July 18, 2023 10:47

fix(schema): update schema columns names and source

afe4c7d

fix(dim): casting columns and add messages column

e3df529

igoromote requested a review from danilo-valente July 18, 2023 16:49

danilo-valente requested changes Jul 19, 2023

View reviewed changes

fix(stg): casting llm columns

ebad845

igoromote force-pushed the feat/update_llm_schema branch from bb2b4dc to ebad845 Compare July 19, 2023 12:24

igoromote requested a review from danilo-valente July 19, 2023 12:24

danilo-valente approved these changes Jul 20, 2023

View reviewed changes

igoromote merged commit 0f36c3a into main Jul 20, 2023

igoromote deleted the feat/update_llm_schema branch July 20, 2023 14:05

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Feat/update llm schema #45

Feat/update llm schema #45

igoromote commented Jul 18, 2023

danilo-valente Jul 19, 2023

igoromote Jul 19, 2023

danilo-valente Jul 20, 2023

danilo-valente Jul 19, 2023

danilo-valente Jul 19, 2023

igoromote Jul 19, 2023

Feat/update llm schema #45

Feat/update llm schema #45

Conversation

igoromote commented Jul 18, 2023

☕ Purpose

🧐 Checklist

🐞 Testing

🍩 Further details

🔗 Related PRs

danilo-valente Jul 19, 2023

Choose a reason for hiding this comment

igoromote Jul 19, 2023

Choose a reason for hiding this comment

danilo-valente Jul 20, 2023

Choose a reason for hiding this comment

danilo-valente Jul 19, 2023

Choose a reason for hiding this comment

danilo-valente Jul 19, 2023

Choose a reason for hiding this comment

igoromote Jul 19, 2023

Choose a reason for hiding this comment