index.qmd

---
title: "Regressão Poisson e Binomial Negativa inflâcionada de **ZEROS!!!**"
author: "Thalis Rebouças e Robert Oliveira"
date: "19 Julho 2023"
format: 
  revealjs:
    logo: "images/logo.png"
    width: 1600
    height: 900
    self-contained: false
    incremental: false
    footer: "Slides por [Thalis e Robert](Thalisreboucas.com.br), feito em [Quarto](https://quarto.org/docs/presentations/revealjs/index.html). Código disponível [no GitHub](https://github.com/thalisreboucas/Regressao_poi_nb_infla_zeros)."
    theme: ["custom.scss"]
    slide-number: c/t
    show-slide-number: all
    hash-type: number
    preview-links: false
---

## Sumário de aprendizagem

Vamos explicar um pouco sobre

⬜ O que é o Regressão Poisson?

⬜ O que é o Regressão Binomial Negativa?

⬜ O que é o que é ser inflâcionada por zeros?

⬜ Aplicação no R!

⬜ Referência




# Vamos lá!

## Distribuição Poisson

```{r}

library(ggplot2)
lambdas <- c(2, 5, 10, 15)  # Valores diferentes de lambda

# Valores possíveis para o eixo x
x_values <- 0:30

# Cálculo das probabilidades para cada valor de lambda
poisson_probs <- sapply(lambdas, function(lambda) dpois(x_values, lambda))

# Criação do data frame para o gráfico
data <- data.frame(x = rep(x_values, length(lambdas)),
                   y = c(poisson_probs),
                   lambda = rep(lambdas, each = length(x_values)))

# Plot do gráfico
cores <- c("black", "lightblue", "gray10", "purple4")

ggplot(data, aes(x = as.factor(x), y = y, fill = as.factor(lambda))) +
  geom_bar(stat = "identity", position = "dodge") +
  labs(x = "Valores", y = "Probabilidades", fill = "Lambda") +
  scale_fill_manual(values = cores) + 
  ggtitle("Distribuição Poisson com Diferentes Valores de Lambda") +
  theme_minimal()

```



## Resumo sobre essa distribuição

Primeiro vamos da falar sobre distribuição poisson:

$$ f(x) = P(X=x) = \dfrac{e^{-\lambda}\lambda^x}{x!}I_{(0,\infty)}$$

- É utilizadas para dados que envolvem dados de contagem.

- É utilizada em dados discretos.

- Suporte de zero a infinito.

- A esperança é igual a variância ($\lambda$);Equidispersão.

- Soma $n$ v.a.s independetes de poisson lambda é igual a soma dos lambdas.

## Padrões em processos de contagem

- Equidisperssão (Var(Y) = E(Y)) *Padrão aleatório* 

- Subdispersão (Var(Y) < E(Y)) *Padrão Uniforme*

- Superdispersão (Var(Y) > E(Y)) *Padrão agragado*

## Caso especiais da Poisson

 - Temos uma distribuição binomial($n,\pi$) e caso o limite de n for para $\infty$ e $\pi$ tende a zero, com $\lambda = n\pi$ :
 
 $$
 \lim_{n \rightarrow \infty \ \ \pi \rightarrow 0} \left[ {n \choose k} 
 \left(\dfrac{\lambda}{n}\right)^k \left(1 - \dfrac{\lambda}{n}\right)^{n-k} \right] = \dfrac{e^\lambda\lambda^k}{k!}
 $$
 
 - Resultado do processo estocástico de Poisson, em que os eventos contados ocorrem
*aleatoriamente* ao longo do tempo, espaço ,etc.

# Regressão Poisson

## Definição 

- Modelo de regressão Poisson ou Log linear de Poisson é comumente utilizado em análise de dados de contagem.

- As pressuposições desse modelo é inerente a distribuição Poisson.


```{r}
# Gerar dados simulados
x <- seq(1, 10, length.out = 100)
lambda <- exp(0.5 + 0.2 * x)
y <- rpois(length(x), lambda)

# Ajustar modelo de regressão Poisson
model <- glm(y ~ x, family = poisson())

# Prever valores ajustados
predicted <- predict(model, type = "response", se.fit = TRUE)

# Criar data frame com os valores
data <- data.frame(x = x, y = predicted$fit, ymin = predicted$fit - 1.96 * predicted$se.fit, 
                   ymax = predicted$fit + 1.96 * predicted$se.fit)

# Obter os coeficientes estimados
intercept <- coef(model)[1]
slope <- coef(model)[2]

# Função para formatar a fórmula estimada da reta
format_formula <- function(intercept, slope) {
  paste0("y = exp(", round(intercept, 2), " + ", round(slope, 2), "x)")
}

# Plot do gráfico
ggplot() +
  geom_ribbon(data = data, aes(x = x, ymin = ymin, ymax = ymax), fill = "lightblue", alpha = 0.5) +
  geom_line(data = data, aes(x = x, y = y), color = "lightblue3", size = 1) +
  geom_point(data = data.frame(x, y), aes(x = x, y = y), color = "gray10", size = 2) +
  geom_text(x = 1, y = max(predicted$fit), label = format_formula(intercept, slope), hjust = 0, vjust = 1) +
  labs(x = "Variável X", y = "Contagem Y", title = "Regressão Poisson") +
  theme_minimal() 
```



## Especificação do modelo 

- Seja $Y$ um variável aleatória independetes com covariáveis $x_i \ ,\ I_{i(1,..,n)}$

$$
f(y_i|x_i) = \dfrac{e^{-\mu_i}(\mu_i)^{y_i}}{y_i!} , I_{y(0,1,2,...,\infty)}
$$

- Sendo as cováriaveis do modelo :

$$
\ln(\mu_i) = x_i'\beta ,
$$
Em que $\beta$(beta) é o vetor de  parâmetros do regressão.

## Propriedades

\

- $f(y_{i}|\boldsymbol{x_{i}})=\frac{e^{-\exp(\boldsymbol{x'_i\beta})}{\exp({\boldsymbol{x'_i\beta}})}^{y_i}}{y_i!}$

\

- $E\left [ y_{i}|\boldsymbol{x_{i}} \right ]= \mu_{i}=\exp\left ( \boldsymbol{x'_{i}\beta} \right )$

\


- $Var\left [ y_{i}|\mathbf{x_{i}} \right ]= \mu_{i}=\exp\left ( \boldsymbol{x'_{i}\beta} \right )$

## Estimação por Máxima Verossimilhança

- Log-verossimilhança: $l(\boldsymbol{\beta})=\sum_{i=1}^{n} \{ y_{i}\boldsymbol{x_{i}'\beta}-\exp{(\boldsymbol{x_{i}'\beta})}\}-\ln(y_{i}!));$

- Vetir escore: $\boldsymbol{S}(\boldsymbol{\beta})=\frac{\partial l(\boldsymbol{\beta};\boldsymbol{y})}{\partial \boldsymbol{\beta}}=              \sum_{i=1}^{n}(y_{i}-\exp(\boldsymbol{x_{i}'\beta}))\boldsymbol{x_{i}};$
              
-  Matriz Informação: $\boldsymbol{I({\beta})} = \sum_{i=1}^n \mu_i \boldsymbol{x_i x'_i}  = \exp{(\boldsymbol{x'_i \beta})\boldsymbol{x_i x'_i}};$
              
- Distribuição assintótica: $\boldsymbol{\hat{\beta}} \overset{a}{\sim} N \left ( \boldsymbol{\beta}, \left [ \sum_{i=1}^n \mu_i \boldsymbol{x_i x'_i} \right ]^{-1} \right );$        

## Modelo Linear Generalizado    

A Regressão Poisson é um caso particular dos Modelos Lineares Generalizados (MLG). Algumas propriedades dessa classe de modelos:

- Os estimadores são consistentes ainda que a distribuição especificada seja incorreta, mas desde que a média condicional de $Y$ seja declarada corretamente;

- Os erros padrões, intervalos de confiança e testes de hipóteses, no entanto, ficam comprometidos;

## Modelo Linear Generalizado   

O ajuste de um MLG requer apenas a especificação:

- Da esperança de $Y$ condicional às covariáveis, mediante especificação do preditor linear e da função de ligação;

- Da variância condicional, mediante especificação da função de variância $V(\mu)$, possível inclusão do parâmetro de dispersão $(\phi)$, ou sua estimação por métodos robustos (abordagem de Quase-Verossimilhança).

# Vamos para agora para Distribuição binomial negativa

## Distribuição binomial negativa

- Distribuição de probabilidades:
$$
P(Y=k) = \left ( \begin{matrix}
r+k-1\\
r-1
\end{matrix} \right ) (1-p)^rp^k, \hspace{0,2cm} I_{k(0,1,2,...,\infty)}
$$
sendo $r=\alpha$ e $p=\lambda/(\lambda+\alpha),$ com $0<p<1$ e $r>0$.

- Modelagem do número de "sucessos" até o r-ésimo "fracasso" ($r = 1,2,3,...$), configurando uma generalização da distribuição geométrica (para $r=1$).

- Modelagem de alguns tipos de processos pontuais envolvendo contágio


## Outra forma da Binomial Negativa

- Função de probabilidades:
$$
P(Y=k)=\frac{\Gamma(\alpha+k)}{\Gamma(k+1)\Gamma(\alpha)}\left ( \frac{\lambda}{\lambda+\alpha} \right )^{k} \left( \frac{\alpha}{\lambda+\alpha} \right )^{\alpha}, k=0,1,2,...; \alpha > 0, \lambda>0
$$

$$
E(Y)=\lambda 
$$

$$
Var(Y)= \lambda+ \alpha^{-1} \lambda^2
$$
- Assim, para qualquer $\alpha>0$, temos $Var(Y)>\lambda$.

- A distribuição binomial negativa tem como caso limite distribuição Poisson, quando $\alpha \rightarrow \infty$.

## Propriedade 

- A principal propriedade para a distribuição binomial negativa é que em um processo de contagem heterogêneo, em que $Y \sim Poisson( \theta)$ e $\theta$ tem distribuição $Gama(\alpha, \beta):$

$$
g\left ( \theta;\alpha,\beta \right )=\frac{\beta^{\alpha}}{\Gamma\left ( \alpha \right )}\theta^{\alpha-1}e^{-\beta \theta},\quad \alpha, \beta, \nu>0,
$$

com $E(\theta)=\theta=\alpha /\beta$ e variância $Var(\theta)=\alpha /\beta^2.$

- Como resultado, temos uma mistura Poisson-Gamma, resultando, marginalmente (em relação a $\theta$), na distribuição binomial negativa.



## Comparação Binomial Negativa x Poisson

```{r}
# Parâmetros das distribuições
size <- 6  # Parâmetro "size" da distribuição binomial negativa
prob <- 0.5  # Parâmetro "prob" da distribuição binomial negativa
lambda <- 5  # Parâmetro "lambda" da distribuição Poisson

# Valores possíveis para o eixo x
x_values <- 0:30

# Função para calcular as probabilidades da distribuição binomial negativa
negative_binomial_probs <- function(x, size, prob) {
  choose(x + size - 1, x) * prob^x * (1 - prob)^size
}

# Cálculo das probabilidades das distribuições binomial negativa e Poisson
negative_binomial_probs <- negative_binomial_probs(x_values, size, prob)
poisson_probs <- dpois(x_values, lambda)

# Criação do data frame para o gráfico
data <- data.frame(x = rep(x_values, 2),
                   y = c(negative_binomial_probs, poisson_probs),
                   distribuicao = rep(c("Binomial Negativa", "Poisson"), each = length(x_values)))

# Plot do gráfico
ggplot(data, aes(x = as.factor(x), y = y, fill = distribuicao)) +
  geom_bar(stat = "identity", position = "dodge") +
  labs(x = "Valores", y = "Probabilidades", fill = "Distribuição") +
  scale_fill_manual(values = c("lightblue4", "gray10")) + 
  ggtitle("Comparação da Distribuição Binomial Negativa e Poisson") +
  theme_minimal()

```


## Regressão binomial Negativa

- O modelo de regressão com resposta binomial negativa pode ser especificado fazendo $E(y|\boldsymbol{x})=\exp(\boldsymbol{x'\beta}).$

- Para valores fixados de $\alpha$, a distribuição binomial negativa fica expressa na forma da família exponencial linear, contemplada pela teoria de MLG.

- A estimação dos parâmetros do modelo se dá numericamente, segundo um algoritmo em duas etapas, em que $\alpha$ e $\boldsymbol{\beta}$ são estimados condicionalmente até convergência.

# Gráfico da regresão da binomial negativa

```{r}
require(ggplot2)
# Gerar dados simulados
x <- seq(1, 10, length.out = 100)
size <- exp(0.5 + 0.2 * x)
prob <- 0.3
y <- rnbinom(length(x), size = size, prob = prob)

# Ajustar modelo de regressão binomial negativa
model <- MASS::glm.nb(y ~ x)

# Prever valores ajustados
predicted <- predict(model, type = "response", se.fit = TRUE)

# Criar data frame com os valores
data <- data.frame(x = x, y = predicted$fit, ymin = predicted$fit - 1.96 * predicted$se.fit, 
                   ymax = predicted$fit + 1.96 * predicted$se.fit)

# Obter os coeficientes estimados
intercept <- coef(model)[1]
slope <- coef(model)[2]

# Função para formatar a fórmula estimada da reta
format_formula <- function(intercept, slope) {
  paste0("y = NegBin(", round(intercept, 2), " + ", round(slope, 2), "x)")
}

# Plot do gráfico
ggplot2::ggplot() +
  geom_ribbon(data = data, aes(x = x, ymin = ymin, ymax = ymax), fill = "lightblue", alpha = 0.5) +
  geom_line(data = data, aes(x = x, y = y), color = "lightblue3", size = 1) +
  geom_point(data = data.frame(x, y), aes(x = x, y = y), color = "gray10", size = 2) +
  geom_text(x = 1, y = max(predicted$fit), label = format_formula(intercept, slope), hjust = 0, vjust = 1) +
  labs(x = "Variável X", y = "Contagem Y", title = "Regressão Binomial Negativa") +
  theme_minimal()
```

# Estimativas 

As estimativas para $\beta$ e $\phi$ podem ser obtidas pelo algoritmo de
mínimos quadrados ponderados:

$$
\beta^{(m+1)} = (X^T W^{(m)}X)^{-1}X^TW^{(m)}y^{*(m)} \\
\phi^{(m+1)}=\phi^{(m)}-\left( \dfrac{U_\phi^{(m)}}{L_\phi^{(m)}} \right)
$$

# Estimativas

Para m = 1,2,..., em que :

$$
y^{*} = X\beta+F^{-1}(y-\mu) \\
L_{\phi} = \sum_{i=1}^n\left(\psi'(\phi+y_i)+\dfrac{y_i-2\mu_i-\phi}{(\phi-\mu_i)^2}\right) + n\phi^{-1}(1-\phi\psi'(\phi))
$$

Onde o algoritmo de estimação para $\beta$ e $\phi$ são simultâneos,
onde :

$w_i = \dfrac{1}{(\mu_i+\mu_i^2\phi^{-1})}(\dfrac{d\mu_i}{dn_i})$  e 
$f_i=\dfrac{d \mu_i}{dn_i}$


# O que é ser Inflacionda de *zeros* ?


## Excessos de zeros

- Casos em que a proporção de valores nulos na amostra é superior
    àquela estimada por um modelo de contagem. No caso Poisson
    $e^{-\lambda}$
    
- Geralmente contagens com um número excessivo de valores nulos
    apresentam superdispersão (ocasionada pelo excesso de zeros).

- Os modelos mais flexíveis abordados não capturam esse excesso de
    zeros e não se ajustam adequadamente.

## Excessos de zeros

```{r}

psi <- 0.2  # Parâmetro "psi" da distribuição Zero-Inflated Poisson

# Valores possíveis para o eixo x
x_values <- 0:30

# Cálculo das probabilidades da Zero-Inflated Poisson
zip_probs <- ifelse(x_values == 0, psi + (1 - psi) * dpois(x_values, lambda), (1 - psi) * dpois(x_values, lambda))

# Criação do data frame para o gráfico
data <- data.frame(x = rep(x_values, 3),
                   y = zip_probs,
                   distribuicao = rep("Zero-Inflated Poisson"), each = length(x_values))

# Plot do gráfico

ggplot(data, aes(x = as.factor(x), y = y, fill = distribuicao)) +
  geom_bar(stat = "identity", position = "dodge") +
  labs(x = "Valores", y = "Probabilidades", fill = "Distribuição") +
  scale_fill_manual(values = "lightblue4") + 
  ggtitle("Gráfico da Zero-Inflated Poisson") +
  theme_minimal()

```


## Causas desses zeros 

- Uma limitação das abordagens estudadas é que as contagens nulas e não nulas são provenientes do mesmo processo gerador dos dados.
    
- Para dados com excesso de zeros, é razoável a suposição da haver mais de um processo gerador atuando na geração dos dados.
    
-  Assim a ocorrência de valores nulos podem ser caracterizada
    como:

  - *zeros amostrais*: Ocorrem segundo um processo gerador
        de contagens (e.g Processo Poisson).
        
  - *zeros estruturais*: Ausência de determinada característica da população.
  
 *Exemplo*: Um estudo que visa avaliar a quantidade de produtos comprados em um mercado por uma família na última semana. A variável de interesse é o número de itens comprados.

- zeros estruturais: Se a família não foi ao mercado na última semana. Inevitavelmente o número de produtos será 0.

- zeros amostrais: A família foi ao mercado, porém não adquiriu nenhum produto.

# Como modelar esses zeros ?

## Modelagem para contagens com excesso de zeros

Como há dois processos que geram os valores da população, na modelagem
deve-se considerar ambos. As principais abordagens nestes casos são via:

- *Modelos de barreira* (Hurdle Models): que desconsidera os zeros amostrais e modela os zeros estruturais e as contagens positivas. 
    
- *Modelos de mistura* (Zero Inflated Models): que modela os zeros (estruturais e amostrais) em conjunto com as contagens positivas .


# Modelo Zero Inflated

## O que é esse modelo ?

É um modelo que considera uma mistura de modelos,ou seja, seria um modelo sem restrições ou trucamentos e outros com restrições à direita do ponto $y$ igual a um.Além disso, os zeros são caracterizados em amostrais e estruturais.

### Definições 
-  Distribuição de Probabilidade

$$
Pr(Y=y) = \begin{cases} f_z(0) + 1(-f_z(0))f_c(Y=y) ,&\ se \ y =0 \\
(1-f_z(0))f_c(Y=y) ,& \ se \ y > \ 0   \end{cases}
$$

# Momentos

 - Média

$$
E(Y) = 1-f_z(0)E(Y^*)
$$

- Variância 

$$
Var(Y) = 1-f_z(0)E(Y^*) [E(Y^{*^2})-(1-f_z(0)E^2(Y^*))]
$$



# Distribuição zero Inflated

- Temos um modelo de mistura Y com duas funções($f_Z \ e \ f_c$) 

- $f_z$ é um função de probabilidade com muitos valores no ponto zero, ou seja, degenerada no ponto y igual a zero.

- $f_c$ é uma função pde probabilidades para dados de contagem.

*obs:* Mesmo assim $f_c$ pode apresntar sub,superdispersão ou excesso de valores em outro ponto.

# Comparação da Poisson,binomial e Zero Inflated

```{r}
# Função para calcular as probabilidades da distribuição binomial negativa
negative_binomial_probs <- function(x, size, prob) {
  choose(x + size - 1, x) * prob^x * (1 - prob)^size
}

# Parâmetros das distribuições
size <- 6  # Parâmetro "size" da distribuição binomial negativa
prob <- 0.5  # Parâmetro "prob" da distribuição binomial negativa
lambda <- 5  # Parâmetro "lambda" da distribuição Poisson
psi <- 0.2  # Parâmetro "psi" da distribuição Zero-Inflated Poisson

# Valores possíveis para o eixo x
x_values <- 0:30

# Cálculo das probabilidades das distribuições binomial negativa, Poisson e Zero-Inflated Poisson
negative_binomial_probs <- negative_binomial_probs(x_values, size, prob)
poisson_probs <- dpois(x_values, lambda)
zip_probs <- ifelse(x_values == 0, psi + (1 - psi) * dpois(x_values, lambda), (1 - psi) * dpois(x_values, lambda))

# Criação do data frame para o gráfico
data <- data.frame(x = rep(x_values, 3),
                   y = c(negative_binomial_probs, poisson_probs, zip_probs),
                   distribuicao = rep(c("Binomial Negativa", "Poisson", "Zero-Inflated Poisson"), each = length(x_values)))

# Plot do gráfico

ggplot(data, aes(x = as.factor(x), y = y, fill = distribuicao)) +
  geom_bar(stat = "identity", position = "dodge") +
  labs(x = "Valores", y = "Probabilidades", fill = "Distribuição") +
  scale_fill_manual(values = c("purple4" , "black","lightblue4")) + 
  ggtitle("Comparação de Distribuições Binomial Negativa, Poisson e Zero-Inflated Poisson") +
  theme_minimal()

```

# Modelo Zero Inflated

Consideram uma mistura de modelos;

- Os zeros agora são caracterizados em amostrais e estruturais;
- Há contribuição para estimação da probabilidade em zero de duas funções de probabilidade;
- São chamados de modelos de mistura ou inflacionados de zero (Z I);
- Esta abordagem “mistura“ um modelo de contagem sem restrição e um modelo censurado à
direita no ponto y = 1.

# Modelo Zero Inflated

Distribuição de Probabilidade:
$$
    Pr(Y = y) =
    \begin{cases}
        f_z(0) + (1-f_z(0))f_c(Y=y) & \text{se } y = 0,\\
            (1 - f_z(0)) f_c(Y = y) & \text{se } y = 1, 2, \dots
    \end{cases}
$$
Média e Variância :
$$
  \begin{cases}
        E(Y) = (1-f_z(0)E(Y^*)\\
        V(Y) = (1-f_z(0)E(Y^*)[ E({Y^*}^2) - (1- f_z(0)E^2(Y^*)]
    \end{cases}
  $$


# Misturas mais comuns

Pode-se propor diferentes distribuições para $f_z$ e $f_c$. Uma
escolha natural para $f_z$ é a Bernoulli e para $f_c$ a Poisson. Assim

$$
\begin{align}
    &f_z \sim Bernoulli(\pi) \\
    &f_c \sim Poisson(\lambda)
\end{align}


$$
Sendo ,
$$
P(Y = y) = \begin{cases}
        (1 - \pi) + \pi e^{-\lambda} & \text{se } y = 0,\\
        \pi \left ( \frac{e^{-\lambda} \lambda^y}{y!} \right ) &
            \text{se } y = 1, 2, \dots
    \end{cases}

$$

Embora essa escolha de modelo seja o que tem o maior suporte
computacional, ressalta-se que outras distribuições podem ser escolhidas
para ambas as partes $f_z$ e $f_c$.

# Fazendo Regressões com essa misturas.

- Incorporando covariáveis em $f_z$ e $f_c$ na forma $h(Z\gamma)$ e $g(X\beta)$, respectivamente.
- As funções $h(.)$ e $g(.)$, são as funções de ligação escolhidas conforme modelos $f_z$ e $f_c$.
- O modelo de regressão {\it Hurdle} terá, portanto, os vetores de parâmetros $\beta$, $\gamma$ e potencialmente $\phi$ (caso um modelo com parâmetro de dispersão for considerado)
- Como agora são modelos misturados a comparação entre $\beta$ e $\gamma$ não tem a mesma interpretabilidade.
- Para comparação de modelos tradicionais contra os modelos de mistura, o teste de Vuong para modelos não aninhados pode ser aplicado.

# Funções de Verossimilhaça para Zero Inflated
## Função de verossimilhança
$$
 \begin{align*}
        L(\underline{\theta}; &\underline{y}) = 
        \prod_{i=1}^n \textbf{1}^* \left ( (1-f_{z_i}(0)) f_{c_i}(y_i)
            \right ) \cdot \\
        &\prod_{i=1}^n (1-\textbf{1}^*) \left ( f_{z_i}(0) + 
        (1-f_{z_i}(0))f_{c_i}(0)
        \right )
    \end{align*}
$$

Sendo $\textbf{1}^*$ a função indicadora que assume o valor 1 se $y > 0$ e 
0 se $y = 0$ e $\underline{\theta}$ o vetor de parâmetros do modelo (
$\beta$, $\gamma$ e $\phi$, se houver).


## Função de log-verossimilhança
$$
 \begin{align*}
        l(\underline{\theta}; &\underline{y}) = \sum_{i = 1}^n 
        \textbf{1}^* \left ( \log( 1-f_{z_i}(0)) + \log(f_{c_i})
        \right ) + \\
        &\sum_{i = 1}^n (1-\textbf{1}^*) \left ( \log(f_{z_i}(0) + 
        (1-f_{z_i}(0))f_{c_i}(0)) \right )
    \end{align*}
$$

Sendo $\textbf{1}^*$ a função indicadora que assume o valor 1 se $y > 0$ e 
0 se $y = 0$ e $\underline{\theta}$ o vetor de parâmetros do modelo (
$\beta$, $\gamma$ e $\phi$, se houver).

# No R!

# Modelos Zero Inflated no R

Temos o pacote pscl (Political Science Computational Laboratory, Stanford University) e o pacote VGAM(Vector Generalized Linear and Additive Models).

```{}
library(pscl)
zeroinfl(y ~ fc_preditor | fz_preditor, dist = "poisson", link = "logit")
zeroinfl(y ~ fc_preditor | fz_preditor, dist = "negbin", link = "logit")

```

# Exemplo no R!

Temos a base *bioChemists* que temos uma amostra de 915 bioquímicos graduados.  

```{r}
dados <- pscl::bioChemists

```

Sendo:

- art: O número de artigos producidos nos últimos 3 anos de Doutorado
- fem: Gênero do estudande
- mar: Estado cívil 
- kid5: Se tem filhos até 5 anos
- phd: prestígio do departamento de doutoramento
- ment: Artigos produzidos por orientador de doutorado nos últimos 3 anos



# Outros Modelos 

- Modelos de Barreira Hurdle
- Modelo Poisson-Generalizada
- Modelo COM-Poisson
- Modelo Gamma-count
- Modelos de Efeito Aleatório




# Referências 

- Paula, G. A. (2013). Modelos de regressão com apoio computacional. IME-USP, São Paulo.

- Winkelmann, R. (2008). Econometric analysis of count data (5th Ed.). Springer Science & Business Media.

- CONSUL, P. C
Generalized Poisson Distributions: Properties and Applications. Statistics: Textbooks and Monographs,
New York: Marcel Dekker Inc. 1989.

- Long, J. Scott. 1990. The origins of sex differences in science. Social Forces. 68(3):1297-1316.

- Long, J. Scott. 1997. Regression Models for Categorical and Limited Dependent Variables. Thousand Oaks, California: Sage.

# Agora vamos para o R.