数据概览

2022-06-21 日各地区销售情况

day <- as.integer(format(Sys.Date(), "%d"))
sales_dat <- data.frame(
  region = rep(LETTERS, each = 10),
  sales = rpois(26 * 10, day)
)

knitr::kable(head(sales_dat, 20))
region sales
A 18
A 15
A 17
A 19
A 18
A 25
A 22
A 18
A 25
A 28
B 19
B 21
B 18
B 29
B 15
B 22
B 17
B 18
B 21
B 21

描述性分析

本日销售量最多对前 10 个地区为:

sales_sum <- aggregate(sales ~ region, data = sales_dat, sum)

top_10_regions <- head(sales_sum[order(-sales_sum$sales), ], 10)

barplot(sales ~ region, data = top_10_regions)

线性模型

用简单线性模型探究地区对销售量对影响,公式为:

\[ 销售量 = \beta_o + \beta_1地区A + \beta_1地区B + \cdots + \beta_1地区Z \]

mod <- lm(sales ~ region, data = sales_dat)

region_coefs <- mod$coefficients[-1]
max_idx <- which.max(region_coefs)

所有 26 个地区中,回归系数绝对值最大的是 P,为 3