数据概览
2022-06-21 日各地区销售情况
day <- as.integer(format(Sys.Date(), "%d"))
sales_dat <- data.frame(
region = rep(LETTERS, each = 10),
sales = rpois(26 * 10, day)
)
knitr::kable(head(sales_dat, 20))
A |
18 |
A |
15 |
A |
17 |
A |
19 |
A |
18 |
A |
25 |
A |
22 |
A |
18 |
A |
25 |
A |
28 |
B |
19 |
B |
21 |
B |
18 |
B |
29 |
B |
15 |
B |
22 |
B |
17 |
B |
18 |
B |
21 |
B |
21 |
描述性分析
本日销售量最多对前 10 个地区为:
sales_sum <- aggregate(sales ~ region, data = sales_dat, sum)
top_10_regions <- head(sales_sum[order(-sales_sum$sales), ], 10)
barplot(sales ~ region, data = top_10_regions)

线性模型
用简单线性模型探究地区对销售量对影响,公式为:
\[
销售量 = \beta_o + \beta_1地区A + \beta_1地区B + \cdots + \beta_1地区Z
\]
mod <- lm(sales ~ region, data = sales_dat)
region_coefs <- mod$coefficients[-1]
max_idx <- which.max(region_coefs)
所有 26 个地区中,回归系数绝对值最大的是 P,为 3