这就是使用fakir获取示例Clickstream (tidy)数据是如此的简单。另一件值得注意的事情是,如果您查看fake_visit()文档,您会发现有一个seed参数,这意味着您可以控制数据的随机化和可重复性它们。
fake_visits(from = \"2017-01-01\", to = \"2017-12-31\", local = c(\"en_US\", \"fr_FR\"), seed = 2811) %>% head()
用例:French 数据
此外,在上面使用fake_visit()函数时,您可能注意到了另一个属性local,它可以帮助您选择French数据而不是English数据。在我个人看来,如果您的任务是提高数据素养或使数据科学民主化,那么这一点至关重要。
fake_ticket_client(vol = 10, local = \"fr_FR\") %>% head()
在上面的例子中,我们使用了fakir的另一个函数fake_ticket_client(),它帮助我们给出一个典型的票据数据集(就像您从ServiceNow或Zendesk获得的数据集)
用例:散点图
所以,我在这篇文章开始关于iris数据集的叫嚷(别误会我:我对创建这个数据集的科学家们非常尊重,只是我对它的错误/过度使用了不欣赏)现在我们可以使用fakir数据集来克服它。
fake_visits() %>%
ggplot() + geom_point(aes(blog,about, color = as.factor(month)))
(也许,不是一个好的散点图来显示相关性,但是,嘿,你可以教散点图不绘制花瓣长度和萼片长度)
总结
如果你从事教学或喜欢实验,不想使用老套的数据集,fakir是一个非常好的值得了解的包。正如fakir包的作者在描述中提到的,charlatan是另一种帮助生成有意义的假数据的r -包。
参考文献
- fakir – Github
- fakir – Documentation
本文为专栏文章,来自:数据人网,内容观点不代表本站立场,如若转载请联系专栏作者 。
评论 (0)