如何为学习,实验和教学生成有意义的人造数据集?

2019-08-29 / 0 评论 / 380 阅读 / 正在检测是否收录...

这就是使用fakir获取示例Clickstream (tidy)数据是如此的简单。另一件值得注意的事情是,如果您查看fake_visit()文档,您会发现有一个seed参数,这意味着您可以控制数据的随机化和可重复性它们。

fake_visits(from = \"2017-01-01\", to = \"2017-12-31\", local = c(\"en_US\", \"fr_FR\"), seed = 2811) %>% head()

用例:French 数据

此外,在上面使用fake_visit()函数时,您可能注意到了另一个属性local,它可以帮助您选择French数据而不是English数据。在我个人看来,如果您的任务是提高数据素养或使数据科学民主化,那么这一点至关重要。

fake_ticket_client(vol = 10, local = \"fr_FR\") %>% head()

在上面的例子中,我们使用了fakir的另一个函数fake_ticket_client(),它帮助我们给出一个典型的票据数据集(就像您从ServiceNow或Zendesk获得的数据集)

用例:散点图

所以,我在这篇文章开始关于iris数据集的叫嚷(别误会我:我对创建这个数据集的科学家们非常尊重,只是我对它的错误/过度使用了不欣赏)现在我们可以使用fakir数据集来克服它。

fake_visits() %>%   ggplot() + geom_point(aes(blog,about, color = as.factor(month)))

(也许,不是一个好的散点图来显示相关性,但是,嘿,你可以教散点图不绘制花瓣长度和萼片长度)

总结

如果你从事教学或喜欢实验,不想使用老套的数据集,fakir是一个非常好的值得了解的包。正如fakir包的作者在描述中提到的,charlatan是另一种帮助生成有意义的假数据的r -包。

参考文献

  • fakir – Github
  • fakir – Documentation

本文为专栏文章,来自:数据人网,内容观点不代表本站立场,如若转载请联系专栏作者 。

0

评论 (0)

取消