首页
友情链接
Search
1
代码实践|通过简单代码来回顾卷积块的历史
483 阅读
2
点亮新基建数字版图——大湾区数据中心巡展即日开启
432 阅读
3
D3.js新手到专家:使用D3.js进行交互式可视化的完整学习路径
408 阅读
4
如何为学习,实验和教学生成有意义的人造数据集?
380 阅读
5
t检验用不了?别慌,还有神奇的非参数检验
364 阅读
分类阅读
数据可视化
商业智能
大数据技术
数据挖掘
数据分析
统计学
大数据
人工智能
软件工具
外文翻译
人物观点
行业资讯
登录
Search
标签搜索
大数据
数据可视化
统计学
数据分析
机器学习
统计基础
R语言
统计知识
数据图表
商业智能
Python
机器算法学习
算法学习
数据可视化工具
数据百科
ggplot
人工智能
深度学习
数据挖掘
BI
商业数据分析网
累计撰写
492
篇文章
累计收到
0
条评论
首页
栏目
分类阅读
数据可视化
商业智能
大数据技术
数据挖掘
数据分析
统计学
大数据
人工智能
软件工具
外文翻译
人物观点
行业资讯
页面
友情链接
搜索到
40
篇与
软件工具
的结果
2019-10-26
近50年来最具影响力的10种编程语言,都是谁发明的?
大数据文摘出品编译:洪颖菲、武帅前不久文摘菌曾报道过4分钟看尽Top15编程语言15年来的沉浮史,评论中就有小伙伴留言了为什么Ruby、Lisp这些语言在榜上寂寂无名?软件世界中有各种各样的编程语言,每年还会有新的语言出现,最近发布的编程语言就有Scala、Kotlin、Go和Closure,但历史车轮滚滚向前,浪花淘尽英雄,它们中只有少数才能够存活下来。编程语言是软件开发中最重要的东西,多年来伴随着人们的讨论和批评不断改进,没有最好的语言,只有更合适的语言。尽管大家都很熟悉那些比较流行的编程语言的发展历史,如James Gosling是Java之父,但并不是每个开发人员都知道是谁发明了Perl,Pascal,Lisp或Erlang。今天文摘菌带大家扒一扒过去的五十年在软件开发领域被列为最具影响力的十大编程语言及其它们背后的开发者,希望可以站在巨人的肩膀上一睹各种编程语言的风采,在每种语言文末都有免费课程推荐给大家学习。以下排名不分先后,只是为了让我们了解并记住那些在编程语言和软件开发领域中做出巨大贡献的编程大师们!Java——James GoslingJava是最流行和最成功的编程语言之一, James Arthur Gosling博士因发明Java而被誉为Java之父,Java最初由Sun Microsystems开发和支持,在2010年1月Sun Microsystems被Oracle收购后转由Oracle继续开发支持。Java的使命是WORA,“Write Once Run Anywhere”(一次编译,到处运行),Java平台的独立性是其在企业领域取得成功的重要支柱之一,至今,它仍是最流行的应用程序编程语言之一。如果你对学习Java感兴趣,那么The Complete Java Masterclass课程无疑是极好的选择。来自UnsplashC——Dennis Ritchie美国计算机科学家Dennis MacAlistair Ritchie于1967年至1973年间在AT&T贝尔实验室发明了C语言,至今C语言还是非常流行并广泛用于系统编程,它比Java的历史更久远,但它仍在编程语言中占据一席之地,另外,Dennis Ritchie还与他的老搭档Ken Thompson一起创建了举世闻名的UNIX操作系统,他的知名度虽远不及比尔·盖茨或史蒂夫·乔布斯,但其对软件世界的贡献几乎无人能及。每个程序员都应该了解Dennis Ritchie以及他对编程世界的贡献。如果你想学习C语言,你可以加入Coursera的Introduction to Programming in C Specialization课程。与其他Coursera认证课程一样,所有课程都是免费的但你需要支付认证证书的费用。图片来自Unsplash平台上的Nikhil Mitra此外,如果你想学习数据结构,那么可以参考一下这些免费的C语言数据结构和算法课程。链接:https://javarevisited.blogspot.com/2018/01/top-5-free-data-structure-and-algorithm-courses-java–c-programmers.htmlC++——Bjarne StroustrupBjarne Stroustrup,1950年12月30日生于丹麦奥胡斯(Aarhus Denmark),是一名丹麦计算机科学家,因其发明了广泛使用的C++语言而闻名天下。顾名思义,C++是在C流行的时候作为C的下一代语言开发出来的。与偏重结构化的C语言不同,它的显著特性是面向对象,C++仍然是最流行的语言之一,并且在高频交易系统中有着广泛应用,因为它兼容本地系统并具有面向对象的特性。如果你想学习C++,那么可以参加Udemy上的Beginning C++ Programming——From Beginner to Beyond课程。它的理论与案例组合十分棒。来源:Unsplash平台上的Dawid Zawiła如果你不介意学习免费资源,那么就尽情享用这些免费的C++课程吧:资源链接:https://www.java67.com/2018/02/5-free-cpp-courses-to-learn-programming.htmlPython——Guido van RossumPython由CWI的Guido van Rossum设计,是一种通用的高级编程语言,其设计理念强调代码可读性,据说它的语法清晰而且通俗易懂。在美国,Python在学术层面上几乎取代了Java,与上一代不同,如今的学生已经开始用Python而不是C或Java编写程序。如果你还在犹豫用Python还是Java开启你的编程之旅,这个信息图可能会对你有所帮助链接:https://javarevisited.blogspot.com/2018/06/java-vs-python-which-programming-language-to-learn-first.htmlPython广泛用于Web应用程序开发,软件开发和信息安全。谷歌、雅虎和Spotify等科技巨头已经广泛使用Python,如果你想学习Python,那么Jose Marcial Portilla的The Complete Python 3 Bootcamp无疑是最好的入门课程之一。课程链接:https://click.linksynergy.com/deeplink?id=JVFxdTr9V80&mid=39197&murl=https%3A%2F%2Fwww.udemy.com%2Fcomplete-python-bootcamp%2F照片来自Unsplash上的Hitesh Choudhary如果需要更多学习资源,你可以参考这份适合初学者及中级程序员的Python资源列表链接:https://javarevisited.blogspot.com/2018/03/top-5-courses-to-learn-python-in-2018.htmlJavaScript——Brendan Eich如果你问我哪种语言是过去五到十年里的最大赢家,我会说那必须是JavaScript,它借助jQuery这样的库统治了客户端开发领域,现在正凭借NodeJS这样的库进军服务器端开发领域。JavaScript是由Brendan Eich设计,Netscape Communications Corporation开发的一种基于原型的脚本语言,具有动态弱类型的特点,其功能十分强大。JavaScript广泛用于客户端脚本编写,验证,动画,事件捕获,表单提交和其他常见任务。它在浏览器中运行,几乎各大网站都有所使用。我强烈建议所有程序员都学习一下JavaScript,Introduction to JavaScript & jQuery是最好的入门课程。来自Unsplash平台上的Artem Sapegin如果你更倾向于从免费资源起步,这里就是一些不错的JavaScript课程链接:https://www.java67.com/2018/04/top-5-free-javascript-courses-to-learn.html更多资源可参见这些网站链接:https://hackernoon.com/10-websites-to-learn-javascript-for-beginners-31e13bbdbb5cPHP——Rasmus Lerdorf无论你多么讨厌PHP(Personal Home Page),你都不能忽视这样一个事实:一半的互联网都运行在这一美妙的互联网语言上。PHP最初由Rasmus Lerdorf于1995年发明,PHP借助于PHP组生成实现,并以此作为对PHP语言的正式引用,PHP是微软的Active Server Pages(ASP)服务器端脚本引擎以及其他类似语言(如Java Server Pages(JSP))的竞争对手,但PHP在与这些语言的竞争中脱颖而出,现在已被安装在2000多万个Web站点和一百多万台Web服务器上,PHP也是开源的,被诸如Facebook、Wikipedia、Wordpress和Joomla等互联网巨头所使用,PHP广泛用于构建动态网页和服务器端开发。网上有很多PHP的课程,如果你想学习,我强烈推荐jorge edwin diaz prado的PHP for Beginners。课程链接:https://click.linksynergy.com/deeplink?id=JVFxdTr9V80&mid=39197&murl=https%3A%2F%2Fwww.udemy.com%2Fphp-for-complete-beginners-includes-msql-object-oriented%2F来自于Unsplash如果你需要免费的PHP学习资源,这里列出了一些PHP和MySQL的免费课程:链接:http://www.java67.com/2018/02/5-free-php-and-mysql-courses-for-web-developers.htmlPerl — Larry WallPerl是一种高级的、通用的、解释型的动态编程语言,Perl由LarryWall在20世纪80年代中期设计和开发,因其出色的文本处理能力而声名鹊起。至今它仍是在Unix系统上开发报告和脚本的主要语言,Perl以解析和处理大型文本文件而闻名,广泛用于CGI、数据库应用程序、网络编程和图形编程,Perl也被IMDB、Amazon和Priceline等公司广泛使用。如果你想学习Perl,那么我建议你看看Udemy上的Perl Programming for Beginners课程。对于Java开发人员来说,Perl或Python是一个很好的补充,因为开发人员通常需要脚本语言来执行维护和支持等特定任务。Ruby — Yukihiro MatsumotoRuby最初是由日本的Yukihiro“Matz”Matsumoto在20世纪90年代中期设计和开发的。如果你曾尝试过Ruby和Rails,你就会发现使用Ruby是一件很有趣的事。Ruby受Perl、Ada、Lisp和Smalltalk的影响,致力于让编程更加高效有趣。Ruby主要用于Web应用程序开发,被Twitter、Hulu和Groupon等各大网站所使用。如果你想学习Ruby,那么Alex Korban在Pluralsight上的Ruby Fundamentals无疑是最好的入门课程。拍摄:Oleg Chursin来自UnsplashLisp——John McCarthyLisp是列表处理器(List Processor)的缩写,由JohnMcCarthy开发,是第二古老的高级编程语言,它是像Haskell、Erlang或Scala这样的函数式编程语言之父,主要用于军事开发和防空系统。教授Lisp的课程不多,特别是好的课程,但是Nikoloz的Learn Lisp Programming Basics课程还不错。Pascal——Niklaus WirthPascal是一种极具影响力的命令式和过程式编程语言,设计于1968-1969年,由Niklaus Wirth于1970年正式发布。Pascal是一种小型高效的语言,旨在鼓励使用结构化编程和数据结构,从而带来良好的编程体验。与Lisp类似,Pascal因其年代久远而没有什么好的课程,但是如果你想学习Pascal,你可以在Udemy上学习Learn to Program with Pascal课程。本文为专栏文章,来自:大数据文摘,内容观点不代表本站立场,如若转载请联系专栏作者 。
2019年10月26日
144 阅读
0 评论
0 点赞
2019-10-13
工欲善其事必先利其器,哪个才是数据科学的最佳Python IDE?
作者:Saurabh Hooda, Hackr.io编译:ronghuaiyang导读写代码时,有个好的IDE真的是事半功倍的,可能有人说,我vim用的很好,但是vim的学习曲线非常的陡峭,也就是对大多数人来说,你还没能把vim用的熟练,可能就放弃了,不过IDE就不一样了,可以让你迅速的上手编写代码,而不用考虑太多的东西,那么在这么多的Python IDE中,哪个才是适合自己的呢?一起来看看吧!在开始学习Python之前,请选择最适合你的IDE。我们研究了许多可用的工具及其优缺点,并建议如何选择最佳的Python IDE。Python由Guido van Rossum创建,于1991年首次发布。这种解释性的高级编程语言是为通用编程而开发的。Python解释器可用于几个操作系统,包括Linux、MacOS和Windows。编辑器:这里是给大家介绍几个Python最流行的IDE/编辑器经过近30年的发展,Python在编程社区中获得了巨大的人气。对于较小的项目,使用IDLE或Python Shell来编写Python代码是有效的,但是在处理成熟的机器学习或数据科学项目时并不实用。在这种情况下,您需要使用IDE(集成开发环境)或专用的代码编辑器。由于Python是领先的编程语言之一,因此有许多ide可用。所以问题是,“哪个IDE是Python的最佳IDE ?”显然,Python没有一个IDE或代码编辑器可以被冠以“最佳”标签。这是因为它们各自都有各自的优点和缺点。此外,在众多IDE中进行选择可能会耗费大量时间。不过别担心,我们已经为你准备好了。为了帮助您选择正确的IDE,我们整理了一些用于Python的优秀IDE,这些IDE是专门为处理数据科学项目而创建的。它们是:Atom平台–Linux/macOS/Windows官网–https://atom.io/类型–通用文本编辑器Atom是一个免费的开源文本和源代码编辑器,可用于许多编程语言,包括Java、PHP和Python。文本编辑器支持用Node.js编写的插件。虽然Atom可以用于许多编程语言,但它以其有趣的数据科学特性显示了对Python的特殊热爱。Atom带来的最大特性之一是对SQL查询的支持。但是,你需要首先安装Data Atom插件来访问该特性。它支持Microsoft SQL Server、MySQL和PostgreSQL。此外,你可以可视化Atom中的结果,而不需要打开任何其他窗口。另一个将使Python数据科学家受益的Atom插件是Markdown Preview Plus。这为编辑和可视化Markdown文件提供了支持,允许你预览、呈现LaTeX方程等。优点: 活跃的社区支持 与Git的完美集成 为管理多个项目提供支持 缺点: 可能在较旧的cpu上遇到性能问题 会遇到移植性的问题 Jupyter Notebook平台–Linux/macOS/Windows官网–https://jupyter.org/类型–基于Web的IDEJupyter Netbook诞生于2014年的IPython,是一个基于服务器-客户机结构的web应用程序。它允许您创建和操作称为Notbook的笔记本文档。对于Python数据科学家来说,Jupyter笔记本是必不可少的,因为它提供了最直观和交互式的数据科学环境之一。除了作为IDE操作之外,Jupyter笔记本还可以作为一种教育或演示工具。此外,对于刚刚开始学习数据科学的人来说,它是一个完美的工具。您可以使用Jupyter Netbook轻松地查看和编辑代码,从而创建令人印象深刻的演示文稿。通过使用Matplotlib和Seaborn等可视化库,可以在代码所在的文档中显示图形。此外,您还可以将整个工作导出为PDF、HTML或.py文件。与IPython一样,Project Jupyter是一组项目的总称,包括Notbook本身、控制台和Qt控制台。优点: 允许创建博客和演示从笔记本 确保研究的可重复性 在运行之前编辑代码片段 缺点: 复杂的安装过程 PyCharm平台–Linux/macOS/Windows官网–https://www.jetbrains.com/pycharm/类型–专为Python打造的IDEPyCharm是Python专用的IDE。PyCharm对于Python就像Eclipse对于Java一样。功能齐全的集成开发环境有免费版和付费版两种,分别称为社区版和专业版。它是使用简单设置之后最快安装的ide之一,数据科学家更喜欢使用它。对于那些喜欢IPython或Anaconda发行版的人来说,要知道PyCharm很容易集成Matplotlib和NumPy等工具。这意味着您可以在处理数据科学项目时轻松地使用数组查看器和交互式图表。除此之外,IDE还扩展了对JavaScript、Angular JS等的支持,这也为web开发提供了机会。一旦完成安装,PyCharm就可以方便地用于编辑、运行、编写和调试Python代码。要开始一个新的Python项目,您只需打开一个新文件并开始编写代码。除了提供直接调试和运行特性外,PyCharm还支持源代码控制和大型项目。优点: 活跃的社区支持 事实上的Python开发,包括数据科学和非数据科学项目 对于新手和老手都非常易于使用 更快的重建索引 无需任何外部要求即可运行、编辑和调试Python代码 缺点: 可能加载比较慢 默认设置可能需要调整一下,已有的项目才能使用 Rodeo平台–Linux/macOS/Windows官网–https://rodeo.yhat.com/类型–专为Python打造的IDE带有橙色的徽标暗示了一个事实,即这个Python IDE是专门为执行数据分析而开发的。如果您有使用RStudio的经验,那么您将知道Rodeo与它有许多相同的特性。对于不了解RStudio的人来说,它是R语言最流行的集成开发环境。与RStudio一样,Rodeo的窗口分为四个部分,即文本编辑器、控制台、变量可视化环境和plot/libraries/file。令人惊讶的是,Rodeo和RStudio都与MATLAB有很大的相似之处。Rodeo最好的地方在于,它为新手和老手提供了同等程度的便利。由于Python IDE允许你在同时进行创建、查看和浏览,所以Rodeo无疑是那些使用Python开始数据科学的人的最佳IDE之一,Rodeo还拥有内置教程和辅助材料。优点: 有大量定制的东西 实时查看和浏览你正在创建的内容 编写代码更快与自动完成和语法突出功能,并支持IPython 缺点: 很多bug 支持不是那么活跃 受内存问题困扰 Spyder平台–Linux/macOS/Windows官网–https://www.github.com/spyder-ide/spyder类型–专为Python打造的IDESpyder是一个开源的、专用于Python的IDE。IDE的独特之处在于它针对数据科学工作流进行了优化。它与Anaconda包管理器绑定,后者是Python编程语言的标准发行版。Spyder拥有所有必要的IDE特性,包括代码完成和集成文档浏览器。特别是为数据科学项目,Spyder具有一个平滑的学习曲线,让你可以瞬间就学会。联机帮助选项允许你在并行开发项目时查找有关库的特定信息。而且,针对python定制的IDE与RStudio相似。因此,在从R切换到Python时,这是一个合适的选择。Spyder对Python库(如Matplotlib和SciPy)的集成支持进一步证明了IDE是专门为数据科学家设计的。除了IPython/Jupyter集成之外,Spyder还有一个独特的“可变资源管理器”特性。它允许使用基于表的布局显示数据。优点: 代码补全和变量浏览 易于使用 适用于数据科学项目 简洁的界面 活跃的社区支持 缺点: 非数据科学项目能力不足 对于高级Python开发人员来说太基础了 如何为Python选择最好的IDE 这完全取决于你需要满足什么样的要求。尽管如此,以下是一些一般性建议: 刚开始使用Python时,选择自定义更少、附加功能更少的IDE,干扰越少,就越容易开始。 将IDE特性与你的期望进行比较 尝试几种ide将帮助你更好地理解哪种ide最适合你的需求 原文链接:https://www.kdnuggets.com/2018/11/best-python-ide-data-science.html本文为专栏文章,来自:AI公园,内容观点不代表本站立场,如若转载请联系专栏作者 。
2019年10月13日
118 阅读
0 评论
0 点赞
2019-10-13
如何使用Pandas来处理大量数据但不是大数据
作者:Admond Lee编译:ronghuaiyang导读我们用Pandas来处理大量数据,而不是大数据,为什么呢?一起来看看吧。pandas是Python编程语言中用于数据整理和分析的最流行和最受欢迎的数据科学工具之一。在现实世界中,数据的混乱是不可避免。在清理、转换、操作和分析数据方面,pandas是一个“真正的”游戏改变者。简单地说,pandas帮助清理脏乱差。我的NumPy和Pandas的故事当我第一次开始学习Python时,我很自然地接触了NumPy(Numerical Python)。它是使用Python进行科学计算的基本包,提供了Python中对n-array和矩阵进行操作的大量有用特性。此外,该库还提供了对NumPy数组类型的数学操作的向量化,极大地优化了计算,提高了执行速度和性能。NumPy很酷。但是仍然存在着对更高层次数据分析工具的一些潜在需求。这就是pandas拯救我的地方。本质上,pandas的功能构建在NumPy之上,两个库都属于SciPy。这意味着pandas在很大程度上依赖于NumPy数组来实现它的对象来进行操作和计算—但是使用起来更加方便。在实践中,NumPy和panda仍然可以互换使用。高级的特点和方便的使用决定了我对pandas的偏爱。为什么要用pandas来处理大量数据——而不是大数据?大量数据和大数据之间有着明显的区别。随着围绕大数据的炒作,我们很容易将所有事情都视为大数据,顺其自然。Dan Ariely教授有一个著名的笑话:大量和大这两个词本身就是“相对的”,在我看来,大量就是小于100GB的数据集。panda对于小数据(通常从100MB到1GB)非常有效,性能很少受到关注。然而,如果你从事数据科学或大数据领域,那么在处理大型数据集时,你迟早会遇到一个常见的问题—性能低下和运行时间长,最终导致内存使用不足。事实上,由于算法和本地内存的限制,pandas在大数据方面有自己的局限性。因此,大数据通常存储在计算集群中,具有更高的可伸缩性和容错性。并且经常可以通过大数据生态系统(AWS EC2、Hadoop等)使用Spark和许多其他工具来访问。最后,一种在本地机器(具有一定的内存限制)上,用pandas来处理大量数据的方法是减少数据的内存使用。如何在大量数据上使用Pandas?所以问题是:如何使用pandas减少数据的内存使用?下面的解释基于我的经验和一个匿名的大数据集(40 – 50gb),它要求我减少内存使用以适应本地内存进行分析(甚至在将数据集读入dataframe之前)。1. 按块大小读取CSV文件说实话,当时我遇到一个错误,我无法从CSV文件中读取数据,我感到很困惑,但时我发现我的本地机器的16GB RAM内存对于数据来说太小了。然后好消息就来了:我意识到pandas.read_csv有一个名为chunksize的参数!该参数本质上是指在任何时间为适应本地内存而读入dataframe的行数。由于数据由7000多万行组成,因此我将chunksize指定为每次100万行,每次100万行将大型数据集分解成许多小块。# read the large csv file with specified chunksize df_chunk = pd.read_csv(r\'../input/data.csv\', chunksize=1000000)按块大小读取CSV文件上面的操作产生了一个用于迭代的TextFileReader对象。严格地说,df_chunk不是一个dataframe,而是一个用于下一步操作的对象。一旦我准备好了对象,基本的工作流就是对每个块执行操作,并将它们连接起来,最后形成一个dataframe(如下所示)。通过迭代每个块,在将每个块添加到列表之前,我使用一个函数- chunk_preprocessing执行数据过滤/预处理。最后,我将这个列表连接到最终的dataframe中,以适应本地内存。chunk_list = [] # append each chunk df here # Each chunk is in df format for chunk in df_chunk: # perform data filtering chunk_filter = chunk_preprocessing(chunk) # Once the data filtering is done, append the chunk to list chunk_list.append(chunk_filter) # concat the list into dataframe df_concat = pd.concat(chunk_list)对每个块执行操作的工作流2. 过滤掉不重要的列以节约内存太好了。在这个阶段,我已经有了一个dataframe来执行所需的各种分析。为了节省数据操作和计算的时间,我进一步过滤掉了一些不重要的列,以节省更多的内存。# Filter out unimportant columns df = df[[\'col_1\',\'col_2\', \'col_3\', \'col_4\', \'col_5\', \'col_6\',\'col_7\', \'col_8\', \'col_9\', \'col_10\']]过滤掉不重要的列3. 更改列的类型将pandas数据列转换为另一种类型的最简单方法是使用 astype()。我可以说,更改pandas中的数据类型对于节省内存非常有帮助,特别是如果你有大量数据用于高强度的分析或计算(例如,将数据输入你的机器学习模型中进行训练)。通过减少存储数据所需的比特位,我将数据的总体内存使用量减少了50% !试试吧。我相信你也会发现这很有用!让我知道进展如何。# Change the dtypes (int64 -> int32) df[[\'col_1\',\'col_2\', \'col_3\', \'col_4\', \'col_5\']] = df[[\'col_1\',\'col_2\', \'col_3\', \'col_4\', \'col_5\']].astype(\'int32\') # Change the dtypes (float64 -> float32) df[[\'col_6\', \'col_7\', \'col_8\', \'col_9\', \'col_10\']] = df[[\'col_6\', \'col_7\', \'col_8\', \'col_9\', \'col_10\']].astype(\'float32\')更改数据类型节省内存最后的想法好了。感谢你的阅读。我希望通过分享我在使用大数据时使用panda的经验,可以帮助你通过减少内存使用并最终提高计算效率来探索pandas处理大量数据的另一个有用特性。通常,pandas具有我们需要进行数据处理和分析的大多数特性。我强烈建议你去看看它们,因为它们下次会对你有用的。此外,如果你认真学习如何用Python进行数据分析,那么这本书是为你准备的—Python for Data Analysis。里面有在Python中使用pandas操作、处理、清理和处理数据集的完整说明,本书提供了一个全面和逐步的指南,有效地指导你在数据分析中使用pandas。希望可以对你帮助!英文原文:https://towardsdatascience.com/why-and-how-to-use-pandas-with-large-data-9594dda2ea4c本文为专栏文章,来自:AI公园,内容观点不代表本站立场,如若转载请联系专栏作者 。
2019年10月13日
123 阅读
0 评论
0 点赞
2019-09-13
乐队的夏天大结局!用Python分析投票数据,选出真正的乐队TOP 5
暂无简介
2019年09月13日
115 阅读
0 评论
0 点赞
2019-08-29
如何为学习,实验和教学生成有意义的人造数据集?
这就是使用fakir获取示例Clickstream (tidy)数据是如此的简单。另一件值得注意的事情是,如果您查看fake_visit()文档,您会发现有一个seed参数,这意味着您可以控制数据的随机化和可重复性它们。fake_visits(from = \"2017-01-01\", to = \"2017-12-31\", local = c(\"en_US\", \"fr_FR\"), seed = 2811) %>% head()用例:French 数据此外,在上面使用fake_visit()函数时,您可能注意到了另一个属性local,它可以帮助您选择French数据而不是English数据。在我个人看来,如果您的任务是提高数据素养或使数据科学民主化,那么这一点至关重要。fake_ticket_client(vol = 10, local = \"fr_FR\") %>% head()在上面的例子中,我们使用了fakir的另一个函数fake_ticket_client(),它帮助我们给出一个典型的票据数据集(就像您从ServiceNow或Zendesk获得的数据集)用例:散点图所以,我在这篇文章开始关于iris数据集的叫嚷(别误会我:我对创建这个数据集的科学家们非常尊重,只是我对它的错误/过度使用了不欣赏)现在我们可以使用fakir数据集来克服它。fake_visits() %>% ggplot() + geom_point(aes(blog,about, color = as.factor(month)))(也许,不是一个好的散点图来显示相关性,但是,嘿,你可以教散点图不绘制花瓣长度和萼片长度)总结如果你从事教学或喜欢实验,不想使用老套的数据集,fakir是一个非常好的值得了解的包。正如fakir包的作者在描述中提到的,charlatan是另一种帮助生成有意义的假数据的r -包。参考文献fakir – Githubfakir – Documentation本文为专栏文章,来自:数据人网,内容观点不代表本站立场,如若转载请联系专栏作者 。
2019年08月29日
380 阅读
0 评论
0 点赞
1
2
...
8