首页
友情链接
Search
1
代码实践|通过简单代码来回顾卷积块的历史
483 阅读
2
点亮新基建数字版图——大湾区数据中心巡展即日开启
432 阅读
3
D3.js新手到专家:使用D3.js进行交互式可视化的完整学习路径
408 阅读
4
如何为学习,实验和教学生成有意义的人造数据集?
380 阅读
5
t检验用不了?别慌,还有神奇的非参数检验
364 阅读
分类阅读
数据可视化
商业智能
大数据技术
数据挖掘
数据分析
统计学
大数据
人工智能
软件工具
外文翻译
人物观点
行业资讯
登录
Search
标签搜索
大数据
数据可视化
统计学
数据分析
机器学习
统计基础
R语言
统计知识
数据图表
商业智能
Python
机器算法学习
算法学习
数据可视化工具
数据百科
ggplot
人工智能
深度学习
数据挖掘
BI
商业数据分析网
累计撰写
492
篇文章
累计收到
0
条评论
首页
栏目
分类阅读
数据可视化
商业智能
大数据技术
数据挖掘
数据分析
统计学
大数据
人工智能
软件工具
外文翻译
人物观点
行业资讯
页面
友情链接
搜索到
44
篇与
数据分析
的结果
2020-07-11
如何正确理解商业智能 BI 的价值 ?
商业智能 BI 要解决的问题商业智能 BI ( Business Intelligence) 简单来说就是一套由数据仓库、查询报表、数据分析等组成的数据类技术解决方案,将企业中不同业务系统( ERP、CRM、OA、BPM 等,包括自己开发的业务系统软件)中的数据进行有效的整合,并利用合适的查询和分析工具快速并且准确的为企业提供报表展现与分析,为企业提供决策支持。商业智能概述商业智能 BI 的核心主线是什么? 主线就是通过构建数据仓库平台,有效的整合数据并组织起来为分析决策提供支持并实现其价值。还有一种解释就是:将数据转变为信息,信息支撑决策,决策产生价值。对于商业智能 BI 大家在质疑什么?接触过很多的客户,对于商业智能 BI 他们有这样的一种普遍看法:商业智能 BI 是如何产生价值的,价值在哪里,我并没有看到? 为什么在我的企业中我们 IT 部门或者业务部门完全沦为了做做报表,能体现的价值只是节省了我们做报表的工作量,仅此而已。派可数据可视化分析报表这种质疑带有很大的普遍性,就如同之前有参加各种企业沙龙活动,有现场听众直接问到:你不用讲那么多,你直接告诉我这个东西有什么用,能解决我们什么问题,能不能帮我们企业赚钱….。有来自业务线的、技术线的、管理层的不同的听众,每一层他们关注的点实际上都各不相同。包括每个人、每家企业对数据的认知程度也决定了他们对商业智能 BI 的理解和认可程度。但这样的问题也不是不能解决,比如我们就不聊技术,我们就聊聊一些业务场景,最后发现效果就会好很多。在这里我们尝试用一种可能大家都能够理解的、非技术与专业的方式让大家理解一下商业智能 BI 的价值到底如何体现的。我们在此探讨一下在我们眼中商业智能 BI 的三个分析层次,或许我们对商业智能 BI 的认知可能有所改观。 为了便于理解,文章中不提及任何专业的名词与解释。商业智能 BI 的三个分析层次第一个层次是报表的常规呈现。所谓常规呈现指的是使用柱状图、饼状图、折线图、二维表格等图形可视化的方式将企业日常的业务数据(财务、供应链、人力、运营等)全面呈现出来,再通过各种维度(看数据的角度)筛选、关联、跳转、钻透等方式查看各类分析指标,业务分析图表按照主题划分,图表之间存在一定的逻辑关系。派可数据 BI 可视化图表之间的钻取、联动等效果这些分析展现内容基本上是围绕各个业务部门日常工作展开,这里面有很多的业务分析内容可能需要复杂的计算规则,需要从不同的系统取数据,从业务系统软件中这些都是很难直观看到的。这个层次的报表分析就是一种呈现,让报表用户对日常的业务有一个清晰、直接、准确的认知,其次解放了他们自己手工通过 EXCEL 通过各种函数做汇总分析、制图的工作。比如,财务部门会关心今年的营业收入、目标完成率、营业毛利润率、净资产收益率等;销售部门会关心销售金额、订单数量、销售毛利、回款率等;采购部门会关心采购入库金额、退货情况、应付账款等等。派可数据汽车4S集团财务分析部分案例因此,达到第一个层次的目标就是:通过可视化分析报表直观、全面的呈现企业日常经营、业务的情况。可以从集团层次出发,也可以从业务线或者部门出发。实际上,很多企业在落地商业智能 BI 的过程中也就停留在这个阶段,或者还没有完全达到这个程度,比如上面所提到的 “全面的呈现企业日常经营、业务的情况”,有的企业可能只是做到了“部分呈现”。因此,商业智能 BI 的价值在这个阶段就显得非常有限,数据的作用仅仅是从另外的一个”可视化”的角度对业务做出了另一种形式的解读,用户仅仅是被动的接收来自可视化报表上传递的信息。第二个层次是数据的”异常”分析。我们通常所认为的 “异常” 就是指不好的东西,那么在这里我们对 “异常”的解释是:通过可视化报表呈现,我们发现了一些数据指标反映出来的情况超出了我们的日常经验判断。例如,正常情况下每个月的平均用户注册量是10万左右。但是通过报表我们发现在今年的 8 月份,会员注册量达到了 23 万,这就是一种 “异常”,远远超过我们的经验判断和预期。再比如在今年的 1-9 月份,产品销售毛利率稳定在 30%-40% 之间,突然到了10月份,整体的毛利率下降到了 20% 不到,这也是一种 “异常”。这两种异常数据,一种是我们所追求的的正向”异常”,一种是我们极力避免的负向“异常”。商业智能 BI 是先通过第一层的报表呈现,将很多业务运营情况直观的反映出来,让用户可以直观的看到在我们经验之外的数据表现情况。商业智能 BI 在这里体现的价值就是要对这些 “异常” 数据进行有目的的分析,通过相关联的维度、指标使用钻透、关联等分析方式探索出可能存在的原因。派可数据可视化分析案例比如会员注册的问题,有哪些因素可能导致会员注册的大幅度增加的可能?是不是最近采取了一系列的线上降价促销、开放式的注册、相关营销活动等,这些支撑分析的数据是否都存在,如果都存在,它们的报表呈现情况如何,促销投入的力度和用户增长的关系等等。在这个层次中,可视化报表的分析是带着问题找问题的,通过一次或者多次的维度和指标图表构建,逐步形成了一种比较可靠的、固化的分析模型。这个阶段的用户不再是被动接受来自图表中反映的信息,而是通过”异常”数据来定位到背后的一个业务问题,数据和业务在这个层次开始有了联系,数据图表之间的逻辑性更强。例如,通过分析发现在三种线上促销方式中,促销方式一的投入产出最高,因此回归到业务场景中,这种促销方式以后应该要坚持,它可以有效的提升用户注册增长率。第三个层次是业务建模分析。业务建模分析通常是由精通业务的用户提出,通过合理的建模找出业务中可能存在的问题,将其反映出来并最后要回归到业务,形成决策并不断优化的一个过程。业务建模可简单,可由一个或多个图表组成,也可复杂,通过一组或多组数据图表支撑。业务建模简单来说也可以理解为一种业务分析的逻辑思维模型,只是用数据、图表化的方式将它们有效组织起来去验证我们对业务分析的逻辑判断。业务建模分析区别于第一层的全面数据呈现和第二层的异常分析和被动分析,它是一种更深层次的业务数据的主动设计和探索分析。这层分析的提出更加深入业务,围绕一个一个业务分析场景展开,对业务的认知要足够深。例如下面是一个有关 4S 店首保回店率的分析,通过一个很简单的建模(维度:年份,分析指标:新车销售数量、首保回店数、首保回店率)分析每年首保用户的留存情况。首保回店率的分析通过分析发现,2015、2017、2018 年首保回店率在 90% 左右,2016 年的首保回店率只有 55%。从汽车 4S 店的实际业务出发,汽车销售实际上是不赚钱的,真正赚钱的在售后服务上,例如:保险、保养、维修等等。而首保回店率在很大程度上决定了购买新车的用户在提完车之后会不会经常回店的可能。因为新车用户在提车之后在第一次的保养都不选择原店,就意味着这个客户在后续的保养可能也不再回来,一年、两年、三年,这位用户可能就会永远的流失掉,也就意味着以后的保养、延保、事故车维修可能也不会回来。首保回店率的分析比如一个用户做精品车保养,一年 1.5 次,一次平均贡献 3000 元,1.5 次就是 4500元的收入。再加上每年的保险例如 6000 元,可能潜在的维修在1500 元左右,一年可能产生 1.2 万的收入贡献。如果像2016 年的回店率只有 55%,流失的客户数是 174。如果能够提升到 90%的水平,就意味着可能的销售收入贡献能够达到 351 * 1.2 万 = 421 万,比现在要多出 160 万的收入。如果把新车基数扩大 10 倍呢,一年要多出 1600 万的各类收入,所以提升首保回店率就变得非常的重要。同时,也要对首保回店率低的原因做出分析:是因为车卖给了外地,还是因为新车用户对4S 店的维修保养环境、服务质量不信任,我们应该从哪些方面进行改善。所以实际上,业务分析模型的提出围绕的是一个一个非常具体的业务场景,回答的是一个又一个业务的问题,而这些问题的发现与企业的业务经营水平、管理水平可能有很大的关系。譬如其中的一个改善环节就是在新车用户提完车之后,带领新车用户参观维修保养区域,了解其规范性,透明的展示保养的整个过程和专业性,不会出现维修师傅在保养过程中偷油、少换零件、以次充好以建立信任;或者通过一些促销小手段极大可能的留下新车用户;或者通过系统在不同的时间点关怀用户,提前提醒新车用户回店保养等等。当然,实际上各家 4S 店的首保回店率正常情况下都能保证在 95% 以上或者更高的水平,这里只是通过一个例子来说明数据和业务是如何产生关联性的。所以,为了达到这样的目标实际上需要去从业务上解决问题,找出业务环节中的不足来提升业务指标。类似于这样的业务分析模型还有很多,但这样的分析场景很难由专业的 BI 开发人员提出来。业务分析建模需要由专业的业务人员且具备数据分析思维意识的人员来推进和主导,再辅助合适的数据分析、挖掘或统计工具,这样商业智能 BI 的价值才能得到充分的发挥,数据的价值也才会得到充分的体现。派可数据分析报表样图对商业智能 BI 的总结所以我最终想表达的一个观点是:我们不应该质疑商业智能 BI 本身,我们质疑的应该是在这个过程中,我们的个人、企业对于商业智能 BI 的认知和推进到了哪一个层次,推进到哪个层次,商业智能 BI 的价值就会体现在哪个层次。如何有效和成功的推进商业智能 BI 的建设与落地,这才是我们 BI 服务提供商和客户一起共同要面对的问题。最后看看我们对商业智能 BI 的认知是不是这样理解才更加合理:商业智能 BI 的表象是可视化分析报表的呈现,但它的本质还是业务问题、管理问题。商业智能 BI 数据分析来源于业务,通过数据呈现发现业务问题(好的或不好的,经验之内或之外的 )再次回到业务优化业务提升业务运营的一个过程,这就是在商业智能 BI 中数据到信息、信息产生决策、决策产生价值的真正内涵。作者简介派可数据联合创始人 吕品,前天善智能联合创始人&运营总监,十余年商业智能 BI 行业经验,2015-2019 微软 MVP本文由 派可数据 投稿至 数据分析网 并经编辑发表,内容观点不代表本站立场,如转载请联系原作者 。
2020年07月11日
116 阅读
0 评论
0 点赞
2019-12-02
BI(商业智能)的未来?
商业智能(Business Intelligence,简称:BI),又称商业智慧或商务智能,指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。商业智能作为一个工具,是用来处理企业中现有数据,并将其转换成知识、分析和结论,辅助业务或者决策者做出正确且明智的决定。是帮助企业更好地利用数据提高决策质量的技术,包含了从数据仓库到分析型系统等。百度百科认为BI包括三个层级:数据报表、数据分析和数据挖掘。数据报表:传统的报表系统技术上已经相当成熟,大家熟悉的Excel、水晶报表、FineReport、Reporting Service等都已经被广泛使用,其实很多公司不需要要什么专业化的报表工具,自己定制也足够OK。数据分析:报表系统更多的是呈现数据,但如果你想更多了解数据之间的关系,发现一些异常,一般只能靠定制化方案解决,比如取个数,然后有“好事者”觉得分析的模式还是有规律可循,因此提出了OLAP的概念,希望用多维钻取、关联的方式来帮助业务人员更方便的探索数据的内含规律,同时通过可视化配套技术来展现分析的结果,诸如仪表盘、大屏啥的,这就是所谓的数据分析工具,也是当前BI工具的主流。数据挖掘:数据挖掘则希望能超越人的限制,针对特定的数据、特定的问题,选择一种或者多种挖掘算法,找到数据下面隐藏的规律,这些规律往往被用来预测、支持决策。但笔者认识的大多数BI,其实仅包含数据报表和数据分析,数据挖掘的一些东西可以集成到数据分析工具中,但大多数情况是没有的。现在BI工具发展的不错,诸如Power BI 和 Tableau等都是不错的产品,每年有几十个点的增长率,但从笔者的使用经历看,或者站在一个大厂的角度看,BI这个20年前提出的概念,近些年来其实并没有获得突破性的进展,起码在数据转化为知识的过程中,当前的BI工具能起到的作用是极其有限的。这也是为什么会经常会听到这样的对BI的质疑:你不用讲那么多,你直接告诉我这个东西有什么用,能解决我们什么问题,能不能帮我们企业赚钱….。BI也许会这么解释:业务分析需要由专业的业务人员且具备数据分析思维意识的人员来推进和主导,再辅助合适的数据分析、挖掘或统计工具,这样商业智能BI的价值才能得到充分的发挥,数据的价值也才会得到充分的体现。但跟机器学习和人工智能中的‘’智‘’相比,BI商业智能中的‘’智‘’,实在是弱了点。所以BI工具能卖的动,一方面得益于数字化产业的加速,另一方面也跟企业数据意识的崛起有关,大量中小企业都希望用更为自动化的报表形式来提升看数的效率,但大厂、运营商等也许早就过了这个阶段,现在的BI工具对它们来说,缺乏进一步的吸引力。从可视的角度看,BI工具的边际效益并不高,10年多前我看到的可视化和当前我看到的可视化,并没有有多大的进步,或者对于分析有更大的价值,当然大屏除外。从灵活的角度看,SQL、Python等解释性语言的普及度越来越高,大量的业务人员开始掌握这些简单的语言来进行定制化的分析,固定模板和样式的BI工具就显得相对弱了。从分析的角度看,既然BI更多是验证业务人员的假设,其实EXCEL性价比已经很高了,至于EXCEL依赖的数据源,靠定制化的取数也是可以的,这在当前很多企业中是主流的支撑模式。从报表的角度看,拥有开发能力的大厂自己定制报表系统已经不是事了,大数据起来后,大厂更多关注的是报表的性能和适配自己的技术生态,而不是简单的便捷和好看。那么,未来的BI到底长啥样?如果我们超越当前主流BI工具定义的范畴,也许可以从大厂的实践获得一些启示,至少有三点是值得思考的。1、前后端一体化大数据在带来海量数据的同时,也带来了数据处理技术的革命,其对BI的影响是深远的,主要有三点:第一、大数据高价值、维度多、价值密度低的特点,使得多维分析的价值突然提升了,在小数据时代,多维分析其实有点聊胜于无,但现在的驱动力强多了。第二、大数据带来了数据处理技术的革命,比如hadoop用多样化的技术引擎来满足各类数据分析场景的诉求,但同时也大幅提升了数据分析的门槛,业务人员会突然发现很难直接操作hadoop。第三、现有的BI工具(如Tableau,Microstrategy等)往往存在很大的局限,如难以水平扩展、无法处理超大规模数据等等问题,这些不适配降低了大数据引擎进步带来的价值。因此,BI工具如何去适配这些大数据处理和分析引擎就成了一个机遇,现在Apache Kylin多维数据库很火,就是因为它成为了新时期BI工具和大数据后台引擎的连接器,其针对海量数据的OLAP分析的性能很高,为BI提供了面对大数据时缺失的能力,阿里的AnalyticDB也是类似的。业务人员对可视化也许会审美疲劳,但其对于数据分析速度的要求是始终的,在相当长的时间内,因为业务人员自己做不动,开发人员做的成本又比较高(当然大厂可以自己做),只要BI能衔接到这些大数据引擎,就会产生1+1>2的效果。可以肯定的是,BI通过全新的大数据技术手段来提升产品的竞争力会是一个趋势。2、移动端的场景化BI产品的移动化很久以前就有产品了,但奇怪的是,它们并没有像移动互联网一样快速普及,起码速度不够快,为什么?当笔者第一次接触到这些移动化的BI产品时,就发现把报表系统原封不动的搬到手机上体验是不行的,光是选择指标和维度就显得有些繁琐了,小屏看报表问题很多。而且应用的场景似乎也出现了点问题,在碎片化的时间,人们似乎没有心思去研究报表,更不用说钻取分析了,有那时间,还不如坐在电脑前直接看大屏的报表,这是很尴尬的地方。因此,移动端的BI也许只能承载轻量的随时随地看数的需求,未来的一个趋势也许就是场景化,实时化。场景化就是针对特定的事件提供针对性的看数方案,比如KPI是一种场景,双11也是一种场景,但双11你给老板看的报表和指标跟平时的KPI是完全不同的,你要定制化这些指标,显性化展示指标,需要补充一些跟这个场景相关的特定要素。以下是校园营销的移动端BI示意。既然是场景化的,必然在特定时机会有看数的诉求,这个时候就有数据实时性的要求,比如双11就是实时的数据展现,我们在做校园营销的时候,就需要针对每个校园进行进行实时受理数据的比对,以便及时发现问题。由于场景化的要素不确定,决定了不大可能用标准的BI工具来实现,无论是实时的接入能力还是组装场景的能力。因此,现在一般用定制化的方式来解决,但考虑到场景是有时效性的,也许生命周期只有几天,定制化的成本相对就会比较高,“搭积木方式”的BI工厂也许就是一种解决方案。其实,无论是小屏、中屏、大屏,我们都有这种诉求,也许,这代表了一种趋势。3、自助式的分析10多年前来我们做了很多定制化分析的系统,现在留下来还在发挥作用的,就是自助取数。由此延伸出来的自助概念很好,因为它改变了数据分析支撑的模式。以前基本上都是IT业务部门提需求,IT部门负责制作相应的报表,这样的流程会很长,响应的及时性也不够,那能不能提供给业务部门一些自助的工具让它自己来DIY数据呢?比如基于指标灵活的组装形成报表,这就是当前BI提倡的自助分析。但我们以前的自助报表系统却没有存活下来,为什么?因为要达到自助的目标,不仅仅是提供一套灵活的报表发布工具那么简单,而是要提供从数据采集、处理、发布、调度、数据管理等的一整套数据解决方案,否则,你的自助分析的应用范围就会受到极大的限制。举个例子,假如企业没有好用的数据字典,业务人员连数据是啥意思都不清楚,自助分析也就无从谈起了。现在的很多BI自助工具所以能玩的转,往往是因为面对的数据不多,维度很少,指标有限,反正就是固定的维度和指标的组装,那是没问题的,但这种理想的场景在大企业其实很少。现在数据中台所以能这么火,就是因为它对前端的赋能其实是一个系统工程,要考虑数据的方方面面,比如数据标准化,只有在这个基础上的自助分析才是有生命力的。因此,假如一个企业的自助分析够做的很好,那数据管理水平也是相当高的。BI工具的成功,从来就不是简单的工具成功,而是跟这个企业的发展阶段、机制流程、人员素质、数据基础、平台能力分不开的。无论如何,自助分析会是个趋势,但需要数据中台为其背书。这篇文章写到一半其实就有点写不下去,因为发现自己对于最新的BI产品的进展理解不够,更多的还是从自己的实际工作来理解印象中的BI,个人色彩浓重了点,权当抛砖引玉,各大BI厂商就不要来“锤”我了。本文为专栏文章,来自:傅一平,内容观点不代表本站立场,如若转载请联系专栏作者 。
2019年12月02日
120 阅读
0 评论
0 点赞
2019-09-12
如何构建数据化管理体系
企业IT人员常常会受到来自业务的各种各样的需求,几次之后,大家变觉得这样的效率太低了:研究人员需要在繁忙的开发任务中抽时间来做数据查询、统计,而业务、领导则需要等很久才能拿到数据。重复的工作太多,一旦数据、需求都上涨,将承受更大的压力。有问题就有对策,为了提高效率可以收集常用的业务需求,做成固定的数据模板,直接导入excel数据,邮件发送。但是,由于邮件发送不稳定也不安全交流也不方便,数据导入常出错,于是就有了报表工具的开发使用,后期流程固化之后,分析人员增多时,又有了BI这一类可与数据分析挖掘技术结合的工具的应用。转观这一类现象,其实在企业经营的过程中比比皆是,诸如财务、销售、市场等业务自身就带有强烈的数据分析需求,领导也厌倦了查看一沓沓报表,更希望看到结论化的数据。如果说运用到个人或是某一个问题的叫数据分析,那么投入到企业的业务层面用于辅助管理产生效益的则可称为数据化管理。其实,数据化管理的苗头早已出现,与KPI结合投入量化管理就是一个很好的例子。数据化管理的业务层次数据分析本身不能带来最大化的业绩和效率,只有将正确的分析结果以最实际的方式应用到业务层面才能产生效益,只有不断地产生效益才能称之为数据化管理。按照业务逻辑,数据化管理可以分为以下几个层次。1、业务指导管理通过对数据的收集、统计、追踪和监控搭建业务的管理模型来指导业务。业务是最直接接触数据的层次,一些未经分析加工的数据能直接应用到常规的业务管理。例如,销售业务中日销售额、月销售额、年销售额的完成情况;电商营销业务过程中的流量,新增用户数,每日的成交量。2、运营分析管理运营分析更多注重对收集来的数据进行分析和管理,可归纳为人、货、场、才的分析管理。例如客户关系管理(CRM),财务分析管理,供应链分析管理等等3、经营策略管理经营策略管理拥有一手的管理决断,对各经营环节进行对应的数据分析来修改和制定策略,比如消费者购买行为的分析,会员顾客策略,是采用积分制还是打折制;商品定价策略、低价走销还是高价定品牌;营销策略,广告投放的配置,产品的促销组合等等。4、战略规划管理战略规划需要通过企业内部和外部的市场外部数据制定长远的规划过程,如企业竞争力分析,行业环境分析,战略目标规划等等。数据化管理流程数据化管理站在技术上来讲,实现的流程可分为以下8个步骤:需求分析、数据收集、数据整理、数据分析、数据可视化、模板开发、分析报告、模板应用。更加强调流程、分工和沟通、应用模板化,分析智能化,一个成熟的结果应该是信息部门管理数据,业务部门提交数据需求,信息或业务部制作模板,分析数据生成报告,领导查看数据做汇总和策略调整,管理层可实时查看企业运营状况,企业重大战略调整可以直接调用汇总报告。数据化管理产品这里所讲的数据化管理产品并不是市面上成型的各类数据产品。而是能将企业数据管理过程中的一些重复性操作封装模块化,形成某一个通用模板或功能。诸如银行、互联网、零售行业的用户画像,通过已有数据,性别、地域、年龄、消费频次、喜好等标签,结合机器算法提炼与业务产品吻合的标签,进行精确推送。1、数据分析模板模板数据分析人员设计模板,将自己的对业务和商业逻辑的理解植入到分析的模板中去,最后成为指标模块、业务模块、全局模块。这样的模板通用性强,可以是一个文件,可以是应用程序,也可以是OA、ERP系统的一个组成部分。企业可以选择开发成一套数据管理的系统,并往平台化的方向发展,或者作为一个数据管理分析模块,部署在已有的管理系统。2、移动端&大屏可视化分析模板应用成熟后,考虑更好地为管理层和领导层服务,可以结合目前当下的HTML5技术,APP应用去做更好的应用。总结数据化管理的层次:依照业务,业务指导层、营运分析层、经营策略层、战略规划层。数据化管理的流程:需求分析、数据收集、数据整理、数据分析、数据可视化、模板开发、分析报告、模板应用。数据化管理的成果:应用模板、数据管理平台,便捷的移动端/大屏应用本文由 明悦数据 投稿至 数据分析网 并经编辑发表,内容观点不代表本站立场,如转载请联系原作者 。
2019年09月12日
125 阅读
0 评论
0 点赞
2019-08-29
如何为学习,实验和教学生成有意义的人造数据集?
这就是使用fakir获取示例Clickstream (tidy)数据是如此的简单。另一件值得注意的事情是,如果您查看fake_visit()文档,您会发现有一个seed参数,这意味着您可以控制数据的随机化和可重复性它们。fake_visits(from = \"2017-01-01\", to = \"2017-12-31\", local = c(\"en_US\", \"fr_FR\"), seed = 2811) %>% head()用例:French 数据此外,在上面使用fake_visit()函数时,您可能注意到了另一个属性local,它可以帮助您选择French数据而不是English数据。在我个人看来,如果您的任务是提高数据素养或使数据科学民主化,那么这一点至关重要。fake_ticket_client(vol = 10, local = \"fr_FR\") %>% head()在上面的例子中,我们使用了fakir的另一个函数fake_ticket_client(),它帮助我们给出一个典型的票据数据集(就像您从ServiceNow或Zendesk获得的数据集)用例:散点图所以,我在这篇文章开始关于iris数据集的叫嚷(别误会我:我对创建这个数据集的科学家们非常尊重,只是我对它的错误/过度使用了不欣赏)现在我们可以使用fakir数据集来克服它。fake_visits() %>% ggplot() + geom_point(aes(blog,about, color = as.factor(month)))(也许,不是一个好的散点图来显示相关性,但是,嘿,你可以教散点图不绘制花瓣长度和萼片长度)总结如果你从事教学或喜欢实验,不想使用老套的数据集,fakir是一个非常好的值得了解的包。正如fakir包的作者在描述中提到的,charlatan是另一种帮助生成有意义的假数据的r -包。参考文献fakir – Githubfakir – Documentation本文为专栏文章,来自:数据人网,内容观点不代表本站立场,如若转载请联系专栏作者 。
2019年08月29日
380 阅读
0 评论
0 点赞
2019-08-09
利用Python xlrd批量合并Excel文件
前言Python可以很方便地对Excel进行处理。本篇文章主要介绍xlrd包,高效灵活读取Excel的包。主要包含读取工作表名称,对工作名称的索引,查看单元格内容,获取单元格内容的数据类型(ctype : 0 empty,1 string, 2 number, 3 date, 4 boolean, 5 error)xlrd基本操作import xlrdimport pandas as pdimport numpy as nppath = r’C:UsersAdministratorDesktopexcelDemobook.xlsm’###打开工作簿xlsx = xlrd.open_workbook(path)###查看所有工作表名称all_shtnames = xlsx.sheet_names()###根据下标对工作表进行索引sheet1 = xlsx.sheets()[0]sheet1.nameOut[1]: ‘home’### 根据sheet索引或者名称获取sheet内容sheet2 = xlsx.sheet_by_index(1)print(sheet2.name + ‘ ‘ + str(sheet2.nrows) + ‘ ‘ + str(sheet2.ncols))Out[2]: ‘N1 21 3’sheet3 = xlsx.sheet_by_name(‘N2’)print(sheet3.name + ‘ ‘ + str(sheet3.nrows) + ‘ ‘ + str(sheet3.ncols))#查看sheet2的特定切片数据、整行整列,单个单元格数值(索引从0开始)sheet1_nrow5 = sheet2.row_values(4) #查看第5行数据sheet1_ncol3 = sheet2.col_values(2) #查看第3列数据cell11 = sheet2.cell(0,0).value ###.encode(‘utf-8’)cell12 = sheet2.cell_value(0,1) ###.encode(‘utf-8’)cell13 = sheet2.row(0)[2].value #查看第1行第3列的数据###获取单元格内容的数据类型###说明:ctype : 0 empty,1 string, 2 number, 3 date, 4 boolean, 5 errorsheet1.cell(0,0).ctype #第1行第1列:class 为string类型sheet1.cell(1,1).ctype #第2行第2列: 为string类型sheet1.cell(1,2).ctype #第2行第3列: 为number类型合并规律表名的工作簿(N1.xlsx….N10.xlsx)#要求:1)合并10个工作簿,表名具有规律性 (N1.xlsx,N2.xlsx…N10.xlsx)import osimport xlrd#from openpyxl import Workbookimport pandas as pdpath = ‘C:UsersAdministratorDesktopexcelDemounion_wk’data = []for i in range(1,11):wk_n = path + ‘N’ + str(i) + ‘.xlsx’xlsx = xlrd.open_workbook(wk_n)sht1 = xlsx.sheet_by_index(0) #第一个工作表nrow = sht1.nrowstitle = sht1.row_values(0) #查看第一行数据for j in range(1,nrow):data.append(sht1.row_values(j))content= pd.DataFrame(data)#修改标题content.columns= title#写入csv文件#content.to_csv(path+’py_union.csv’, sep=’,’, header=True, index=False)#写入excel文件content.to_excel(path+’py_union.xlsx’, header=True, index=False)合并无规律表名的工作簿(北京.xlsx,上海.xlsx…郑州.xlsx)#要求:1)合并10个工作簿,表名不具有规律性 (北京.xlsx,上海.xlsx…郑州.xlsx)import osimport xlrdimport pandas as pd#获取所有需要合并的工作簿路径,生成listdef file_name(file_dir):list=[]for file in os.listdir(file_dir):if os.path.splitext(file)[1] == ‘.xlsx’:list.append(file)return listpath = r’C:UsersAdministratorDesktopexcelDemo’wks = file_name(path)data = [] #定义一个空listfor i in range(len(wks)):read_xlsx = xlrd.open_workbook(path + ” + wks[i])sheet1 = read_xlsx.sheets()[0] #查看sheet1的数据nrow = sheet1.nrowstitle = sheet1.row_values(0) #查看第1行数据for j in range(1,nrow): #逐行打印data.append(sheet1.row_values(j))content= pd.DataFrame(data)#修改标题content.columns= title#写入文件#写入csv文件#content.to_csv(path+’py_union.xlsx’, sep=’,’, header=True, index=False)#写入excel文件content.to_excel(path+’py_union2.xlsx’, header=True, index=False)总结本文主要是利用xlrd对Excel工作簿来进行合并。当工作簿名字有规律的时候我们采用path拼凑的方法,当工作簿名字不具有规律的时候,我们采用遍历文件夹的方法进行读取,然后进行文件合并。本文由 大海鱼数据分析 投稿至 数据分析网 并经编辑发表,内容观点不代表本站立场,如转载请联系原作者 。
2019年08月09日
128 阅读
0 评论
0 点赞
1
2
...
9