国内外知名sns平台较知名的大数据服务平台有哪几家

有哪些好的数据来源或者大数据平台?
市场调研中经常需要各种数据证明观点,或者从大数据中发现规律,那么有哪些可以使用的数据来源(如国家统计局)或者大数据平台(如淘宝指数、百度指数)?———————————————————————————————————————————我先把题干里的网址写出来好了。。国家统计局:淘宝指数:百度指数:百度商情:另外还有百度推广,是款软件,看关键词热度的。抛砖引玉,求大神。
最近把答案中的所有网站收录到我的小站中了,大家有需要的可以收藏这个,方便查询。。————————————分享下我自己平时收集的..共100多个O_O网站分析类: - 以百度海量网民行为数据为基础的数据分享平台 - 了解 Google中热度上升的搜索
- 基于360搜索的大数据分享平台 - 网站排名 - Google出品,可以对目标网站进行访问数据统计和分析 - 百度推出的一款免费的专业网站流量分析工具 - 是腾讯数据云,腾讯大数据战略的核心产品移动应用分析类: - 以友盟海量数据为基础的观察移动互联网行业趋势的数据平台 - 20亿独立智能设备为依据,提供应用排行榜 - 每日跟踪超过 100万款应用,分析超过6亿条数据 - App数据分析与ASO优化专家,应用与游戏推广平台 - 基于移动APP统计的分析工具 - 国内知名的移动大数据服务提供商 - 专业的APP排行历史跟踪软件实时榜单排名分析 - 移动应用和数字内容时代数据分析和市场数据的行业领导者 - 国内最专业的APP数据分析平台媒体传播类:电商数据类:投资数据类: - 一个免费的科技公司、技术行业知名人物和投资者相关信息的数据库 - 风险投资,私募股权,创业者相关投资,私募,并购,上市的研究 - 关注TMT领域创业与投资的数据库 - 提供最全的投资公司信息 - 美国创业项目大全 - 36kr子站,每天更新新产品介绍 - 介绍初创公司金融数据类: - 全线上网络借贷信息中介平台 - 告网贷行业危机,公正透明地披露网贷平台数据 - P2P网贷平台排名 - 行业过去30天详细交易数据,网贷天下统计、发布,每天6点更新游戏数据:国家社会数据:其它数据: - 网消指数&互金指数数据分析机构: - 专注于泛娱乐领域的大数据分析和挖掘
不知道题主关注的是哪些领域,其它知友提供了非常棒的回答。考虑到他们的分享以国内数据源为主,我来补充一些国外数据源。美国管理协会( AMA)旗下杂志《Marketing News》每年会发布一份Gold Top 50(原为Honomichl Top 50)榜单,列举过去一年美国营收排名前50的市场研究公司。上榜的公司就是非常好的数据来源。2016年发布的Gold Top 50榜单,前10名数据公司及其官网分别为:Nielsen()IMS Health()Kantar()IRI()Ipsos()Westat()Gfk()comScore()NPD()JD Power()剩余机构及其网站,请查看下列详细列表:摘取常见的几家机构,介绍下它们的数据类型:Nielsen:全球性的市场研究公司,它的调研集中在快消、汽车、电信等领域,数据涉及消费者偏好、购买行为等多项内容,有时还会提供具有代表性的案例研究。Kantar:同样是一家综合性的市场研究公司,研究覆盖快消、健康、品牌、金融等领域,数据涉及产品的用户喜好、品牌认知度等内容。Kantar对公众比较开放,网站上的数据和分析可以免费查看。comScore:一家在教育、能源、医疗领域均有研究的市场分析公司,但最擅长的领域还是媒体营销。comScore的数据通常涉及网站流量、流媒体视频消费、用户购买行为等,对美国本土市场的研究很深入。过去几年,comScore以每年一期的节奏发布美国应用市场报告,分析当年应用市场的现状和未来趋势。今年移动市场表现出非常明显的衰落迹象,comScore两年前就发现了。NPD:综合性市场研究公司。NPD每年访问超过1200万顾客,服务范围覆盖服装、电气、汽车、消费电子、体育等多个领域。它能够提供产品销量预测、用户行为等数据。除了Gold Top 50,再补充一些常用数据源,以科技、互联网为主:科技IT数据来源IDC()Gartner():两家公司在IT、电信、消费电子、应用软件领域有很深积累,每年都会发布全球市场智能手机、平板电脑、PC出货量,经常关注科技资讯的知友对它们应该很熟悉。其实除了科技产业,IDC和Gartner还会定期公开能源、健康、制造等的调研数据。进行相关领域研究时,可以将它们的数据作为一项参考。上市公司数据来源:1. 美股:纳斯达克()纽交所()SEC()2. 港股:香港联交所()3. A股:上交所()深交所()证监会()研究上市公司的人员结构、业务构成,财报是常用手段。以一定时间跨度分析一家公司的财报,比单纯看某个季度更有价值。美股财报可以访问纳斯达克、纽交所或SEC的网站获取,港股财报可以访问香港联交所网站获取,A股财报可以访问上交所、深交所或证监会网站获取。媒体与营销数据来源:1. 皮尤()独立民调机构,调查范围覆盖政治、社会趋势、宗教,媒体新闻、科技互联网,调查报告和数据可以免费查看。皮尤具有非常现代化的网页设计,体验好过大多数调研机构网站。2. VidStatsX()第三方YouTube统计平台,可以提供不同频道的订阅数、排名、视频观看量等数据。VidStatsX数据的时间跨度很大,时效性也很强,可以观察一些爆款视频的数据变化。移动应用数据来源App Annie()App Annie可以提供一款应用在不同应用商店中的日排名,历史排名以及在不同国家的评级数据。用户也可以查看更详细的下载、收入预估等数据,但这些都需要付费订阅。
简单浏览几个答案竟然没有人提到。强烈推荐,去年做一些case的时候查数据用了很多很多次。然后这个好像是Google的一个数据,其实你想要不付费得到高质量的有时效性的社会经济数据蛮难的,个人经验以前做过的地方会有时候像去尼尔森等等机构买数据还是一笔很大的开销的。对了还有这个地方我觉得蛮有趣的定期回去看,,这是斯坦福做的一个数据可视化的项目,我理解他是做一写text clustering或者topic model去检测每一天或者一段时间的news article的topic变化。
作者:镇元子链接:来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。0、 网页历史1、 百科全书2、 电影电视3、 文艺历史4、 摄影照片5、 设计模式6、 媒体历史7、 电影&设计8、 调酒9、 汉语言10、 健身11、 葡萄酒12、 时尚 ( 会员才能看)13、 计算机历史14、、、、、、、
开发15、 百科 16、 图库 更多:17、 搜索历史18、 特效19、、 、、、
、 文艺科技历史20、 论文21、 兴趣 22、、 找片23、 地理信息24、 主题维基25、 GIF搜索26、、 微信知乎搜索27、 电子书搜索28、、、、 应用29、 大陆搜索趋势30、 航天31、 历史博物32、 电子商务33、 电脑动画34、 广告35、、、 调查&咨询36、 设计36、 模拟器37、 视频游戏历史38、、、、 奢侈品39、、、、、、体育40、 音乐41、 图书馆目录42、 广告传播43、、、、、、、、、、
垃圾食品44、、 洗化45、 摄影照片46、、、 体育用品47、 目录48、 目录49 50
银联智策:银联旗下公司,银行卡数据天行数科:学籍、手机实名闪银:通话详单抓取、手机银行卡姓名一致性认证、手机实名认证、网贷黑名单聚信立:授权抓取运营商电商信用卡数据、手机号码标记服务、座机电话黄页服务、网贷黑名单量化派:通话详单抓取企查查:学历查询、身份证实名认证、失信和被执行人查询同盾:网贷记录、手机号码库、网贷黑名单、欺诈黑名单、逾期记录、设备指纹、反欺诈好贷:学籍、网贷相关信息、车辆宝、尽调宝、防控宝、消费宝(对接了许多家三方同类公司)安融征信:企业及个人网贷记录、企业及个人线下小贷记录、企业银联数据、个人在企业的投资及任职信息及个人关联企业征信报告服务前海征信:(较好的产品是风险度即网贷黑名单,常贷客即多头借贷行为)企业欠税信息、对接银联数据(个人(卡号)及企业(pos商户编号))、企业及个人好信度、企业及个人风险度、企业及个人法院执行信息、企业行政处罚信息、企业舆情信息、个人涉赌信息、企业图谱、反欺诈鹏元征信:企业近6个月pos交易分析报告、贷中监控企业的工商变更信息(行政处罚信息等风险信息)、行业景气指数报告、企业车辆信息核查、企业电话反查、企业经营分析等face++:人脸识别、蚂蚁金服入股考拉征信:简历数据航天科工:增值税防伪税控系统等,前海征信已与其对接航海管家:乘坐飞机数据(出没于赌博之地、飞机舱位、飞行次数等)、前海征信已与其对接51征信(蜜蜂数据):行业黑名单、人脸识别、法院执行信息、犯罪记录、机动车查询、学历查询、身份证查询、银行卡查询、银联信息查询、工商信息查询、手机号与运营商查询、多方借贷监控、逾期监控、网贷行业数据查询、央行征信查询、个人p2p借款信息查询、企业p2p借款信息查询、第三方信用报告查询等聚合数据():全国车辆违章、短信api服务、身份证实名认证、手机实名认证、姓名银行卡身份证号手机号是否一致、定位sdk等91征信:重点解决多头负债、人人催宜信致诚:借款记录查询等九次方:国家大数据、政府大数据、金融大数据等信贷记录等不良信息:前海征信、聚信立、好贷、同盾、闪银等银行流水:银联、前海征信、鹏元征信工商信息:工商局、企信宝、企查查、天眼查、企+法院执行信息:企信宝、企查查、天眼查、政府网站企业欠税信息:各地方税务局发票真伪查询:国家税务局
做数据可视化或者数据分析的朋友可能经常会碰到的问题就是有想法没有数据。想到我有几位朋友就是这样,因此每次我抓取了数据我会第一时间输出给他们。有些可视化或者数据分析的朋友可能自己会爬虫所以当自己有想法的时候他们就回自己手动取做爬虫去抓取一些数据。但是往往是有可能有些数据抓取不到,还有可能有些人根本不会爬虫。这时候为了更加方便我们快捷的学习可视化和数据分析的知识,我们的时间应该投入到后续的研究而不是数据的获取。但是 如果你很倔强(比如我)非要通过爬虫方式抓取数据进行研究分析那么同样可以给你推荐一个学习爬虫的路线和学习资料,助你10天入门爬虫:冲着以上的一些方面,于是在今天想给大家推荐一些可以免费或者只需要花费很小的代价就可以获取数据的网站或者方式,一下推荐的网站格式为标题加简单那介绍加网站的一张配图,你可以按照介绍取寻找你需要的资源。第一推荐这样一个获取数据的方式:(1)、不得不说这真是一个获取数据的好地方,主要包含:国内宏观、区域数据、世界经济、价格数据、工业行业、区域数据、国内宏观、区域数据、世界经济、价格数据、工业行业、区域数据。是否免费:否(花费论坛金币) (2)、此网站数据就比较多涉及的方面也比较多了,合适各种行业各种朋友。主要包括数据:语音识别、医疗健康、交通地理、电子商务、社交网络、图像识别、统计年鉴、研发数据等领域。是否免费:否(论坛金币,部分免费,部分花费少量金币) (3)、主要包含数据:生活服务、教育、能源、建筑、交通运输、政府、金融、农业、医疗、卫生是否免费:否(大部分免费,根据自己选择) (4)、(4)、主要数据包括:社交网络、电子商务、企业名录、 金融数据、生活服务、科研数据、知识库是否免费:否(不全免费,部分需要rmb) (5)、(此网站界面有点low,不截图解释请自行访问查看)(6)、 (有部分数据)(7)、听名字就知道是什么数据了吧,而且所有数据都是免费,当然这个网站还有彩蛋。在文末的友情链接里面有很多地方的数据以及国外各国的数据。所以不要简单的认为只有本网站那么点数据喔。网站最后的友情链接请仔细查看,不要说我没告诉你。 (8)、这一位博主的博客,maybe出于研究目的,他整理了一些 地球物理相关的资,如果有人需要研究这方面的东西可以这里去下载你想要的资源,当然全部是免费的资源了。 (9)、同样包含了国家的各种数据,点进去你可能会发现新世界的大门,而且所有数据均是免费!果然党是不会骗你钱的,好好跟党混没错。(10)、数据主要包括:能源、电力、冶金、化工、机电、电子、汽车、物流、房产、建材、农林、安防、包装、环保、食品、烟酒、医药、保健品、IT、通信、数码、家电、家居、家具、文化、传媒、办公、文教、服务、金融、培训、旅游、服装、玩具、礼品、工艺品是否免费:全部免费 (11)、不喷不喷不喷!重要的事情说三次。这点数据还是有用的! 以上来源于我的文章:
微博人物关系图(也就是圈子图):识微互动:网络安全类搜索(包括搜索非80端口网站、物联网设备等)傻蛋搜索:
知道一个DevStore(),app开发,绝对大数据
已有帐号?
无法登录?
社交帐号登录||||||||||||||
当前位置:&&
2014年中国十大数据中心IT基础设施第三方服务公司排名
1中国电信集团系统集成有限责任公司
网友评论仅供其表达个人看法,并不表明前瞻网立场。
2神州数码系统集成服务有限公司
网友评论仅供其表达个人看法,并不表明前瞻网立场。
3太极计算机股份有限公司
网友评论仅供其表达个人看法,并不表明前瞻网立场。
4联通系统集成有限公司
网友评论仅供其表达个人看法,并不表明前瞻网立场。
5东华软件股份公司
网友评论仅供其表达个人看法,并不表明前瞻网立场。
6东软集团股份有限公司
网友评论仅供其表达个人看法,并不表明前瞻网立场。
7北京华胜天成科技股份有限公司
网友评论仅供其表达个人看法,并不表明前瞻网立场。
8中铁信息工程集团有限公司
网友评论仅供其表达个人看法,并不表明前瞻网立场。
9中国软件与技术服务股份有限公司
网友评论仅供其表达个人看法,并不表明前瞻网立场。
10上海天玑科技股份有限公司
网友评论仅供其表达个人看法,并不表明前瞻网立场。
请尊重版权:本文知识产权归所有,转载请标明来源。
资料来源:
已有人评论 相关内容阅读
关注前瞻微信
有什么感想,您也来说说吧!
网友评论仅供其表达个人看法,并不表明前瞻网同意其观点或证实其描述。
有什么感想,您也来说说吧!
网友评论仅供其表达个人看法,并不表明前瞻网同意其观点或证实其描述。
免责声明:
1、凡本网注明“来源:***(非前瞻网)”的作品,均转载自其它媒体,转载目的在于传递更多的信息,并不代表本网赞同其观点和对其真实性负责。
2、如因作品内容、版权和其它问题需要同本网联系的,请在30日内进行。
征稿启事:
为了更好的发挥前瞻网资讯平台价值,促进诸位自身发展以及业务拓展,更好地为企业及个人提供服务,前瞻网诚征各类稿件,欢迎有实力机构、研究员、行业分析师、专家来稿。()
随着我国电子商务的迅猛发展,消费者越来越需要高效、迅捷、...
热门指南榜签到送积分
每天登录签到获赠 1-10 不等的积分奖励,每日最多可获得一次积分奖励 !
?一、数据概述
14名口音较重的人在手机环境下录制的语音数据,每人录制500句。 所有数据均做过人工转写。可用于语音识别研发。二、数据详情
1、录音文本
一、数据概述
本数据为50名发音人在手机环境下录制的四川数据,数据总量为2500人。
所有数据均做过人工转写,可用于四川话语音识别研发。 二、数据详情
1、录音环境
数据介绍不同籍贯、性别的发音人用三星手机录制的日语语料,共800名录音人,每人300句。所有数据均做过人工转写。可用于手机日语语音识别研发。录制数据240051条(288小时),有效数据225004条...
产品概况 车载环境中文手机录音数据库是由不同籍贯、性别的发音人在车载环境下用手机录制的中文普通话语料库。共690多名录音人,每人300句。所有数据均做过人工转写,转写后有效语音数据为208151条。可...
数据库包含475个人,每个人包含21张图片,分别对应不同的姿态。50%男性,50%女性,包括老,中,青,少,幼。图像分辨率为,人脸区域大小为500*500以上。人脸姿态按照下图标定点进...
数据介绍数据堂对8.3万张人脸图片,均标注了95个人脸关键点,可用于人脸部位检测等用途。人脸图片数据覆盖不同肤色(黄、白、黑)、不同年龄(婴儿、少年、成人、老人)、不同性别(男、女)的人群。关于人脸图...
数据介绍:包括800名国内大陆居民在不同光线、不同姿态的图片。所有图片均为实地采集,并得到被采人许可。可用于图像处理等用途。拍摄时间:4.5 具体指标:1.
面部(以左耳到...
数据介绍:从互联网上采集的亚洲名人的人脸图片,原数据共1万人,每人的图片数为50张以上。数据取其中40人。可用于人脸识别用途。 具体指标:
人群以中、日、韩等亚洲名人为主。在互联网抓取图片的基础上...
数据介绍包含1万篇新闻及1万篇微博的事件标注结果,可用于事件提取及舆情检测等研究领域。具体指标1) 语料范围11836篇包含事件的新闻:均来自新浪网的热门新闻,包含国内新闻5612篇,财经新闻2387...
数据介绍现有的句法树库都是基于新闻等书面语料的,随着微博研究的火热,我们建立了最大的中文微博句法树库,共包括53097个中文微博句子,人工同时标注了依存句法及短语结构,可用于微博数据分析及自然语言处理...
项目背景小区,是指在城市一定区域内建筑的、具有相对独立居住环境的大片居民住宅,配有成套的生活服务设施,如商业网点、学校(幼儿园)等。小区的特点:住宅形式的多样性;规划的统一性;小区功能的多样性;房屋产...
数据概述:华盛顿邮报是美国最老,最大的报纸。该数据集为十年全部文章构成语料集合,共计647263篇,压缩后为8.15G。数据格式:该数据集包含的文件为html格式文件,每个html文...
数据产品概况
全国实时停车场数据,收集了各停车场信息,为用户提供停车场ID、停车场地址、停车场类型、停车场图片、停车场经纬度、停车场所在城市、车位状态、总停车位数、空停车位数等数据。可用于停车...
数据产品概况 北京公交车GPS数据包含北京是公交车GPS数据,记录了该市公交车移动轨迹。其中每一条GPS数据都包含完整的GPS基本参数,如经纬度、行驶角度、速度、定位描述等参数。该数据为样例。 项目背...
数据介绍车流统计是视频监控和道路监测的重要技术。本数据集包括25个小时的道路车辆视频,其中5个小时的视频进行了车辆数量统计。可用于道路视频中的车流量统计和分析用途。具体指标1)视频采集采集环境位于道路...
数据产品概况浮动车辆GPS数据涵盖了北京市约30000辆汽车(包括25000辆出租车,4000辆旅游车,1000辆郊区电动出租车),完整全面地记录了该市出租车和旅游大巴的移动轨迹。其中每一条GPS数据...
大家都在看
数据下载排行
最新发布数据大数据处理分析的六大最好工具
发表于 17:21|
作者中国大数据
摘要:来自传感器、购买交易记录、网络日志等的大量数据,通常是万亿或EB的大小,如此庞大的数据,寻找一个合适处理工具非常必要,今天我们为大家分享在大数据处理分析过程中六大最好用的工具。
【编者按】我们的数据来自各个方面,在面对庞大而复杂的大数据,选择一个合适的处理工具显得很有必要,工欲善其事,必须利其器,一个好的工具不仅可以使我们的工作事半功倍,也可以让我们在竞争日益激烈的云计算时代,挖掘大数据价值,及时调整战略方向。本文转载自中国大数据网。
CSDN推荐:欢迎免费订阅《》获取更多Hadoop技术文献、大数据技术分析、企业实战经验,生态圈发展趋势。
以下为原文:
大数据是一个含义广泛的术语,是指数据集,如此庞大而复杂的,他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些数据集收集自各种各样的来源:传感器、气候信息、公开的信息、如杂志、报纸、文章。大数据产生的其他例子包括购买交易记录、网络日志、病历、事监控、视频和图像档案、及大型电子商务。大数据分析是在研究大量的数据的过程中寻找模式,相关性和其他有用的信息,可以帮助企业更好地适应变化,并做出更明智的决策。
Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop
是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。
Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:
高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
Hadoop带有用 Java 语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写,比如
HPCC,High Performance Computing and Communications(高性能计算与通信)的缩写。1993年,由美国科学、工程、技术联邦协调理事会向国会提交了“重大挑战项目:高性能计算与
通信”的报告,也就是被称为HPCC计划的报告,即美国总统科学战略项目,其目的是通过加强研究与开发解决一批重要的科学与技术挑战问题。HPCC是美国
实施信息高速公路而上实施的计划,该计划的实施将耗资百亿美元,其主要目标要达到:开发可扩展的计算系统及相关软件,以支持太位级网络传输性能,开发千兆
比特网络技术,扩展研究和教育机构及网络连接能力。
该项目主要由五部分组成:
高性能计算机系统(HPCS),内容包括今后几代计算机系统的研究、系统设计工具、先进的典型系统及原有系统的评价等;
先进软件技术与算法(ASTA),内容有巨大挑战问题的软件支撑、新算法设计、软件分支与工具、计算计算及高性能计算研究中心等;
国家科研与教育网格(NREN),内容有中接站及10亿位级传输的研究与开发;
基本研究与人类资源(BRHR),内容有基础研究、培训、教育及课程教材,被设计通过奖励调查者-开始的,长期 的调查在可升级的高性能计算中来增加创新意识流,通过提高教育和高性能的计算训练和通信来加大熟练的和训练有素的人员的联营,和来提供必需的基础架构来支
持这些调查和研究活动;
信息基础结构技术和应用(IITA ),目的在于保证美国在先进信息技术开发方面的领先地位。
Storm是自由的开源软件,一个分布式的、容错的实时计算系统。Storm可以非常可靠的处理庞大的数据流,用于处理Hadoop的批量数据。Storm很简单,支持许多种编程语言,使用起来非常有趣。Storm由Twitter开源而来,其它知名的应用企业包括Groupon、淘宝、支付宝、阿里巴巴、乐元素、
Admaster等等。
Storm有许多应用领域:实时分析、在线机器学习、不停顿的计算、分布式RPC(远过程调用协议,一种通过网络从远程计算机程序上请求服务)、 ETL(Extraction-Transformation-Loading的缩写,即数据抽取、转换和加载)等等。Storm的处理速度惊人:经测
试,每个节点每秒钟可以处理100万个数据元组。Storm是可扩展、容错,很容易设置和操作。
Apache Drill
为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法,Apache软件基金会近日发起了一项名为“Drill”的开源项目。Apache
Drill 实现了 Google's Dremel.
据Hadoop厂商MapR Technologies公司产品经理Tomer Shiran介绍,“Drill”已经作为Apache孵化器项目来运作,将面向全球软件工程师持续推广。
该项目将会创建出开源版本的谷歌Dremel Hadoop工具(谷歌使用该工具来为Hadoop数据分析工具的互联网应用提速)。而“Drill”将有助于Hadoop用户实现更快查询海量数据集的目的。
“Drill”项目其实也是从谷歌的Dremel项目中获得灵感:该项目帮助谷歌实现海量数据集的分析处理,包括分析抓取Web文档、跟踪安装在Android
Market上的应用程序数据、分析垃圾邮件、分析谷歌分布式构建系统上的测试结果等等。
通过开发“Drill”Apache开源项目,组织机构将有望建立Drill所属的API接口和灵活强大的体系架构,从而帮助支持广泛的数据源、数据格式和查询语言。
RapidMiner
RapidMiner是世界领先的数据挖掘解决方案,在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价。
功能和特点:
免费提供数据挖掘技术和库
100%用Java代码(可运行在操作系统)
数据挖掘过程简单,强大和直观
内部XML保证了标准化的格式来表示交换数据挖掘过程
可以用简单脚本语言自动进行大规模进程
多层次的数据视图,确保有效和透明的数据
图形用户界面的互动原型
命令行(批处理模式)自动大规模应用
Java API(应用编程接口)
简单的插件和推广机制
强大的可视化引擎,许多尖端的高维数据的可视化建模
400多个数据挖掘运营商支持
耶鲁大学已成功地应用在许多不同的应用领域,包括文本挖掘,多媒体挖掘,功能设计,数据流挖掘,集成开发的方法和分布式数据挖掘。
&Pentaho BI
Pentaho BI 平台不同于传统的BI 产品,它是一个以流程为中心的,面向解决方案(Solution)的框架。其目的在于将一系列企业级BI产品、开源软件、API等等组件集成起来,方便商务智能应用的开发。它的出现,使得一系列的面向商务智能的独立产品如Jfree、Quartz等等,能够集成在一起,构成一项项复杂的、完整的商务智能解决方案。
Pentaho BI 平台,Pentaho Open BI 套件的核心架构和基础,是以流程为中心的,因为其中枢控制器是一个工作流引擎。工作流引擎使用流程定义来定义在BI
平台上执行的商业智能流程。流程可以很容易的被定制,也可以添加新的流程。BI 平台包含组件和报表,用以分析这些流程的性能。目前,Pentaho的主要组成元素包括报表生成、分析、数据挖掘和工作流管理等等。这些组件通过
J2EE、WebService、SOAP、HTTP、Java、JavaScript、Portals等技术集成到Pentaho平台中来。 Pentaho的发行,主要以Pentaho
SDK的形式进行。
Pentaho SDK共包含五个部分:Pentaho平台、Pentaho示例数据库、可独立运行的Pentaho平台、Pentaho解决方案示例和一个预先配制好的
Pentaho网络服务器。其中Pentaho平台是Pentaho平台最主要的部分,囊括了Pentaho平台源代码的主体;Pentaho数据库为
Pentaho平台的正常运行提供的数据服务,包括配置信息、Solution相关的信息等等,对于Pentaho平台来说它不是必须的,通过配置是可以用其它数据库服务取代的;可独立运行的Pentaho平台是Pentaho平台的独立运行模式的示例,它演示了如何使Pentaho平台在没有应用服务器支持的情况下独立运行;Pentaho解决方案示例是一个Eclipse工程,用来演示如何为Pentaho平台开发相关的商业智能解决方案。
Pentaho BI 平台构建于服务器,引擎和组件的基础之上。这些提供了系统的J2EE 服务器,安全,portal,工作流,规则引擎,图表,协作,内容管理,数据集成,分析和建模功能。这些组件的大部分是基于标准的,可使用其他产品替换之。
原文链接:
&(责编/魏伟)
以“&”为主题的&将于5月20-23日在北京国家会议中心隆重举办。产业观察、技术培训、主题论坛、行业研讨,内容丰富,干货十足。票价折扣还剩最后5天,过后将恢复原价,需要购买的朋友,请抓住这最后的机会,点击
推荐阅读相关主题:
CSDN官方微信
扫描二维码,向CSDN吐槽
微信号:CSDNnews
相关热门文章

我要回帖

更多关于 国内外知名sns平台 的文章

 

随机推荐