如何用大数据分析股票流量_如何利用数据分析股票走势呢

㈠如何分析股票资金流向

分析股票资金流向首先看十大流通股股东，确定是券商还是基金在里边坐庄；其次看持有这支股票得所有人数是多了还是少了，通过这个可以知道庄家是在吸筹还是在抛售；

第三就是看成交量，有巨量那一定是庄家在做动作，结合k线分析，低价巨量收阳，庄家最
后吸筹试盘，准备拉升，低价巨量收阴，庄家认为有进一步打压股价的需要，高价巨量收阳，行情暂时还不会结束，这是庄家在边拉升边出货的常用手段，高价巨量收阴、或收长上影线的十字星，是庄家在出货，立刻离场；

第四看股票的分时线，很多庄家为了不引起股价大的波动会在2.30---3.00这个时间段进行吸筹操作，所以如果在这个时间段成交量比前边的大很多，那就是庄家在吸筹；
庄家的大部分时间用在了吸筹、振荡上，拉升只是一两周的时间。

这些可以慢慢去领悟，炒股最重要的是掌握好一定的经验与技巧，这样才能作出准确的判断，新手在把握不准的话不防用个牛股宝手机炒股去跟着里面的牛人去操作，这样要稳妥得多，希望可以帮助到您，祝投资愉快！

㈡基于微信大数据的股票预测研究

基于微信大数据的股票预测研究
大数据是近些年来的热门话题，无论国际上还是国内，影响很大。经济学、政治学、社会学和许多科学门类都会发生巨大甚至是本质上的变化和发展，进而影响人类的价值体系、知识体系和生活方式。而全球经济目前生成了史无前例的大量数据，如果把每天产生的大量数据比作神话时期的大洪水是完全正确的，这个数据洪流是我们前所未见的，他是全新的、强大的、当然，也是让人恐慌但又极端刺激的。
而我所分享的话题，正是在互联网环境下，如何利用大数据技术，进行股票预测的研究。–今天，我想分享我认为有意义的四点。
1.大数据下的商业预测
根据大数据，我们可以有效地进行故障、人流、流量、用电量、股票市场、疾病预防、交通、食物配送、产业供需等方面的预测。而本文我们所关心的内容是股票市场的预测。
大数据的核心是预测，预测依赖于对数据的分析。那么分析的方法是否是基于随机采样的结果而设计的，这样的分析方法是否会有误差？
从传统认识上，由于资源和科技的局限，如人和计算资源受限、从计算机处理能力来讲无法处理全部数据来获取人们所关注的结果。因此随机采样应运而生，通过所选取的个体来代表全体，如使用随机抽取的方式来使得推论结果更科学。但既然提到了大数据，它是资源发展到一定程度、以及技术发展到一定阶段产生的一个新的认识。如同电力的出现，使人类进入了一个快速发展阶段，大数据也一样，它的含义是全体样本，从整体样本来做推论。在本文大数据的含义是所有股票在整个社交网络上的流动信息，从数据源上讲，本文没有采用所有社交网络上的数据，只分析了微信这个最具代表性的社交媒体作为信息源。
互动数据能反映用户情绪，搜索数据能反映用户的关注点和意图，在股市预测时这两种数据哪种更具有参考价值？
我认为都有价值，互动数据反映了用户对某一特定股票的喜好和厌恶，可以简单描述为对该股票的操作是继续持有还是卖出；而搜索数据则代表用户在收集该股票信息的过程，它是关注度的概念，某只股票搜索度高则意味着消息的影响力大。互动代表着方向，搜索代表着振幅。
我们知道这两种数据得出的结论会有差异，您是如何平衡这两种数据反映的情况来进行预测的？
正如上一个问题里提到的，如果是股票推荐，买进卖出等原则问题，则应该考虑互动数据，但如果已经买到手了，搜索数据可以提供一个幅度的概念，类似债券评级A级、AA级、AAA级等，供投资者参考，因为不同投资者对风险的承受度是不同的。
将股票和市场的消息整理成140字的短消息发布，是否意味着主要发布渠道是微博？现在微信公众号很火，有没有考虑通过这个渠道也发布消息？
事实上，信息传播的方式很多，微信作为新媒体当然影响力不容小觑，但目前技术投入最小的还是邮件、短信等方式，未来会考虑使用公众号来推送股票和市场消息。
如果在未来通过微信公众号推送消息，那么推送的消息会不会作为数据来源被再次采集？这会有多大的影响？
会被采集，但互联网上的每日关于个股的信息数量会达到很大，该推送会增加推荐股票1点权重，每只股票的权重成百上千，因此影响极小。
数据来源是微信公众号，除了准确性的考虑之外，是否还考虑过这样收集数据会较少触犯个人隐私？
从法律角度来看，搜索微信或其他个人聊天记录，是侵犯个人隐私权的，因此如果腾讯开放了这样的接口，每个公民都可以对这样的行为进行投诉、抗议、甚至进行法律起诉直至其改正过错、赔偿损失的。
这样是否意味着即使存在违法的行为，其结果也是由腾讯来承担，而我们作为数据的使用方不需要承担任何法律责任？
在整个社会，我们作为系统技术提供方，应恪守大数据的伦理道德，遵守国家法律，如侵犯个人隐私，系统不会采集，谷歌有一句座右铭“谷歌不作恶”，本文提到的系统也一样。
2.基于大数据进行股票推荐实验
股票的及时度反应了微信文章所发布的时效性，及时度越高，数据价值就越大。
股票的热度反应了当前某只股票被关注的频度，关注频度越大，上涨的可能性越高。

数据的完整性：我们采用循环的方式对所有深沪两地发行约2236只股票（创业版除外）在微信搜索网站上的搜索结果进行保存。
数据的一致性：文件格式由负责保存数据文件的程序决定，单一的流程保障了文件的一致性。
数据的准确性：由于所分析的订阅号文章的是由微信公共平台的公众号所提供，在一定程度上杜绝了虚假消息对于预测系统的破坏。
数据的及时性：考虑到磁盘读写以及采集程序所处的网络带宽，以及搜索引擎对于采集程序的屏蔽，程序中采集两条信息之间间隔了5秒，因此理论上11180秒（3.1个小时）可收集完当日推荐所需要的数据。对于每个交易日，在9点-9点30分之间采集所有数据，需要7台以上的设备可达到最佳效果。本次试验受限于试验设备，在一台设备上，交易日每天早六时开始进行数据采集，也满足及时性要求。
数据分析：查看三个高优先级的股票，该股票当日的开盘价与收盘价，再与当日（2015-4-8）上证综指进行比较，可得在收益上该算法是优于上证综指为样本的整体股票的股价差收益的。
实验结论：按照上述方式，系统每天推荐出当日股票，在开盘时进行买进，在第二个交易日进行卖出。经过一个月21个交易日（2015-3-1至2015-3-31），系统的收益为20%/月。通过微信搜索公众号来预测市场走势和投资情绪呈现出正相关性，因此可以作为股票甄选的因子。
3.股票预测的大数据发展趋势
网络数据分成三种：
一是浏览数据，主要用于电商领域的消费者行为分析，浏览数据反映了用户每一步的访问脚步，进一步刻画出用户的访问路径，分析不同页面的跳转概率等。
二是搜索数据，主要指搜索引擎记录的关键词被搜索频次的时间序列数据，能反映数亿用户的兴趣、关注点、意图。
三是互动数据，主要是微博、微信、社交网站的数据，反映用户的倾向性和情绪因素。
2013年诺贝尔经济学奖得主罗伯特?席勒的观点被无数采访对象引述。席勒于上世纪80年代设计的投资模型至今仍被业内称道。在他的模型中，主要参考三个变量：投资项目计划的现金流、公司资本的估算成本、股票市场对投资的反应（市场情绪）。他认为，市场本身带有主观判断因素，投资者情绪会影响投资行为，而投资行为直接影响资产价格。
计算机通过分析新闻、研究报告、社交信息、搜索行为等，借助自然语言处理方法，提取有用的信息；而借助机器学习智能分析，过去量化投资只能覆盖几十个策略，大数据投资则可以覆盖成千上万个策略。
基于互联网搜索数据和社交行为的经济预测研究，已逐渐成为一个新的学术热点，并在经济、社会以及健康等领域的研究中取得了一定成果。在资本市场应用上，研究发现搜索数据可有效预测未来股市活跃度（以交易量指标衡量）及股价走势的变化。
对于搜索数据：互联网搜索行为与股票市场的关联机理。这个研究属于行为金融与互联网的交叉领域，其原理是：股票量价调整是投资者行为在股票市场上的反应；与此同时，投资者行为在互联网搜索市场也有相应地行为迹象，我们要做到是：找到互联网搜索市场中领先于股票交易的行为指标，综合众多投资者的先行搜索指标，对未来的股票交易做出预判。
如同天气预报那样，不断优化模型、灌入海量信息，然后给出结果。并且在处理的信息中，有80%是“非结构化”数据，例如政策文件、自然事件、地理环境、科技创新等，这类信息通常是电脑和模型难以消化的。采用了语义分析法，可以将互动数据里的金融对话量化为“-1（极度看空）”到“1（极度看多）”之间的投资建议，通过分析互动数据的数据文本，作为股市投资的信号。
4.正在发生的未来
大数据并不是一个充斥着算法和机器的冰冷世界，人类的作用依然无法被完全替代。大数据为我们提供的不是最终答案，只是参考答案，帮助是暂时的，而更好的方法和答案还在不久的将来。
大数据在实用层面的影响很广泛，解决了大量的日常问题。大数据更是利害攸关的，它将重塑我们的生活、工作和思维方式。在某些方面，我们面临着一个僵局，比其他划时代创新引起的社会信息范围和规模急剧扩大所带来的影响更大。我们脚下的地面在移动。过去确定无疑的事情正在受到质疑。大数据需要人们重新讨论决策、命运和正义的性质。拥有知识曾意味着掌握过去，现在则意味着能够预测未来。
大数据并不是一个充斥着算法和机器的冰冷世界，其中仍需要人类扮演重要角色。人类独有的弱点、错觉、错误都是十分必要的，因为这些特性的另一头牵着的是人类的创造力、直觉和天赋。这提示我们应该乐于接受类似的不准确，因为不准确正是我们之所以为人的特征之一。就好像我们学习处理混乱数据一样，因为这些数据服务的是更加广大的目标。必将混乱构成了世界的本质，也构成了人脑的本职，而无论是世界的混乱还是人脑的混乱，学会接受和应用他们才能得益。
我相信，利用基础数据、搜索数据、互动数据再进行加权计算，可以对所有股票进行大数据遴选，从而给出投资建议。我认为，我们的肉身刚刚步入大数据时代，但我们的精神还滞留在小数据、采样思维之中，率先用理性击碎固有思维的人，也将率先获得大数据带来的益处。

㈢怎样分析股票的成交量

答覆楼主：成交量的变化是可以理解。大致上分为异常放量、温和放量、温和缩量、异常紧缩等
四种概念。异常放量与温和放量等两种，一般而言是主力与股民介入的态度积极。温和缩量与异
常紧缩，一般而言是主力与股民对该股票的态度观望。分述如下

（1）温和放量与温和缩量：一般是延续整体k线趋势。整体k线是上涨或下跌，配合温和放量与温
和缩量，就是延伸k线趋势。

（2）异常放量与异常缩量：一般是整体k线趋势转折的警讯。分述如下
a.低价盘整且异常放量：且k线为纯阳，一般解读为主力拉抬股价的开始。
b.高价盘整且异常放量：且k线留有长长上影线，一般解读为主力减仓出货迹象。
c.低价盘整且异常紧缩：且k线留有长长下影线，一般解读为主力股民卖压纾缓，止跌讯号。
d.高价盘整且异常紧缩：一般解读为主力股民认定股价有问题？是大涨与大跌的分界点。

当然还有很多状况，再此无法一一解说。但唯一可确定任的两件事，一就是必须有两根以上的成交
量才能谈量能变化。二就是量能变化必须和k线合并解读才有意义。

以上是个人对量能变化的认知。与大家共享。

㈣如何用大数据炒股

我们如今生活在一个数据爆炸的世界里。网络每天响应超过60亿次的搜索请求，日处理数据超过100PB，相当于6000多座中国国家图书馆的书籍信息量总和。新浪微博每天都会发布上亿条微博。在荒无人烟的郊外，暗藏着无数大公司的信息存储中心，24小时夜以继日地运转着。
克托·迈尔-舍恩伯格在《大数据时代》一书中认为，大数据的核心就是预测，即只要数据丰富到一定程度，就可预测事情发生的可能性。例如，“从一个人乱穿马路时行进的轨迹和速度来看他能及时穿过马路的可能性”，或者通过一个人穿过马路的速度，预测车子何时应该减速从而让他及时穿过马路。

那么，如果把这种预测能力应用在股票投资上，又会如何？

目前，美国已经有许多对冲基金采用大数据技术进行投资，并且收获甚丰。中国的中证广发网络百发100指数基金（下称百发100），上线四个多月以来已上涨68%。

和传统量化投资类似，大数据投资也是依靠模型，但模型里的数据变量几何倍地增加了，在原有的金融结构化数据基础上，增加了社交言论、地理信息、卫星监测等非结构化数据，并且将这些非结构化数据进行量化，从而让模型可以吸收。

由于大数据模型对成本要求极高，业内人士认为，大数据将成为共享平台化的服务，数据和技术相当于食材和锅，基金经理和分析师可以通过平台制作自己的策略。

量化非结构数据

不要小看大数据的本领，正是这项刚刚兴起的技术已经创造了无数“未卜先知”的奇迹。

2014年，网络用大数据技术预测命中了全国18卷中12卷高考作文题目，被网友称为“神预测”。网络公司人士表示，在这个大数据池中，包含互联网积累的用户数据、历年的命题数据以及教育机构对出题方向作出的判断。

在2014年巴西世界杯比赛中，Google亦通过大数据技术成功预测了16强和8强名单。

从当年英格兰报社的信鸽、费城股票交易所的信号灯到报纸电话，再到如今的互联网、云计算、大数据，前沿技术迅速在投资领域落地。在股票策略中，大数据日益崭露头角。

做股票投资策略，需要的大数据可以分为结构化数据和非结构化数据。结构化数据，简单说就是“一堆数字”，通常包括传统量化分析中常用的CPI、PMI、市值、交易量等专业信息；非结构化数据就是社交文字、地理位置、用户行为等“还没有进行量化的信息”。

量化非结构化就是用深度模型替代简单线性模型的过程，其中所涉及的技术包括自然语言处理、语音识别、图像识别等。

金融大数据平台-通联数据CEO王政表示，通联数据采用的非结构化数据可以分为三类：第一类和人相关，包括社交言论、消费、去过的地点等；第二类与物相关，如通过正在行驶的船只和货车判断物联网情况；第三类则是卫星监测的环境信息，包括汽车流、港口装载量、新的建筑开工等情况。

卫星监测信息在美国已被投入使用，2014年Google斥资5亿美元收购了卫星公司Skybox，从而可以获得实施卫星监测信息。

结构化和非结构化数据也常常相互转化。“结构化和非结构化数据可以形象理解成把所有数据装在一个篮子里，根据应用策略不同相互转化。例如，在搜索频率调查中，用户搜索就是结构化数据；在金融策略分析中，用户搜索就是非结构化数据。”网络公司人士表示。

华尔街拿着丰厚薪水的分析师们还不知道，自己的雇主已经将大量资本投向了取代自己的机器。
2014年11月23日，高盛向Kensho公司投资1500万美元，以支持该公司的大数据平台建设。该平台很像iPhone里的Siri，可以快速整合海量数据进行分析，并且回答投资者提出的各种金融问题，例如“下月有飓风，将对美国建材板块造成什么影响？”

在Kensho处理的信息中，有80%是“非结构化”数据，例如政策文件、自然事件、地理环境、科技创新等。这类信息通常是电脑和模型难以消化的。因此，Kensho的CEO Daniel Nadler认为，华尔街过去是基于20%的信息做出100%的决策。

既然说到高盛，顺便提一下，这家华尔街老牌投行如今对大数据可谓青睐有加。除了Kensho，高盛还和Fortress信贷集团在两年前投资了8000万美元给小额融资平台On Deck Capital。这家公司的核心竞争力也是大数据，它利用大数据对中小企业进行分析，从而选出值得投资的企业并以很快的速度为之提供短期贷款。

捕捉市场情绪

上述诸多非结构化数据，归根结底是为了获得一个信息：市场情绪。

在采访中，2013年诺贝尔经济学奖得主罗伯特•席勒的观点被无数采访对象引述。可以说，大数据策略投资的创业者们无一不是席勒的信奉者。

席勒于上世纪80年代设计的投资模型至今仍被业内称道。在他的模型中，主要参考三个变量：投资项目计划的现金流、公司资本的估算成本、股票市场对投资的反应（市场情绪）。他认为，市场本身带有主观判断因素，投资者情绪会影响投资行为，而投资行为直接影响资产价格。
然而，在大数据技术诞生之前，市场情绪始终无法进行量化。

回顾人类股票投资发展史，其实就是将影响股价的因子不断量化的过程。

上世纪70年代以前，股票投资是一种定性的分析，没有数据应用，而是一门主观的艺术。随着电脑的普及，很多人开始研究驱动股价变化的规律，把传统基本面研究方法用模型代替，市盈率、市净率的概念诞生，量化投资由此兴起。

量化投资技术的兴起也带动了一批华尔街大鳄的诞生。例如，巴克莱全球投资者（BGI）在上世纪70年代就以其超越同行的电脑模型成为全球最大的基金管理公司；进入80年代，另一家基金公司文艺复兴（Renaissance）年均回报率在扣除管理费和投资收益分成等费用后仍高达34%，堪称当时最佳的对冲基金，之后十多年该基金资产亦十分稳定。

“从主观判断到量化投资，是从艺术转为科学的过程。”王政表示，上世纪70年代以前一个基本面研究员只能关注20只到50只股票，覆盖面很有限。有了量化模型就可以覆盖所有股票，这就是一个大的飞跃。此外，随着计算机处理能力的发展，信息的用量也有一个飞跃变化。过去看三个指标就够了，现在看的指标越来越多，做出的预测越来越准确。

随着21世纪的到来，量化投资又遇到了新的瓶颈，就是同质化竞争。各家机构的量化模型越来越趋同，导致投资结果同涨同跌。“能否在看到报表数据之前，用更大的数据寻找规律？”这是大数据策略创业者们试图解决的问题。

于是，量化投资的多米诺骨牌终于触碰到了席勒理论的第三层变量——市场情绪。

计算机通过分析新闻、研究报告、社交信息、搜索行为等，借助自然语言处理方法，提取有用的信息；而借助机器学习智能分析，过去量化投资只能覆盖几十个策略，大数据投资则可以覆盖成千上万个策略。

基于互联网搜索数据和社交行为的经济预测研究，已逐渐成为一个新的学术热点，并在经济、社会以及健康等领域的研究中取得了一定成果。在资本市场应用上，研究发现搜索数据可有效预测未来股市活跃度（以交易量指标衡量）及股价走势的变化。

海外就有学术研究指出，公司的名称或者相关关键词的搜索量，与该公司的股票交易量正相关。德国科学家Tobias Preis就进行了如此研究：Tobias利用谷歌搜索引擎和谷歌趋势（Google Trends），以美国标普500指数的500只股票为其样本，以2004年至2010年为观察区间，发现谷歌趋势数据的公司名称搜索量和对应股票的交易量，在每周一次的时间尺度上有高度关联性。也就是说，当某个公司名称在谷歌的搜索量活动增加时，无论股票的价格是上涨或者下跌，股票成交量与搜索量增加；反之亦然，搜索量下降，股票成交量下降。以标普500指数的样本股为基础，依据上述策略构建的模拟投资组合在六年的时间内获得了高达329%的累计收益。

在美国市场上，还有多家私募对冲基金利用Twitter和Facebook的社交数据作为反映投资者情绪和市场趋势的因子，构建对冲投资策略。利用互联网大数据进行投资策略和工具的开发已经成为世界金融投资领域的新热点。

保罗·霍丁管理的对冲基金Derwent成立于2011年5月，注册在开曼群岛，初始规模约为4000万美元， 2013年投资收益高达23.77%。该基金的投资标的包括流动性较好的股票及股票指数产品。
通联数据董事长肖风在《投资革命》中写道，Derwent的投资策略是通过实时跟踪Twitter用户的情绪，以此感知市场参与者的“贪婪与恐惧”，从而判断市场涨跌来获利。

在Derwent的网页上可以看到这样一句话：“用实时的社交媒体解码暗藏的交易机会。”保罗·霍丁在基金宣传册中表示：“多年以来，投资者已经普遍接受一种观点，即恐惧和贪婪是金融市场的驱动力。但是以前人们没有技术或数据来对人类情感进行量化。这是第四维。Derwent就是要通过即时关注Twitter中的公众情绪，指导投资。”

另一家位于美国加州的对冲基金MarketPsych与汤普森·路透合作提供了分布在119个国家不低于18864项独立指数，比如每分钟更新的心情状态（包括乐观、忧郁、快乐、害怕、生气，甚至还包括创新、诉讼及冲突情况等），而这些指数都是通过分析Twitter的数据文本，作为股市投资的信号。

此类基金还在不断涌现。金融危机后，几个台湾年轻人在波士顿组建了一家名为FlyBerry的对冲基金，口号是“Modeling the World（把世界建模）”。它的投资理念全部依托大数据技术，通过监测市场舆论和行为，对投资做出秒速判断。

关于社交媒体信息的量化应用，在股票投资之外的领域也很常见：Twitter自己也十分注重信息的开发挖掘，它与DataSift和Gnip两家公司达成了一项出售数据访问权限的协议，销售人们的想法、情绪和沟通数据，从而作为顾客的反馈意见汇总后对商业营销活动的效果进行判断。从事类似工作的公司还有DMetics，它通过对人们的购物行为进行分析，寻找影响消费者最终选择的细微原因。

回到股票世界，利用社交媒体信息做投资的公司还有StockTwits。打开这家网站，首先映入眼帘的宣传语是“看看投资者和交易员此刻正如何讨论你的股票”。正如其名，这家网站相当于“股票界的Twitter”，主要面向分析师、媒体和投资者。它通过机器和人工相结合的手段，将关于股票和市场的信息整理为140字以内的短消息供用户参考。

此外，StockTwits还整合了社交功能，并作为插件可以嵌入Twitter、Facebook和LinkedIn等主要社交平台，让人们可以轻易分享投资信息。

另一家公司Market Prophit也很有趣。这家网站的宣传语是“从社交媒体噪音中提炼市场信号”。和StockTwits相比，Market Prophit更加注重大数据的应用。它采用了先进的语义分析法，可以将Twitter里的金融对话量化为“-1（极度看空）”到“1（极度看多）”之间的投资建议。网站还根据语义量化，每天公布前十名和后十名的股票热度榜单。网站还设计了“热度地图”功能，根据投资者情绪和意见，按照不同板块，将板块内的个股按照颜色深浅进行标注，谁涨谁跌一目了然。

中国原创大数据指数

尽管大数据策略投资在美国貌似炙手可热，但事实上，其应用尚仅限于中小型对冲基金和创业平台公司。大数据策略投资第一次被大规模应用，应归于中国的百发100。

网络金融中心相关负责人表示，与欧美等成熟资本市场主要由理性机构投资者构成相比，东亚尤其是中国的股票类证券投资市场仍以散户为主，因此市场受投资者情绪和宏观政策性因素影响很大。而个人投资者行为可以更多地反映在互联网用户行为大数据上，从而为有效地预测市场情绪和趋势提供了可能。这也就是中国国内公募基金在应用互联网大数据投资方面比海外市场并不落后、甚至领先的原因。

百发100指数由网络、中证指数公司、广发基金联合研发推出，于2014年7月8日正式对市场发布，实盘运行以来一路上涨，涨幅超过60%。跟踪该指数的指数基金规模上限为30亿份，2014年9月17日正式获批，10月20日发行时一度创下26小时疯卖18亿份的“神话”。

外界都知道百发100是依托大数据的指数基金，但其背后的细节鲜为人知。

百发100数据层面的分析分为两个层面，即数据工厂的数据归集和数据处理系统的数据分析。其中数据工厂负责大数据的收集分析，例如将来源于互联网的非结构化数据进行指标化、产品化等数据量化过程；数据处理系统，可以在数据工厂递交的大数据中寻找相互统计关联，提取有效信息，最终应用于策略投资。

“其实百发100是在传统量化投资技术上融合了基于互联网大数据的市场走势和投资情绪判断。”业内人士概括道。

和传统量化投资类似，百发100对样本股的甄选要考虑财务因子、基本面因子和动量因子，包括净资产收益率（ROE）、资产收益率（ROA）、每股收益增长率（EPS）、流动负债比率、企业价值倍数（EV/EBITDA）、净利润同比增长率、股权集中度、自由流通市值以及最近一个月的个股价格收益率和波动率等。

此外，市场走势和投资情绪是在传统量化策略基础上的创新产物，也是百发100的核心竞争力。接近网络的人士称，市场情绪因子对百发100基金起决定性作用。

网络金融中心相关负责人是罗伯特•席勒观点的支持者。他认为，投资者行为和情绪对资产价格、市场走势有着巨大的影响。因此“通过互联网用户行为大数据反映的投资市场情绪、宏观经济预期和走势，成为百发100指数模型引入大数据因子的重点”。

传统量化投资主要着眼点在于对专业化金融市场基本面和交易数据的应用。但在网络金融中心相关业务负责人看来，无论是来源于专业金融市场的结构化数据，还是来源于互联网的非结构化数据，都是可以利用的数据资源。因此，前文所述的市场情绪数据，包括来源于互联网的用户行为、搜索量、市场舆情、宏观基本面预期等等，都被网络“变废为宝”，从而通过互联网找到投资者参与特征，选出投资者关注度较高的股票。

“与同期沪深300指数的表现相较，百发100更能在股票市场振荡时期、行业轮动剧烈时期、基本面不明朗时期抓住市场热点、了解投资者情绪、抗击投资波动风险。”网络金融中心相关负责人表示。

百发100选取的100只样本股更换频率是一个月，调整时间为每月第三周的周五。

业内人士指出，百发100指数的月收益率与中证100、沪深300、中证500的相关性依次提升，说明其投资风格偏向中小盘。

但事实并非如此。从样本股的构成来说，以某一期样本股为例，样本股总市值6700亿元，占A股市值4.7%。样本股的构成上，中小板21只，创业板4只，其余75只样本股均为大盘股。由此可见，百发100还是偏向大盘为主、反映主流市场走势。

样本股每个月的改变比例都不同，最极端的时候曾经有60%进行了换仓。用大数据预测热点变化，市场热点往往更迭很快；但同时也要考虑交易成本。两方面考虑，网络最后测算认为一个月换一次仓位为最佳。

样本股对百发100而言是核心机密——据说“全世界只有基金经理和指数编制机构负责人两个人知道”——都是由机器决定后，基金经理分配给不同的交易员建仓买入。基金经理也没有改变样本股的权利。

展望未来，网络金融中心相关负责人踌躇满志，“百发100指数及基金的推出，只是我们的开端和尝试，未来将形成多样化、系列投资产品。”

除了百发100，目前市场上打着大数据旗帜的基金还有2014年9月推出的南方-新浪I100和I300指数基金。

南方-新浪I100和I300是由南方基金、新浪财经和深圳证券信息公司三方联合编制的。和百发100类似，也是按照财务因子和市场情绪因子进行模型打分，按照分值将前100和前300名股票构成样本股。推出至今，这两个指数基金分别上涨了10%左右。

正如百发100的市场情绪因子来自网络，南方-新浪I100和I300的市场情绪因子全部来自新浪平台。其中包括用户在新浪财经对行情的访问热度、对股票的搜索热度；用户在新浪财经对股票相关新闻的浏览热度；股票相关微博的多空分析数据等。

此外，阿里巴巴旗下的天弘基金也有意在大数据策略上做文章。据了解，天弘基金将和阿里巴巴合作，推出大数据基金产品，最早将于2015年初问世。

天弘基金机构产品部总经理刘燕曾对媒体表示，“在传统的调研上，大数据将贡献于基础资产的研究，而以往过度依赖线下研究报告。大数据将视野拓展至了线上的数据分析，给基金经理选股带来新的逻辑。”

在BAT三巨头中，腾讯其实是最早推出指数基金的。腾讯与中证指数公司、济安金信公司合作开发的“中证腾安价值100指数”早在2013年5月就发布了，号称是国内第一家由互联网媒体与专业机构编制发布的A股指数。不过，业内人士表示，有关指数并没有真正应用大数据技术。虽然腾讯旗下的微信是目前最热的社交平台，蕴藏了大量的社交数据，但腾讯未来怎么开发，目前还并不清晰。

大数据投资平台化

中欧商学院副教授陈威如在其《平台战略》一书中提到，21世纪将成为一道分水岭，人类商业行为将全面普及平台模式，大数据金融也不例外。

然而，由于大数据模型对成本要求极高，就好比不可能每家公司都搭建自己的云计算系统一样，让每家机构自己建设大数据模型，从数据来源和处理技术方面看都是不现实的。业内人士认为，大数据未来必将成为平台化的服务。

目前，阿里、网络等企业都表示下一步方向是平台化。

蚂蚁金服所致力搭建的平台，一方面包括招财宝一类的金融产品平台，另一方面包括云计算、大数据服务平台。蚂蚁金服人士说，“我们很清楚自己的优势不是金融，而是包括电商、云计算、大数据等技术。蚂蚁金服希望用这些技术搭建一个基础平台，把这些能力开放出去，供金融机构使用。”

网络亦是如此。接近网络的人士称，未来是否向平台化发展，目前还在讨论中，但可以确定的是，“网络不是金融机构，目的不是发产品，百发100的意义在于打造影响力，而非经济效益。”
当BAT还在摸索前行时，已有嗅觉灵敏者抢占了先机，那就是通联数据。

通联数据股份公司（DataYes）由曾任博时基金副董事长肖风带队创建、万向集团投资成立，总部位于上海，公司愿景是“让投资更容易，用金融服务云平台提升投资管理效率和投研能力”。该平台7月上线公测，目前已拥有130多家机构客户，逾万名个人投资者。

通联数据目前有四个主要平台，分别是通联智能投资研究平台、通联金融大数据服务平台、通联多资产投资管理平台和金融移动办公平台。

通联智能投资研究平台包括雅典娜-智能事件研究、策略研究、智能研报三款产品，可以对基于自然语言的智能事件进行策略分析，实时跟踪市场热点，捕捉市场情绪。可以说，和百发100类似，其核心技术在于将互联网非结构化数据的量化使用。

通联金融大数据服务平台更侧重于专业金融数据的分析整理。它可以提供公司基本面数据、国内外主要证券、期货交易所的行情数据、公司公告数据、公关经济、行业动态的结构化数据、金融新闻和舆情的非结构化数据等。

假如将上述两个平台比作“收割机”，通联多资产投资管理平台就是“厨房”。在这个“厨房”里，可以进行全球跨资产的投资组合管理方案、订单管理方案、资产证券化定价分析方案等。

通联数据可以按照主题热点或者自定义关键字进行分析，构建知识图谱，将相关的新闻和股票提取做成简洁的分析框架。例如用户对特斯拉感兴趣，就可以通过主题热点看到和特斯拉相关的公司，并判断这个概念是否值得投资。“过去这个搜集过程要花费几天时间，现在只需要几分钟就可以完成。”王政表示。

“通联数据就好比一家餐馆，我们把所有原料搜集来、清洗好、准备好，同时准备了一个锅，也就是大数据存储平台。研究员和基金经理像厨师一样，用原料、工具去‘烹制’自己的策略。”王政形容道。

大数据在平台上扮演的角色，就是寻找关联关系。人类总是习惯首先构建因果关系，继而去倒推和佐证。机器学习则不然，它可以在海量数据中查获超越人类想象的关联关系。正如维克托`迈尔-舍恩伯格在《大数据时代》中所提到的，社会需要放弃它对因果关系的渴求，而仅需关注相互关系。

例如，美国超市沃尔玛通过大数据分析，发现飓风用品和蛋挞摆在一起可以提高销量，并由此创造了颇大的经济效益。如果没有大数据技术，谁能将这毫无关联的两件商品联系在一起？
通联数据通过机器学习，也能找到传统量化策略无法发现的市场联系。其中包括各家公司之间的资本关系、产品关系、竞争关系、上下游关系，也包括人与人之间的关系，例如管理团队和其他公司有没有关联，是否牵扯合作等。

未来量化研究员是否将成为一个被淘汰的职业？目前研究员的主要工作就是收集整理数据，变成投资决策，而之后这个工作将更多由机器完成。

“当初医疗科技发展时，人们也认为医生会被淘汰，但其实并不会。同理，研究员也会一直存在，但他们会更注重深入分析和调研，初级的数据搜集可以交给机器完成。”王政表示。
但当未来大数据平台并广泛应用后，是否会迅速挤压套利空间？这也是一个问题。回答根据网上资料整理

㈤怎么看大盘板块的资金流量

资金流向是投资股票必须密切注意的一项指标，可帮助投资者进行股票预测与股市投资分析。资金流向的判断无论对于分析股市大盘走势还是对于个股操作上，都起着至关重要的作用。本文将为您介绍如何看大盘资金流向进行股市投资分析。

1、查看大盘资金流向进行股市投资分析——具备行情发动的条件(热资进场)，从股票成交量上观察资金流向的热点。每天成交量排行榜前20至30名的个股就是资金流向的热点，所要观察的重点是这些个股是否具备相似的特征或集中与某些板块，并且占据成交榜的时间是否够长。这里需要注意的是当大盘成交量比较低迷时，部分大盘股占据成交榜的前列，而这些个股的量比又无明显放大，则说明此时大盘人气涣散而不是代表资金流向集中。
2、查看大盘资金流向进行股市投资分析——选股时需要注意的资金流向波动性，从涨跌幅榜观察资金流向的波动性。大资金的进场与闲散小资金进场是有所不同的，大资金更善于发掘有上升空间的投资品种，而闲散游资是否集中进场更多取决于当时大盘行情是否好。因此从盘面上来看，板块个股具有轮动性，并且大资金总体上进出市场的时间早于小资金进出的平均时间。

㈥如何利用数据分析股票走势呢

这么多问题, 我就回答你MACD, 你可以找书看看

MACD指标又叫指数平滑异同移动平均线，是由查拉尔·阿佩尔（Gerald Apple）所创造的,是一种研判股票买卖时机、跟踪股价运行趋势的技术分析工具。

一、MACD指标的原理

MACD指标是根据均线的构造原理，对股票价格的收盘价进行平滑处理，求出算术平均值以后再进行计算，是一种趋向类指标。

运用快速（短期）和慢速（长期）移动平均线及其聚合与分离的征兆，加以双重平滑运算。而根据移动平均线原理发展出来的MACD，一则去除了移动平均线频繁发出假信号的缺陷，二则保留了移动平均线的效果，因此，MACD指标具有均线趋势性、稳重性、安定性等特点，是用来研判买卖股票的时机，预测股票价格涨跌的技术分析指标。

主要是通过EMA、DIF和DEA（或叫MACD、DEM）这三值之间关系的研判，DIF和DEA连接起来的移动平均线的研判以及DIF减去DEM值而绘制成的柱状图（BAR）的研判等来分析判断行情，预测股价中短期趋势的主要的股市技术分析指标。其中，DIF是核心，DEA是辅助。DIF是快速平滑移动平均线（EMA1）和慢速平滑移动平均线（EMA2）的差。BAR柱状图在股市技术软件上是用红柱和绿柱的收缩来研判行情。

㈦如何运用大数据

1.可视化分析
大数据分析的使用者有大数据分析专家，同时还有普通用户，但是他们二者对于大数据分析最基本的要求就是可视化分析，因为可视化分析能够直观的呈现大数据特点，同时能够非常容易被读者所接受，就如同看图说话一样简单明了。
2. 数据挖掘算法

大数据分析的理论核心就是数据挖掘算法，各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点，也正是因为这些被全世界统
计
学家所公认的各种统计方法（可以称之为真理）才能深入数据内部，挖掘出公认的价值。另外一个方面也是因为有这些数据挖掘的算法才能更快速的处理大数据，如
果一个算法得花上好几年才能得出结论，那大数据的价值也就无从说起了。
3. 预测性分析
大数据分析最终要的应用领域之一就是预测性分析，从大数据中挖掘出特点，通过科学的建立模型，之后便可以通过模型带入新的数据，从而预测未来的数据。
4. 语义引擎
非结构化数据的多元化给数据分析带来新的挑战，我们需要一套工具系统的去分析，提炼数据。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。
5.数据质量和数据管理。大数据分析离不开数据质量和数据管理，高质量的数据和有效的数据管理，无论是在学术研究还是在商业应用领域，都能够保证分析结果的真实和有价值。
大数据分析的基础就是以上五个方面，当然更加深入大数据分析的话，还有很多很多更加有特点的、更加深入的、更加专业的大数据分析方法。

大数据的技术
数据采集： ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础。
数据存取：关系数据库、NOSQL、SQL等。
基础架构：云存储、分布式文件存储等。
数
据处理：自然语言处理(NLP，Natural Language
Processing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机”理解”自然语言，所以自然语言处理又叫做自然语言理
解也称为计算语言学。一方面它是语言信息处理的一个分支，另一方面它是人工智能的核心课题之一。
统计分析：
假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、
卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、
因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析（最优尺度分析）、bootstrap技术等等。
数
据挖掘：分类
（Classification）、估计（Estimation）、预测（Prediction）、相关性分组或关联规则（Affinity
grouping or association rules）、聚类（Clustering）、描述和可视化、Description and
Visualization）、复杂数据类型挖掘(Text, Web ,图形图像，视频，音频等)
模型预测：预测模型、机器学习、建模仿真。
结果呈现：云计算、标签云、关系图等。

大数据的处理
1. 大数据处理之一：采集
大
数据的采集是指利用多个数据库来接收发自客户端（Web、App或者传感器形式等）的
数据，并且用户可以通过这些数据库来进行简单的查询和处理工作。比如，电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据，除
此之外，Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。
在大数据的采集过程中，其主要特点和挑战是并发数高，因为同时
有可能会有成千上万的用户
来进行访问和操作，比如火车票售票网站和淘宝，它们并发的访问量在峰值时达到上百万，所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间
进行负载均衡和分片的确是需要深入的思考和设计。
2. 大数据处理之二：导入/预处理
虽然采集端本身会有很多数据库，但是如果要对这些
海量数据进行有效的分析，还是应该将这
些来自前端的数据导入到一个集中的大型分布式数据库，或者分布式存储集群，并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使
用来自Twitter的Storm来对数据进行流式计算，来满足部分业务的实时计算需求。
导入与预处理过程的特点和挑战主要是导入的数据量大，每秒钟的导入量经常会达到百兆，甚至千兆级别。
3. 大数据处理之三：统计/分析
统
计与分析主要利用分布式数据库，或者分布式计算集群来对存储于其内的海量数据进行普通
的分析和分类汇总等，以满足大多数常见的分析需求，在这方面，一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata，以及基于
MySQL的列式存储Infobright等，而一些批处理，或者基于半结构化数据的需求可以使用Hadoop。
统计与分析这部分的主要特点和挑战是分析涉及的数据量大，其对系统资源，特别是I/O会有极大的占用。
4. 大数据处理之四：挖掘
与
前面统计和分析过程不同的是，数据挖掘一般没有什么预先设定好的主题，主要是在现有数
据上面进行基于各种算法的计算，从而起到预测（Predict）的效果，从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于

统计学习的SVM和用于分类的NaiveBayes，主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂，并
且计算涉及的数据量和计算量都很大，常用数据挖掘算法都以单线程为主。

整个大数据处理的普遍流程至少应该满足这四个方面的步骤，才能算得上是一个比较完整的大数据处理。

如何用大数据分析股票流量

与如何用大数据分析股票流量相关的内容