`
eric_weitm
  • 浏览: 235944 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
一、基础 1、jvm跨平台说的是跨硬件和OS平台,是面向机器的低层次的虚拟机 2、内存划分为main memory(对应裸机内存)和每个线程的工作内存(对应进程用户空间)。 3、java线程对应os的进程,工作空间对应进程的用户空间,jvm对应硬件 4、主内存的指令:lock(锁定到某个线程) unlock read write 线程工作内存指令:load store use assign 。所有的函数内的操作,都针对线程的工作空间内存。 5、linux中。一个java线程对应一个内核线程(轻量进程) 6、CAS:自旋锁,乐观锁,不是每次强制切换上下文环境,而是短时间的轮训和等 ...
1、EventExecutorGroup 内部维护多个消息循环,每一个group由一个EventLoop(EventExecutor)来监听和回调。具体实现类MultithreadEventExecutorGroup:内部使用children维护了多个EventLoop,默认分配策略是依次为每个channel分配EventLoop。一个eventLoop循环多个连接获取消息。这样保证每个连接的消息是单线程的。 2、EventLoop的具体实现是EpollEventLoop或NIOEventLoop,内部逻辑是每个obj对应一个线程,一个blockingqueue,一个事件循环。每一个循环周 ...
1、世界是不确定的,所有的函数表达式y=f(x) 只在理论中存在,现实世界中所观察到的信息,都是带有随机性的信息。所以从经验中总结规律,利用统计学和概率论是个靠谱的想法。 2、不确定性的原因? 1》世界本身不确定(比如量子力学) 2》没法掌握影响结果的所有因素(在造物主面前,人类是渺小的) 3》不完全建模(舍弃不需要的细节,太多细节,不利于应用) 3、概念上讲,函数关系是概率关系的特例(函数值出现的概率恒等于1)。所以函数关系都可以改造成概率的模式(核心是满足概率的和是1),如果在改造的同时,能够满足一些比较好的分析性质(连续、可微、可积分、凸函数),就是非常爽的一件事。在函数的名字上, ...

智能投研思考

资产管理公司最核心的任务是2件事(前台),一个是销售,一个是投资。具体下来大概包括,研究(技术和基本面)、投资(组合和策略)、估值、业绩分析和反馈。其中最核心的是研究和投资决策。AI目前可以对投资整个过程造成影响。对于最核心的研究和投资。 一、目前至少可以考虑实现: 1、垂直领域的全文检索,(极大提高研究员的工作效率,不用自己去search) 2、相关性分析。比如,推荐相关的股票。 3、自动发现主题。可以实现基于舆情的关注度策略。 4、nlp舆情分析。实时的负面情绪监控可以止损,正面情绪可以做投资参考。 5、财务造假识别、智能分析财报的“坑”。   二、相关的AI技术 主要是 ...
training: Optimizer的各种算法 、学习率衰退(learning rate decay)、basic_train_loop、session、checkpoint、处理导数和梯度、队列、分布式执行 ops:绑定的c++ operation framework:对c++的绑定 client:处理session Estimator:评估器的抽象,Estimator包装类、输入的队列缓存 models:实现的model contrib:高层的抽象 layers:层 nn:Neural Network      contrib细节: tf.contrib.baye ...
CNN: 卷积网络是为识别二维形状而特殊设计的一个多层感知器,这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。 这些良好的性能是网络在有监督方式下学会的,网络的结构主要有稀疏连接和权值共享两个特点,包括如下形式的约束: 1 特征提取。每一个神经元从上一层的局部接受域得到突触输人,因而迫使它提取局部特征。一旦一个特征被提取出来, 只要它相对于其他特征的位置被近似地保留下来,它的精确位置就变得没有那么重要了。 2 特征映射。网络的每一个计算层都是由多个特征映射组成的,每个特征映射都是平面形式的。平面中单独的神经元在约束下共享相同的突触权值集,这种结构形式具有如下的有益效果 ...
一、基本概念 1、stochastic gradient descent(SGD):随机梯度下降,不是每次迭代参数的计算都使用全部的数据,而是取一部分(一个patch)进行计算。 2、epoch:把所有训练数据完整的过一遍。 3、step_num:过一遍需要的训练的次数。 4、patch:每次进行梯度训练时,使用的数据子集 5、泛逼近定理 “Universal approximation theorem”, 一个隐藏层可以任意逼近连续函数   二、tensorflow基础 1、用计算图描述分布式计算任务,每个session有个默认graph  2、op 是graph的节点,描 ...
crab: yum install python-dev python-numpy python-numpy-dev python-setuptools python-numpy-dev python-scipy libatlas-dev g++ pip install -U scikits.learn -i https://pypi.tuna.tsinghua.edu.cn/simple/ git clone https://github.com/muricoca/crab.git python setup.py install      Model: user item喜好 ...
numpy 傅里叶变换、线性代数、随机数计算 pandas 数据分析库 Scipy 在NumPy的基础上提供了很多科学模块   gensim  相关性分析(基于语义的搜索) Pattern web挖掘 snownlp中文处理集成包 Scikit-learn:机器学习 keras 深度学习库 Natural Language Toolkit (NLTK):主要是针对英文,大而全的研究性软件包,可以使用其分类功能 crab  推荐引擎 word2vec-recommender 推荐引擎 textsum:文本抽取 情感分析 xiaohan2012/twitter-sent- ...
import logging from logging import NullHandler log = logging.getLogger(__name__) log.addHandler(NullHandler()) from corpussrc import DoubanCorpus from gensim import corpora, models, similarities from cleaner import StopWordFilter def test_lsi_query(dictionary, lsi, index): teststr = ...
统计模型把句子看做,单词的依次排列,即多个单词的复合条件概率。词是文章的原子单位,nlp的基本思路是,向量化词(可计算),为文档建模,之后进行分类、相关性分析等处理。   一、bow(bag of word) 单词的组合,表示文档。不考虑单词的顺序和上下文。  二、n-gram模型 除了bow还考虑上下文 三、词的向量化(数学建模): 1、one hot representation  除了一个维度是1,剩余的都是0 2、distributed representation   one hot太稀疏,所以先让神经网络学习向量空间的映射,从稀疏表示变成分布式表示(深度学习的特 ...
1、数据源:包括文本、pdf、数据库等不同来源 2、使用到的库:jieba gensim sklearn keras  3、可以实现的服务:找出相关和相近词(以分词为准)、比较2个分词的相似度、和哪些相关同时和别的不相关(语义上的模糊查找) 比如:中国银行: [["中国工商银行", 0.7910350561141968], ["601988", 0.7748256921768188], ["工商银行", 0.7616539001464844], ["建设银行", 0.7573339939117432], ...
1、数据能存下来,hdfs(分布式文件系统) 2、能进行资源调度 yarn 3、能对存下来的大数据进行计算,mapreduce(多个硬盘同时处理) 4、更灵活更快的计算框架 spark sparksql 5、简化map reduce的开发, hive(使用sql的数据仓库) 6、机器学习 Mahout 7、实时处理 storm(缺点是只能处理事先定好的数据和逻辑)   基本架构:hdfs+yarn spark hive mahout
一、基本概念 namenode:dfs的目录、数据块等元数据 datanode:具体的数据 journalnode namenodez 之间元数据的同步 dfs:distributed file system mapred:map reduce   ResourceManager:总入口和总调度(针对一个app) ApplicationMaster:具体的作业调度(支持非map reduce) NodeManager:一个节点的管理daemon container:节点内执行的环境(资源) Job History Server(api +RPC):收集和展现log信息 ...
安全包括 验证身份和授权,spring对这2部分都进行了支持。 一、基本概念和javase抽象 subject = principal(身份) + credential(凭证) pricipal的例子:身份证号、用户名、电话号码 credential的例子:密码、证书 Permission:权限 Policy:权限控制策略 AccessController:使用权限 ProtectionDomain:维护了一组身份和权限   加解密: Cipher 加密服务 MessageDigest 摘要 SecretKey 对称秘钥 PublicKey和PrivateKey 非 ...
Global site tag (gtag.js) - Google Analytics