model-autoencoder
在各种研究工作中,已经探索了自动编码器的结合,以提高分类器的性能。自动编码器表现出一系列的变化,每个都针对特定的目标,如去噪,特征提取,生成合成数据和降低维度。部署自编码器的核心原则是在输出端复制输入数据,同时保持最大相似度。编码器和解码器都由一个编码器和一个解码器组成,一旦编码器被训练,它与分类器的集成无缝地增强了结果。值得注意的是,在具体的研究中,自动编码器被用于消除噪声和增强结果[ 24 ]。
% 自编码器代替PCA 进行无监督特征学习 . 自编码器的变体 将自动特征学习和降维结合到一个集成神经网络中进行活动识别Autoencoders are used to replace Principal Component Analysis (PCA) for unsupervised feature learning.Variants of autoencoders integrate automatic feature learning and dimensionality reduction into a single neural network for activity rec ...
model-diffusion
Weng, Lilian. (Jul 2021). What are diffusion models? Lil’Log. https://lilianweng.github.io/posts/2021-07-11-diffusion-models/.
Diffusion models are inspired by non-equilibrium thermodynamics. They define a Markov chain of diffusion steps to slowly add random noise to data and then learn to reverse the diffusion process to construct desired data samples from the noise. Unlike VAE or flow models, diffusion models are learned with a fixed procedure and the latent variable has high dimensionality ( ...
model-machine classifier
XGBoost (极限梯度提升)原理:
提升算法: XGBoost 是梯度提升决策树的实现,旨在提高速度和性能。
梯度提升框架: 通过关注前一轮学习器的错误,结合多个弱学习器(通常是决策树)来创建一个强学习器。
优点:
高性能: 以高预测能力著称,常用于赢得机器学习竞赛的解决方案。
高效: 针对速度和内存使用进行了优化,利用并行处理。
灵活性: 支持多种目标函数和自定义评估函数。
正则化: 采用 L 1 和 L 2 正则化来防止过拟合。
缺点:
复杂性: 需要仔细调整超参数。
计算密集: 对大数据集来说资源消耗较大。
可解释性差: 相比简单模型如决策树,模型更难解释。
CatBoost (类别提升)原理:
提升算法: 类似于 XGBoost,但专门针对类别特征进行了优化。
有序提升: 利用有序提升来减少过拟合。
优点:
处理类别特征: 自动处理类别变量,减少了大量预处理工作。
快速准确: 提供高准确性且速度较快,因为实现高效。
减少过拟合: 有序提升有助于减少过拟合,相比传统提升方法更有效。
缺点:
复杂性: 超参数调整较为复杂。
资源使用: 可能会占用大量内存和计算资源。
...
task-Data bias
迁移:样本数据、特征、参数、关系 2.2. Knowledge Transfer The literature on knowledge transfer can be generally categorized into four main approaches based on the type of knowledge they transfer [21]:
• Instance Transfer: Methods placing in this approach, mainly aim for weighting and transforming labeled instances into the target domain. Standard supervised machine learning models can be applied on transferred samples afterward.
• Feature Representation Transfer: The core idea of this category’s models is abo ...
task-量化研究
工作岗位
Trexquant公司:Trexquant | 一亩三分地 (1point3acres.com)职责 开发预测未来股票回报的市场中性中频阿尔法 调查和实施最近的学术研究 开发算法来过滤和组合阿尔法 解析用于未来alpha开发的数据集 将机器学习技术应用于alpha发现和投资组合构建工作内容 - 指导我的full-time员工推荐几篇经典的量化领域paper,通过自己阅读后理解这篇paper里提出的alpha来源然后据此自行加以修改+测试,直到产生了各项指标都通过测试的信号。。。好像我身边也是 - 在团队里,由researcher贡献各种各样的alpha idea,pm自己一般不会亲力亲为挖因子,而是只负责提供初步的方向,指导reseacher做研究,并且负责挑选、组合和管理researcher贡献的信号,类似于教授和博士生。这种模式的弊端就是每个团队的researcher要负责从idea generation, data colletion, back-testing甚至下单的整个投资流程,用来挖因子的时间精力不够,挖出的因子有限(但 ...
method-agents
http://link.zhihu.com/?target=https%3A//github.com/sxontheway/Keep-Learning/blob/master/Research/Federated_Learning.md
paper[2405.02957] Agent Hospital: A Simulacrum of Hospital with Evolvable Medical Agents (arxiv.org)
质量和效率,隐私。医疗记录库、经验库。
agent hostpital. Pdf
在本文中,我们介绍了一个名为Agent医院的医院模拟,它模拟了治疗疾病的整个过程。所有患者、护士和医生都是由大型语言模型(LLM)驱动的自治代理。我们的中心目标是让医生代理学习如何在模拟中治疗疾病。为此,我们提出了一种名为MedAgent-Zero的方法。由于模拟可以基于知识库和LLM模拟疾病的发作和进展,医生代理可以不断从成功和不成功的案例中积累经验。模拟实验表明,医生代理在各种任务中的治疗性能不断提高。更有趣的是,医生代理在Agent医院获得的知识适用于现实世界的医疗 ...