鼎复数据,图数据库有哪些

数据库 0
鼎复数据2017.12.16 FinTech在智能投研的应用 鼎新革故,复往利亨——鼎复是一家Fintech公司 金融产业链 技术支持 资金端 传统 各类金融机构 ●公募/私募/资管●券商/保险●会计师事务所 ●PE/VC●商业银行●投资银行 ●… 网页搜索 数据库 文档/表格处理 报告 交易 鼎复 深度学习知识图谱智能建模 … 资产端 关键字:Fin- -tech鼎复
2 经过2年发展,形成成熟方法论和商业模式 从下至上,依次对应 ●底层技术体系搭建●各类数据挖掘积累 逻辑 ●金融通用工具开发●配合场景定制平台是我们的实现路径与发展顺序。
——亦是从通用到定制的过程,以及技术颠覆人工处理的难度加大过程 技术
2 通用工具 ●智能搜索●PDF解析●数据监控
3 ●… ●常规数据✓公告✓研报✓新闻✓统计 数据 平台 技术 ●另类数据Spider KG ✓消费正文解析 NLP 1✓✓热微点信实时更新机器学习 ✓… 结构化抽取 ●私有数据 ✓审计
3 ✓调研 团队方面:已形成资深、活力、靠谱的梯队 ●创始人,70s 郭眈 ➢百度七剑客➢工学博士➢斯坦福Sloan Fellow 张良华 ➢中金、黑石高管➢金融从业经验27年➢中国人民银行研究 生部硕士 ●执行层,80s ➢来自高盛、中金的专业人士担任金融联席总监➢来自百度自然语言理解人工智能专家担任技术总监 吴雪军 ➢阿里资深总监➢百度科学家➢天涯副总裁 ●核心团队,80+90s ➢核心研发人员来自BAT、搜狗、小米、微博等主流互联网技术公司➢自建百人金融标注团队,注重金融专业与标注经验
4 技术架构:已拥有全面的技术实力与积累 结构个性化数化据抽取半结构化 数据 结构化数据 非结构化数据 图谱构建算法 格式转换 数据融合 调度 逻辑校验 系统 数据清洗 知识图谱 语义消歧 数据归一化 spider集群vps集群数SpiderSpiderSpiderVPS据采集IPIPCookie 动态代理池模拟登录 公 开研究 公司 数报告 公告 据源百科网资页讯 结知识框架(Schema) 机器学习 构知逻识辑框构架建挖掘金融 知 领域专家 识 框 架 化知识框架管理平台 图谱存储架构 融合数据库 三元组(SPO) 图数据库 关系数据库 产品应用 行业数据库公告宝贷阅舆情预警… 功能优化 增量更新倒排索引 数值运算容灾机制逻辑推理
5 数 如上模式+团队+构架,已得到广泛认可 资本市场认可 客户认可 市场认可 ➢2015年8月, ➢主动管理类规模第 ➢入选 公司创立,红杉 一梯队的公募基金公 2017年 领投2,700万 司 毕马威 ➢2017年3月, ➢全国性大型综合券 中国领 A轮融资,领沨 商 先金融 ➢百亿以上知名私募 科技50
6 1 在数据采集方面 •
目标 ➢获取原始数据并进行初步处理 •关键技术 ➢爬虫➢数据解析➢私有数据接入 ●关注指标 ➢准确率、召回率➢实时性➢稳定性➢可维护、可扩展 ●网页库 ➢规模:十亿+➢每日更新1,500万➢重要数据秒级更新
7 数据采集流程监控平台采集状态监控资源占用监控任务进度监控 配置平台采集任务 动态模板 账号信息资源分配私有数据配置 公开数据源 公网页 资讯 有 文档 数 社交 据数据 多媒体 采 数spider集群vps集群SpiderSpiderSpiderVPS 据 采 集 IP IP Cookie 动态代理池模拟登录 垃圾 调识别度算法权威性 分析 负载均衡高并发采集 智能链接去重更新 集数 据库网站库 链接库 网页库 文档库 数据解析 文档类型识别网页类型识别 动态页面渲染PDF渲染解析 核心正文识别内容去重 统一数据接入私有数据私 统一接口私有文档有 智能融合 私有半结构化数 自动校验数据 智能模版解析半结构化数据提取 智能去重权重管理 模版库 半结构化数据库 多媒体数据库 权限控制 据 私有多媒体数据 接 私有网站 网页入
8 在数2据抽取方面 •目标 ➢从原始数据抽取结构化数据 •关键技术 ➢结构化抽取 •基于模板•基于机器学习模型 ➢数据融合 •重要指标 ➢准确率➢召回率 算法分类 基于模板 介绍 当数据匹配模板时进行知识抽取 优点 准率高;效果相对可控; 基于机器学习模通过机器学习算法型学习知识各因素关系 扩展性好;召回较高; 缺点 扩展性不好;召回低; 准确率略低;可控性略低;
9 数据抽取流程 结 构 数 据 语义消歧 数据归一化 关系映射 结构化数据 化 正确性校验 数据融合 鼎复工具平台众包校验平台 热度、关联数据 网站实时数据 格式转换半结构化数据 自动校对 信息补全 表头识别 数值注解 智能抽取在线学习 模版管理平台数据管理平台 主题数据 表格分类 数 据非结构化数据 智能模版 领域知识库 模型训练 非结构化数据标注平台 原始数据 类型文档分类 人工标注 句法分析 专名识别 半结构化数据标注平台 识S定ch义ema分词语义角色标注 别 10 数据抽取产品举例-公告宝a半结构化数据 11 数据抽取产品举例-公告宝b非结构化数据 12 数据抽取产品举例-特定经营数据抽取 13 数据抽取产品举例-行业新闻非结构化数据抽取 14 数据抽取产品举例-PDfree 15 数据抽取产品举例-PDfree 16 在知3
识图谱方面 •目标 ➢基于结构化数据构建金融知识图谱 •关键技术 ➢知识框架(Schema)➢高性能知识图谱架构➢图谱构建算法 ●金融知识图谱特点 ➢准确率高➢覆盖广➢实时性强➢逻辑性强 17 知识图谱构建流程 图谱构建算法 逻辑运算 格式转换 调度 系统 结去重排序 数据清洗 构 化 语义消歧 数据归一化 数 据知识框架(Schema) 公司公告 机器学习 原 研究报告 知识框架挖掘 始 逻辑构建 数 新闻资讯 领域专家 据 知识框架管理 平台 金融知识图谱 知识碎片 应用平台 权限管理 产 ?
逻辑校验品 图谱 人查询浏览 物 编辑删除 图 谱接口调用 数据融合 公 事 司 件 图 图 谱 谱 图谱存储架构 在线计算智能推理 事件框架融合数据库 功能优化 行业框架 金融财务框架知识框 架通用知识框架 三元组( SPO) 图数据库倒排索引增量更新 关系数据库 数值运算容灾机制逻辑推理 18 知识图谱产品举例-贷阅智能摘要 19 知识图谱产品举例-贷阅智能摘要 20 知识图谱产品举例-公司图谱违约预警系统 21 知识图谱产品举例-公司图谱违约预警系统 22 总结,鼎复在产品端形成的BPC三条业务线 to

B 各类“泛投研”金融机构 ●公募/私募/资管●券商/保险●会计师事务所●PE/VC●商业银行●投资银行●… toProfessionalstoC 广泛的金融从业人员 海量互联网用户 ●公告宝 预计今年底上线 ●10月已上线 ●智能搜索、图谱等 ✓有影响力的机构认可✓验证价值 相互渗透与转化 ✓用户数✓影响力 23 非常感谢!欢迎提问 24

标签: #高级 #源码 #细节 #算法 #性能指标 #服务器 #安装了 #服务器配置