大數據集成

  • 發布時間:2017-07-28 10:29:57
  • 本站原創

  大數據集成

  (1)支持多種類型數據訪問

  支持包括傳統關系型數據庫、MPP數據庫、全文數據庫,如Oracle、Mysql、HBASE、Greenplum、SolrCloud等;支持Excel、文本等文件;支持任意的消息類型: MQ、JMS 和Web Service。

  (2)支持時延訪問

  支持任意時延要求對數據進行訪問,小時級、分鐘級,甚至秒級;同時支持推(Push)、拉(Pull)的數據使用方式;數據增量捕捉支持按時間戳抽取、特定字段抽取、數據庫日志、FTP+文件、網頁關鍵字爬取等方式。

  (3)支持多種集成組件

  •   文件集成插件:支持文件型數據的解析轉化,包括但不局限于txt/word/excel/csv/pdf等格式的支持,能夠全文識別文件內容并導入至數據倉庫獨立存儲。

  •   特征要素提取插件:基于特征要素模型,實現對文本內容的全文解析,并能夠將文本中涉及到對象特征,諸如:身份證、手機號碼、電子郵箱、QQ號碼、車牌等特征要素轉化為結構化數據進行存儲,特征要素模型可維護。

  •   數據庫直連抽取插件:支持ORACLE/MySql/MSSql等傳統關系型數據庫,以及HBase/MPP等大數據庫技術的適配,實現統一元數據下的數據集成整合工作。

  •   大文件傳輸插件:基于類似Ftp協議下的多媒體、大文本資源的傳輸,能夠實現基礎信息的自動摘要與索引構建,支持文件的斷點續傳能力。

  •   網頁提取插件(互聯網信息提取插件):適用于各類網頁信息提取的工作組件,支持動態IP訪問技術,能夠自定義配置所需爬取的網站地址與欄目,并能夠自動爬取子網站及二級域名下的相關信息內容。

  •   標準化處理:能夠對抽取的資源進行加工的能力,例如空值校驗轉化、字符串操作、字符串替換、新增字段、添加JSON字段、表碼映射等。

热力宝石APP下载 小红书分享文章可以赚钱 午休时间赚钱 极速十一选五计划软件手机版 新加坡快乐8走势图 吉林11选5杀号技巧 双色球复式查询法 青海十一选五今天奖 开百货商场赚钱吗 云南11选5走势图基本开奖 足彩17156期冷分析 喜马拉雅点击量多赚钱吗 吉林11选5走势图 江西多乐彩开奖结果 比较火的网络赚钱项目 星辉娱乐棋牌游戏 快乐8玩法