Page 41 - 20191224汇编手册
P. 41
“产才融合·智慧兴湘”——2019 年湖南省博士后研究成果及人才推介会
项目名称 项目团队简介 项目信息 联系方式
项目计划用 2019-2020 年的 2 年时间,在大
型商业网站垂直爬虫系统的研发、爬取后的大
数据分析人工智能算法及应用研究 2 个方面取
得突破。
(1)大型商业网站垂直爬虫系统的研发。针
对大型商业网站,如京东商城、淘宝商城等,
一种大型
研发出多线程、多机、分布式的垂直爬虫,爬
商业网站 由湖南省教育科学研究院的博士后、国家超算长
取的数据集中存储在大型存储陈列中,爬虫支 dengziyu
垂直爬虫 沙中心的博士研究生、长沙商贸旅游职业技术学
持一天爬取 1000 万个网页以上。 n@126.c
及其大数 院的教师共同组成的研发团队。其中博士后 1
(2)大型商业网站大数据分析人工智能算法 om
据应用技 人,博士研究生 3 人,学校教师 3 人。
及应用研究。研发出一种支持多种人工智能算
术研究
法的网页分类、信息提取、数据展现的引擎,
研究基于网页结构、网页内容的 TF-IDF、
TextRank、语义统计、信息熵、LDA、决策树、
贝叶斯、深度学习、CRF、马尔可夫、DIPRE、
LSTM 等类型的算法,在小型机以上的并行平
台进行实验和数据分析。
- 41 -