垂直式网络教学资源采集系统研究
时间:2013-11-20 13:43
来源:发表吧
作者:许琦
点击:
次
摘要:研究一种垂直式网络教学资源采集系统,从提高采集效率和及时有效性出发,通过网页聚类的方法垂直式地采集网络教学资源。有策略地选择少量样本网页,并提取必要的样本信息。通过信息评估模块筛选样本,过滤无效样本或者重复样本。根据重复区域对网页进行分类,采集包含有价值信息的网页。基于Hypertree构建数据模型,提高系统的重构能力。通过个性化的映射规则建立网页和第三方应用程序之间的沟通桥梁,提高系统的易用性和灵活性。最后通过实际应用对系统的有效性进行验证。
关键词:资源采集;网页聚类;Hypertree;映射规则
一、引言
对于网络教学资源的建设,当前的主要方式是通过建立各种官方或非官方的教学资源网站,然后由网络参与者通过上传、转载等手段,将各种教学资源发布到网站上,以方便教学人员访问下载。以这种方式建设的网络教学资源优点是质量较高,用户访问方便,但数量相对有限,更新速度较慢,后续维护难度大,特别是网络上大量的间接教学资源在这种教学资源网站中无法检索到。[1]因此,利用现代信息检索技术和人工智能技术,以自动化方式采集各种教学资源,然后进行整合汇编,从而形成各类教学资源库,将是今后网络教学资源建设的发展方向,也是教学资源传统建设方式的重要补充。相关研究人员提出了许多网络教学资源建设方法:李慧等提出了知识管理视角下的网络教学资源管理策略。[2]对显性知识进行收集、加工、组织和存储,对隐性知识进行交流分享,实现知识的内化和创新。陈芳勤等提出了多元立体化网络教学资源体系的建设方法。[3]采用积木式、层次化的组织模式构建网络教学资源。王丹丹等提出了基于社会性网络服务(SocialNetworkServices,SNS)的网络教学资源自组织构建方法。[4]将自组织理论引入教学资源的构建过程中,促进教学资源的自增长,从而解决教学资源短缺的问题。徐新爱等基于面向服务体系结构(ServiceOrientedArchitecture,SOA)的思想设计了网络教学数据资源集成共享平台,以解决网络教学资源数据异构等问题。[5]
上述研究工作的重点在于通过各种途径(例如知识管理、多元立体化模式、SNS以及SOA等)拓宽资源渠道,加强资源集成,提高网络教学资源的利用率和共享率。但是在网络教学资源的采集效率和及时有效性等方面的研究却较少涉及。因此本文试图研究一种基于网页聚类的垂直式网络教学资源采集系统(以下简称系统),把教学资源采集的范围限制在若干个网站以内,通过网页聚类的方法垂直式地进行资源采集,而不是水平式漫无目的地将大量教学资源都采集到本地,这无疑将提高教学资源的使用效率,避免无意义的资源消耗,从而提高教学资源的及时有效性,减少工作量。
二、系统工作流程
系统的工作流程如图1所示。
定义1:重复区域是指网页上包含多个形式统一的数据记录的模块。
定义2:重复模式是指一个重复区域内所有记录的抽象形式。反之,重复区域可理解为重复模式的具体实例。其中,网页的每一个重复模式都有一个ID。
定义3:链接表格特指记录链接相关信息的重复区域。
定义4:链接位置特指链接在链接表格中的具体位置。系统采用重复模式ID结合表格列ID来描述一个链接的具体位置。
从图中可以看出,系统工作流程主要由基于重复区域进行聚类、基于统一资源定位符(UniformResourceLocator,URL)进行聚类、信息评估、选择遍历路径和查找遍历路径等五个模块组成。鉴于网页样本质量是整个系统的基础,系统采用深度优先和广度优先相结合的策略,从网站链接队列两端随机选择,以保证样本多样化。然后根据样本页面重复区域进行分类,类似的样本归为一个集合,由绿色椭圆标注。接着将各集合中的样本根据URL格式进一步细分,页面布局和URL格式类似的样本归为一个子集合,由红色透明椭圆标注。信息评估模块负责筛选样本,将无效样本或者重复样本过滤掉,包含有价值信息的样本子集合由红色半透明椭圆标注。在选择遍历路径模块中,系统选择最佳的遍历路径,扬弃其他多余的链接,最终选择的遍历路径以黑色箭头标注。系统运行过程中,当一张网页被下载的时候,它首先被送到查找遍历路径模块中。模块根据遍历路径和重复模式,对该网页进行归类,同时创建链接表格。通过查找遍历路径,模块决定链接表格中每一个链接是否加入链接队列。此外,模块还输出网页之间的关联关系,例如是否属于同一集合等,由此决定网页在数据库中的保存位置。
(www.fabiaoba.com),是一个专门从事期刊推广期刊发表、投稿辅导、发表期刊的网站。
本站提供如何投稿辅导、发表期刊,寻求论文刊登合作,快速投稿辅导,投稿辅导格式指导等解决方案:省级论文刊登/国家级论文刊登/
CSSCI核心/医学投稿辅导/职称投稿辅导。
投稿邮箱:fabiaoba365@126.com
在线咨询:
275774677、
1003180928
在线咨询:
610071587、
1003160816
联系电话:18796993035