织梦采集,整合了织梦DEDE发布接口,提供有织梦自动采集、织梦自动更新、织梦自动发布等强大的功能,让站长们可以轻松地建立织梦网站或者织梦CMS站群,织梦CMS作为开源的程序,能配上织梦采集管理,将会帮助站长更好的管理网站和网站建设。
网站的核心是什么?是内容,虽然说对于seo来说,最好是能够进行伪原创、甚至原创,但是很多站长每天并不一定有太多的的时间来进行内容的创作。于是很多站长开始想法子进行织梦采集内容从而填充网站的内容。站长最大的心愿是提供最丰富的网站内容,吸引更多地访问量;织梦采集好比一双慧眼,让您看得更远,获得更多。
站长希望将别人的整站织梦采集数据下载到自己的网站里或者将别人网站的一些内容织梦采集保存到自己的服务器上。织梦采集从内容中抽取相关的字段,发布到自己的网站系统中。有时需要将网页相关的文件也保存到本地,如图片、附件等。
织梦采集会定时从同一网站上抓取内容,希望已经抓取的内容不要再发布到网站系统中。对于一些网站,需要登陆才能获取页面。站长希望通能够通过一个内容列表页面获取所有的相关内容,织梦采集包括内容列表的其它分页。当第二次抓取相同网站时,织梦采集不要再重复第一次的设定。
织梦采集多样化的采集目标,信息分布在各种信息存储系统中,各种存储系统有着各自的交互机制,需要织梦采集提供多种并可扩展的连接模块。织梦采集多样化的数据格式,信息以多种形式存在,如网页、word文档、pdf等。这些不同的格式数据需要织梦采集采用不同的采集机制。
织梦采集分布式海量数据,由于网络通信的延时和网络带宽的限制,并发多线程通信能够有效地减低延时和抢夺资源。织梦采集数据横向和纵向采集,需要织梦采集自动采集数据的下一页;自动采集数据的关联附件;自动根据当前采集结果采集下一数据。站长操作简单、快捷,多样且复杂的数据格式增加用户的作业难度,用户希望所见及所得,织梦采集及时提供相应的操作提示信息。
织梦采集实现网站内容采集的方法,获取被采集的页面的内容,ASP常用获取被采集的页面的内容方法:
用serverXMLHTTP组件获取数据
Function GetBody(weburl)
'创建对象
Dim ObjXMLHTTP
Set ObjXMLHTTP=Server.CreateObject("MSXML2.serverXMLHTTP")
'请求文件,以异步形式
ObjXMLHTTP.Open "GET",weburl,False
ObjXMLHTTP.send
While ObjXMLHTTP.readyState <> 4
ObjXMLHTTP.waitForResponse 1000
Wend
'得到结果
GetBody=ObjXMLHTTP.responseBody
'释放对象
Set ObjXMLHTTP=Nothing
End Function
调用方法:GetBody(文件的URLf地址)
织梦采集或者用XMLHTTP组件获取数据
Function GetBody(weburl)
'创建对象
Set Retrieval = CreateObject("Microsoft.XMLHTTP")
With Retrieval
.Open "Get", weburl, False, "", ""
.Send
GetBody = .ResponseBody
End With
'释放对象
Set Retrieval = Nothing
End Function
调用方法:GetBody(文件的URLf地址)
这样获取的数据内容还需要进行编码转换才可以使用
Function BytesToBstr(body,Cset)
dim objstream
set objstream = Server.CreateObject("adodb.stream")
objstream.Type = 1
objstream.Mode =3
objstream.Open
objstream.Write body
objstream.Position = 0
objstream.Type = 2
objstream.Charset = Cset
BytesToBstr = objstream.ReadText
objstream.Close
set objstream = nothing
End Function
调用方法:BytesToBstr(要转换的数据,编码)'编码常用为GB2312和UTF-8。
评论留言