站内搜索数据提交流程和格式说明_搜索资讯_百度搜索资源平台


本站和网页 https://ziyuan.baidu.com/wiki/170/ 的作者无关,不对其内容负责。快照谨为网络故障时之索引,不代表被搜索网站的即时页面。

站内搜索数据提交流程和格式说明_搜索资讯_百度搜索资源平台
搜索学堂
搜索服务
互动交流
资源合作
用户中心
登录
推荐内容
智能小程序
工具解读
搜索规范
合作共建
基础开发
创作者小课堂
资源提交
小程序资源
资源提交及校验
站点资源
快速收录
普通收录
移动适配
死链提交
数据统计
小程序资源
流量统计
站点资源
索引量
流量与关键词
抓取频次
抓取诊断
抓取异常
Robots
搜索展现
HTTPS认证
站点子链
站点属性
专业问答
专业问答托管页
落地页视频转存
视频极速服务
医疗权威资源
热议资源
站点优化与维护
网站改版
论坛
反馈中心
搜索用户建议
VIP俱乐部
合作专题
申请历史
站点管理
消息提醒
联系方式
管理员设置
分润中心
在线咨询
反馈中心
回到顶部
站内搜索数据提交流程和格式说明
大纲站内搜索数据提交流程什么是XML数据文件?什么是sitemap索引文件?文件大小的限制?如何设置更新周期?数据提交后,多久能被百度抓取?提交的数据都会被收录吗?站内搜索数据格式说明数据文件基本结构固定标签部分扩展标签部分数据格式类型通用-百度站内搜索数据提交模板_0小说影视 站内搜索数据提交流程站内搜索数据提交包含以下4个步骤:常见问题:1 什么是XML数据文件?单个XML数据格式样例如下:<?xml version="1.0" encoding="utf-8"?>XML文件需以utf-8编码<urlset>必填,标识整个链接集合的开始和结束<url>必填,每条数据都用一对<url>标签标识<loc>http://example.com/.../page1.html</loc>必填,页面地址,长度不得超过256字节<lastmod>2013-08-12</lastmod>标识该页面的最后更新时间<changefreq>daily</changefreq>标识此页面的更新频率<priority>0.8</priority>标识此页面相对于其他页面的优先权比值,介于0.0-1.0之间<data>必填,标识扩展标签的开始和结束<display>必填,紧邻<data>,扩展标签都包含在<display></display>里</display>必填,标签闭合</data>必填,标签闭合</url>必填,标签闭合</urlset>必填,标签闭合上述XML数据文件向百度提交了一个url:http://example.com/.../page1.html。若有多条url,则按照上述格式重复<url></url>之间的片断,列明所有url地址,打包到一个XML文件进行提交。2 什么是sitemap索引文件?如需提交大量XML数据文件,可以将其列在sitemap索引文件中,然后提交该索引文件,而无需分别提交每个数据文件。索引文件包含的各个字段标签如下:<?xml version="1.0" encoding="UTF-8" ?> XML文件需以utf-8编码<sitemapindex>必填,标识sitemap索引文件<sitemap>必填,每个数据文件都用一对<sitemap>标签标识<loc>http://example.com/.../aaa.xml</loc>必填,标识数据文件的位置<lastmod>2013-08-20</lastmod>标识数据文件的最近一次修改时间</sitemap>必填,标签闭合</sitemapindex>必填,标签闭合若有多个XML数据文件,则按照上述格式重复<sitemap></sitemap>之间的片断,列明所有XML数据文件地址,打包到一个sitemap索引文件进行提交。3 文件大小的限制?每个XML数据文件包含的网址不得超过 5 万个,且单个文件大小不得超过 10 MB。每个sitemap索引文件包含的XML数据文件不得超过5万个,但是单个索引文件应该小于10MB。这些限制条件有助于避免网络服务器因传输非常大的文件而遇到麻烦。4 如何设置更新周期?百度spider会参考设置周期抓取数据,因此请根据数据文件内容的更新情况(比如增加新url)来设置。请注意若文件内url不变而仅是url对应的页面内容更新(比如论坛帖子页有新回复内容),不在此更新范畴内。5 数据提交后,多久能被百度抓取?数据提交后,一般在1小时内百度会开始处理,处理完成的时间视文件大小而定。当前默认的抓取速度是10url/s,考虑网速等因素造成的折损,每个站点的天级抓取量可达50万。6 提交的数据都会被收录吗?站内搜索将收录您提交的全部数据;但对于百度网页搜索来说,是否收录与页面质量相关。站内搜索数据格式说明数据文件基本结构站内搜索的XML数据文件由两部分组成:固定标签部分和扩展标签部分。 固定标签部分包含<urlset>、<url>、<loc>、<lastmod>、<changefreq>、<priority>、<data>、<display>共8个标签。虽然未必都要填写,但是它们是所有数据格式的通用字段。标签名称 属性类型 属性描述 优先级标签限制 urlset / 标记整个文档的开始和结束必选 /url / 标记每条信息的开始和结束 必选 1个urlset可以包含很多urlloc url 该条数据的存放地址 必选 以"http://"开头最大长度256个字符lastmod 日期 该条数据的最新一次更新时间 可选 格式为YYYY-MM-DDchangefreq 字符串 该条数据的更新频率 可选 有效值为:always、hourly、daily、weekly、monthly、yearly、neverpriority 小数 指定此链接相对于其他链接的优先权比值可选 数值范围:0.0~1.0data/标记扩展数据的开始和结束必选/display/标记扩展数据中用作展现的字段的开始和结束必选/注意事项:XML数据文件必须使用UTF-8编码。所有标签必须按照格式中指定的顺序列出,非必选标签可以不写,但是不能乱序。标签大小写敏感,请务必细心区分。url中不能含有中文字符。lastmod必须严格遵守日期格式,2013-08-01是正确的,2013-8-1则是错误的。扩展标签部分不同数据格式类型包含的扩展标签也不同,主要用于标识网页的正文内容和周边属性。通过扩展标签提交的数据将被用于摘要的特型展现、结果的筛选和排序选项设置,甚至直接影响结果的权重。数据格式类型站内搜索将根据站点类型分别制定相应的数据格式,以及给出相应的摘要样式模板。站内搜索的数据格式包含以下类型,后续还会根据需要再添加:通用-百度站内搜索数据提交模板_0影视小说音乐(建设中)商品(建设中)招聘(建设中)旅游(建设中)图书资料(建设中)问答(建设中)温馨提示:由于历史原因,“通用”类别的数据结构和后续的其他各个类别(如“影视-电影”)表示嵌套数据的方式不太一样。前者将子标签包含在父标签里,后者子标签独立存在但嵌套在父标签中。例如同样表示演员姓名,“通用”类别的表示方法为:<actor name="黄晓明" url="http://example.com/path"/>其他类别的表示方法为:<actor><name>黄晓明</name><url>http://example.com/path</url></actor>通用类型-百度站内搜索数据提交模板_0图1通用类型的摘要示意图(不代表最终效果)具体格式说明:注:“可筛选”“可排序”指的是相应字段在搜索结果页可展现为筛选选项或排序选项;因为所有字段都可用于展现,所以未单独标注。具体应用方式可参考《站内搜索外观和功能设置》。中文标签英文标签子标签属性类型属性描述&举例优先级个数限制可筛选可排序标题title /字符串建议填写,搜索系统优先选用该title可选1 内容content /字符串如能提交全文,则不需要spider再抓取,既可以降低站点服务器压力,提升收录效率,也可以避免搜索系统解析误差可选1 标签tag /字符串可以是内容主题、领域、分类等的简短说明文字;最多可定义20个 可选20是 发布时间pubTime /日期格式为YYYY-MM-DDThh:mm:ss只有提交该字段,“外观设置”中按时间排序或筛选的功能选项才能正常生效注意:YYYY-MM-DD和hh:mm:ss中间必须包含“T”可选1 是面包屑breadCrumb--/用于标记当前网页在站点中所处的层级位置,最多可定义4层,且标签先后顺序必须对应层级顺序,写在最前为最高层级假设一篇文章位于新浪网“体育>NBA>洛杉矶湖人”路径下,那么可以为这个页面设置3个breadCrumb标签可选4 层级名称title字符串 常常体现为频道名或版块名前面例子中3个breadCrumb标签的title分别为“体育”“NBA”“洛杉矶湖人”可选1是 层级首页地址urlurl 前面例子中title为“NBA”时url为http://sports.sina.com.cn/nba/可选1是 缩略图thumbnail --/支持格式gif、jpg、jpeg、png,主要用于搜索结果的摘要展现每个网页最多可以提交10个缩略图,目前站内搜索仅选用其中的第一个用于摘要展现可选10 缩略图地址locurl可选1 图片image --/支持格式gif、jpg、jpeg、png每个网页最多可以提交100张图片,目前当thumbnail不存在时,默认选择image的第一张图片用于摘要展现可选100 图片存放地址locurl 可选1 图片标题title字符串 如果没有标题,也可用于填写该图片的标签等可选1 视频video --/每个网页最多可提交100个视频数据。(近期即将支持)当thumbnail和image不存在时,默认选择video的第一个缩略图用于摘要展现可选100 视频地址locurl包含2种情形:指向实际视频媒体文件,或者指向特定视频的播放器前者例如:http://59.63.171.80/youku/65736E30E1C307CC07EF256D1/0300020E004FCFEC663DA204A5719AA5C2599A-5CDB-D8E5-BEB7-C15C62B686F2.flv后者例如:http://v.youku.com/v_show/id_XNDA3ODI1MTE2.html可选1 视频标题title字符串 例如上述地址的视频标题为“考研访谈:名师陈文灯教授数学复习指导答疑”可选1 视频缩略图地址thumbnail_locurl例如上述视频的缩略图地址为http://g2.ykimg.com/0100641F464FCCBFE9328D04A5719A80053701-E1FA-FF97-B990-39B8B55777EB可选1 视频时长duration整数单位:秒可选1 作者author--/常见于web2.0页面,例如论坛帖子作者、博客作者可选1 作者昵称nickname字符串可选1 作者个人首页地址urlurl该url指向的页面通常提供作者的个人信息介绍可选1 作者头像地址thumbnailurl可选1 回复数replyCount /整数 通常表示论坛贴子回帖数,或博客评论数 可选1是是属性property /字符串 主要用于帖子,例如精华、热门、置顶、最新等属性 ,每个网页最多可以提交3个内容属性可选3是 价格price --/可选1 现价new小数商品价格或打折优惠后的现价可选1是是原价old小数打折优惠前的价格,如果有的话可选1是是折扣discount --/折扣优惠信息可选1 折扣值value小数折扣值可选1是是折扣描述description字符串 折扣优惠介绍 可选1 评价review --/评价信息常用于商品、活动、影视著作等对象可选1 评分值rating小数可选1是是评分基数rating_base小数评分的基数值或“满分”值各网站采用的评分制不尽相同,例如最典型的5分制(0分-5分),还有10分制(0分-10分),或者用百分比来表示,满分为100%(0%-100%)站长可根据实际情况来填写,或者保持不填;只填写rating_base而不填rating是没有意义的可选1 评分人数count整数 评分人数可选1是是位置location--/常用于标识机构、商品或者活动可选1 地址address字符串可选1 电话tel字符串 可选1 地域area字符串 地域范围例如“北京市”“海淀区”“王府井”主要用于地域筛选可选1是 坐标coordinate字符串 坐标采用WGS84标准。格式为:纬度,经度。北纬+,南纬-,东经+,西经-。小数点后最多保留6位。例如“+40.783333,-73.966667”是纽约中央公园的坐标可选1 时间time --/通常用于标识活动;区别于网页内容发布时间可选1 开始时间startDate日期 开始时间格式为YYYY-MM-DDThh:mm:ss可选1 是结束时间endDate日期 结束时间格式为YYYY-MM-DDThh:mm:ss可选1 是数据标记示例:<?xml version="1.0"encoding="UTF-8"?><urlset><url><loc>http://ky.kaoyan.com/04/467393/</loc><lastmod>2013-04-10</lastmod><changefreq>always</changefreq><priority>0.5</priority><data><display><title>【写给即将上战场的你们】努力为王,心态为皇</title><content>略</content><tag>考研复习</tag><tag>经验</tag><pubTime>2012-12-04T11:20:13</pubTime><breadCrumb title="考研加油站" url="http://ky.kaoyan.com/"/><breadCrumb title="考研政治" url="http://www.kaoyan.com/s/zhengzhi"/><thumbnailloc="http://docs.kaoyan.com/jpg/12/1204dde3cd949ccc.jpg"/><imageloc="http://docs.kaoyan.com/jpg/12/12048543278e760d.jpg" title="七个最常用的泰勒展开式"/><videoloc="http://v.youku.com/v_show/id_XNDA3ODI1MTE2.html" title="考研访谈:名师陈文灯教授数学复习指导答疑 "thumbnail_loc="http://g2.ykimg.com/0100641F464FCCBFE9328D04A5719A80053701-E1FA-FF97-B990-39B8B55777EB"duration="217509"/><!-- 视频非实际页面内数据,为示意而构造 --></display></data></url><url>…</url></urlset>小说类型:具体格式说明:中文属性标签英文属性标签属性类型需求对应优先级重复次数举例作品名字nameText作品的名字必选字段1半梦半醒作者authorPerson作品的作者必选字段1作者字段,包含3部分,具体见下方。作品配图imageURL展现的时候会用到强烈建议不限 作品简介descriptionText一般的文本强烈建议1小说故事发生于2005年,跨度六年,讲述了主人公朱亚楠一次去北京参加颁奖大会,结识一号女主角王文静。两人开始朦朦胧胧的爱恋。由于不在同一城市生活,两人只能艰难的异地恋。种种阴差阳错导致他们分分离离,其间又交叉了二号女主角苏扬和三号女主角刘琳。朱亚楠游离在三个美貌女孩之间,最终他会选择和谁终生厮守?他们的爱情又会有什么样的波折?敬请期待!分类genreText作品的分类,方便书籍间的类聚必选字段1言情完成字数wordCountNumber作品的总完成字数强烈建议119221阅读链接urlURL作品的阅读链接必选字段1http://www.rongshuxia.com/chapter/bookid-5304284-chapterid-99069.html更新状态updateStatusText完结还是更新中必选字段1已完结阅读费用trialStatusText免费或者是前多少章免费,或收费必选字段1免费周点击weeklyClickNumber最近一周的点击数量强烈建议150000月点击monthlyClickNumber最近一个月的点击数量强烈建议1150000总点击totalClickNumber作品的总点击数量必选字段13197509最新章节newestChapterChapter作品的最新章节必选字段1 章节chapterChapter作品的章节必选字段不限 更新时间dateModifiedDate作品的更新时间必选字段12012/10/5作者 - author作者名称nameText作者的名称,可能是姓名、笔名或ID必选字段1zhujiaguo1986作者简介descriptionText作者的简介强烈建议1朱家果,男,80后知名作家、诗人。网页链接urlURL作者的网页链接,可能是博客或者个人主页可选字段1http://blog.sina.com.cn/zhujiaguo2007最新章节 - newestChapter所属小说名称articleSectionText章节所属的小说名称必选字段1半梦半醒最新章节标题headlineText最新章节的标题必选字段1未名湖畔最新章节链接urlURL最新章节页面的URL链接必选字段1http://www.rongshuxia.com/chapter/bookid-5304284-chapterid-99144.html更新时间dateModifiedDate最新章节的更新时间必选字段12012/10/5章节 - chapter所属小说名称articleSectionText章节所属的小说名称必选字段1半梦半醒章节标题headlineText章节的标题必选字段1欢畅一日章节内容acticleBodyText给用户展现最新内容强烈建议1刚出朝阳宾馆,王文静就嚷嚷着要去对面的桌球馆里打桌球。王文静挽着朱亚楠的手进了桌球馆,在窗口处领了桌号,要了球杆。许妮一声不响地跟在后面,一脸失落落的样子。服务生刚把桌上的球仔摆好,王文静便乐此不彼地打开了。章节链接urlURL章节的URL链接必选字段1http://www.rongshuxia.com/chapter/bookid-5304284-chapterid-99076.html更新时间dateModifiedDate章节的更新时间强烈建议1 电影类型:图2影视-电影类的摘要示意图(不代表最终效果)具体格式说明:“属性类型”说明1. 含有子标签的属性类型:Person、AggregateRating、VideoObject、InTheaters。子标签内容详见下方各个分支说明。 2. 时间相关的属性类型:Date支持YYYY-MM-DD格式,或者YYYY-MM,或YYYY;Duration支持P[n]Y[n]M[n]DT[n]H[n]M[n]S格式,例如“P3Y6M4DT12H30M5S”表示“3年6个月4天12小时30分5秒”。时间格式说明详见:ISO8601。 3. Number支持各种数字类型,例如整数和小数。 “出现次数”说明1. 不限次数的情况下,用多组同名标签来表达多个值,例如:<genre>爱情</genre><genre>青春</genre>。 No.中文标签英文标签属性类型属性描述优先级出现次数举例可展现可筛选可排序1名称nameText电影名称必选1<name>中国合伙人</name>是  2别名aliasText电影别名可选不限<alias>中国先生</alias>是  3海报imageURL电影海报的链接强烈建议不限<image>http://img31.mtime.cn/mt/2013/05/03/163203.48183969_96X128.jpg</image>是  4描述descriptionText作品的简介必选1<description>从1980年代到21世纪,30年的大变革背景下,三个好友为了改变自身命运,创办英语培训学校,最终实现“中国式梦想”。</description>是  5类型genreText通常指作品本身的分类属性必选不限<genre>喜剧</genre>是是 6演员actorPerson演员或动画片中的配音演员必选不限<actor> <name>邓超</name> <url>http://people.mtime.com/1256584/</url> </actor>是  7导演directorPerson电影导演,包括执行导演等必选不限<director> <name>陈可辛</name> <url>http://people.mtime.com/892817/</url> </director>是  8编剧authorPerson电影等的编剧可选不限<author> <name>周智勇</name> </author>是  9内容语言inLanguageText电影对白主题语言必选1<inLanguage>中文</inLanguage>是  10地区contentLocationText影片的制作地区必选不限<contentLocation>中国</contentLocation>是是 11上映信息premierePremiereInfo电影上映的有关信息必选不限<premiere><datePublished>2013-05-17</datePublished><publishLocation>中国</publishLocation><duration>PT112M</duration></premiere>是是是12摘要abstractText显示在网页中的摘要数据强烈建议1略   13综合评价aggregateRatingAggregateRating用户综合评价必选1<aggregateRating> <ratingValue>8</ratingValue> <bestRating>10</bestRating> </aggregateRating>是 是14预告片trailerVideoObject预告片信息强烈建议不限<trailer> <name>钢铁侠3 中国版剧场预告片</name> <url>http://movie.mtime.com/91881/trailer/43508.html</url> </trailer>   15评论数量commentNumNumber用户评论、意见的数量,表达自己的观点,不一定和作品相关强烈建议1<commentNum>23</commentNum>是16获奖信息awardsText电影的获奖信息强烈建议不限<adwards>金马奖XXX</adwards>是  演员 - actor   1演员姓名nameText演员的姓名必选1<name>邓超</name>是  2页面链接urlURL演员页面的URL链接强烈建议1<url>http://people.mtime.com/1256584/</url>   3角色名称roleText角色的姓名(只有在动漫中才会有)强烈建议不限<role>托尼托尼.乔巴</role>是  导演 - director   1导演姓名nameText导演的姓名必选1<name>陈可辛</name>是  2页面链接urlURL导演页面的URL链接强烈建议1<url>http://people.mtime.com/892817/</url>   编剧 - author   1编剧姓名nameText编剧的姓名可选1<name>周智勇</name>是  综合评价 - aggregateRating   1评价分ratingValueNumber用户的评价分数必选1<ratingValue>8</ratingValue>是 是2最高分bestRatingNumber用户可以打的最高分数必选1<bestRating>10</bestRating>是  3评分次数ratingCountNumber用户打分的总个数强烈建议1<ratingCount>220</ratingCount>是  4评论次数reviewCountNumber用户评论的总个数强烈建议1<reviewCount>23</reviewCount>是  预告片 - trailer   1预告片名称nameText预告片的名称可选1<name>钢铁侠3 中国版剧场预告片</name>   2预告片链接urlURL预告片的URL链接强烈建议1<url>http://movie.mtime.com/91881/trailer/43508.html</url>   上映信息 - PremiereInfo1上映日期datePublishedDate上映时间,不同地区上映时间可能不同必选1<datePublished>2013-05-17</datePublished>是是是2上映地区publishLocationText上映地区强烈建议1<publishLocation>中国</publishLocation>是3时长durationDuration电影时长强烈建议1<duration>PT112M</duration>是数据标记示例:<?xml version="1.0"encoding="UTF-8"?><urlset> <url> <loc>http://baidu.com/</loc> <lastmod>2013-01-01</lastmod> <changefreq>always</changefreq> <priority>1.0</priority> <data><display> <name>中国合伙人</name> <alias>中国先生</alias> <alias>海阔天空</alias> <image>http://f.hiphotos.baidu.com/baike/c%3DbaikeA1%2C10%2C95/sign=9787da2aa50f4bfb98d0c9056a241db1/e1fe9925bc315c60212dde5a8cb1cb1348540923dc5457f6.jpg</image> <description>从1980年代到21世纪,30年的大变革背景下,三个好友为了改变自身命运,创办英语培训学校,最终实现“中国式梦想”。</description> <genre>喜剧</genre> <actor><!-- 展现多个演员信息,其他个数不限的标签用法相同 --> <name>邓超</name> <url>http://people.mtime.com/1256584/</url> </actor> <actor> <name>黄晓明</name> <url>http://people.mtime.com/1249959/</url> </actor> <actor> <name>佟大为</name> <url>http://people.mtime.com/944769/</url> </actor> <director> <name>陈可辛</name> <url>http://people.mtime.com/892817/</url> </director> <author> <name>周智勇</name> </author> <inLanguage>中文</inLanguage> <contentLocation>中国</contentLocation> <premiere> <datePublished>2013-05-17</datePublished> <publishLocation>中国</publishLocation> <duration>PT112M</duration> </premiere> <abstract>略</abstract> <aggregateRating> <ratingValue>8.0</ratingValue> <bestRating>10</bestRating> <ratingCount>220</ratingCount> <reviewCount>23</reviewCount> </aggregateRating> <trailer> <name>钢铁侠3 中国版剧场预告片</name> <url>http://movie.mtime.com/91881/trailer/43508.html</url> </trailer> <commentNum>23</commentNum> <awards>金马奖XXX</awards></display> </data> </url></urlset>
智能小程序
投诉平台
百度统计
百度智能云
百度云加速
百度安全
百度大脑
百度保障
百度开发者中心
联系我们
微信公众号
©2022 Baidu 使用百度前必读 京ICP证030173号