3.4. 搜索引擎利用

      • 数据预处理
        • 长度截断
        • 大小写转化
        • 去标点符号
        • 简繁转换
        • 数字归一化,中文数字、阿拉伯数字、罗马字
        • 同义词改写
        • 拼音改写
      • 处理
        • 分词
        • 非法信息过滤
      • site:www.hao123.com
        • 返回此目标站点被搜索引擎抓取收录的所有内容
      • site:www.hao123.com keyword
        • 返回此目标站点被搜索引擎抓取收录的包含此关键词的所有页面
        • 此处可以将关键词设定为网站后台,管理后台,密码修改,密码找回等
      • site:www.hao123.com inurl:admin.php
        • 返回目标站点的地址中包含admin.php的所有页面,可以使用admin.php/manage.php或者其他关键词来寻找关键功能页面
      • link:www.hao123.com
        • 返回所有包含目标站点链接的页面,其中包括其开发人员的个人博客,开发日志,或者开放这个站点的第三方公司,合作伙伴等
      • intitle:"500 Internal Server Error" "server at"
        • 搜索出错的页面
      • inurl:"nph-proxy.cgi" "Start browsing"
        • 查找代理服务器
    • 查询不区分大小写
    • 代表某一个单词
    • 默认用and
    • OR 或者 | 代表逻辑或
    • 单词前跟+表强制查询
    • 引号引起来可以防止常见词被忽略
    • 括号会被忽略