跨语言搜索

2019-12-04 16:24:17  浏览:147  作者:老王

  随着全球化进程席卷全球,互联网所提供的信息资源不再集中于英语等少数几种语言上。另一方面,英语非母语的互联网用户比重也在快速增长,对于大多数不精通外语的用户而言,熟练地使用外语查询所需要的相关的其他语种信息较为困难,而使用母语查询条件搜索出相关的外语信息,再借助于辅助翻译工具浏览信息则相对较为容易。因此自动将用户的母语查询条件翻译为相应的其他语种查询条件,再使用搜索引擎查找出所需的信息,是方便用户获取网上资源的有效途径。跨语言搜索(CLIR: Cross-Language InformationRetrieval)研究的正是这方面的内容,它是信息检索研究为了克服语言障碍而发展出来的一个分支.随着互联网的蓬勃发展,研究开发优秀的跨语言信息检索系统显得日益迫切。

  Google目前己经提供多种语言之间的跨语言搜索,图128是一个具体实例,当用中文搜索“麻省理工”的时候,排在第I位的是麻省理工学院的英文主页。同时 Google也在大力发展机器翻译技术,当用户搜索到外文网贞后,可以使用机器翻译技术将网页翻译为用户的母语,尽管目前翻译质量不算非常理想,但是用户可以获知网页的主要内容,这样就有效地增加了搜索范围。

跨语言搜索

  一般来说,解决用户查询与查询文档集之间的语言障碍有3种不同的技术路线,既可以将查询翻译成与查询文档集相同的语言也可以将查询文档集翻译成与查询相同的语言还可以同时将两者映射到与具体语言无关的语义空间。由于查询文档集一般都很大,采取翻译查询文档集到用户查询语言的技术路线代价太高,所以一般的研究集中在其他两种技术路线上,其中最常见的还是将用户查询翻译成文档集的语言,比如用户输入中文的查询“麻省理工”,跨语言搜索系统将这个查询翻译成MT,然后去英文的网页里搜索,获得麻省理工学院的首页。

  如何将中文的用户查询翻译为英文的查询?目前主流的方法有3种:机器翻译方法双语词典查询方法及双语语料挖捆方法(参考图12-9)。

跨语言搜索

  机器翻译方法非常直观,即利用现成的机器翻译系统直接将中文的用户查询翻译为英文的查询。但是这个方法有个缺点,一般用户查询较短,不像文章里的语句,没有查询词的上下文信息,所以翻译效果一般不能保证。

  双语词典查询方法思路也很简单,对于中文査询,直接査找中英双语词典,将可能的英文翻译找出,问题的关键是一个中文查询词往往有多个对应的翻译项,系统需要判断哪个翻译项才是正确的。另外,双语词典规模往往不够大,很多用户查询可能无法在双语词典里找到,尤其是人名、地名这些比较灵活使用的命名实体,所以这种方法需要解决以上的两个问题。

  双语语料挖掘方法与上面两种方法思路不同,是通过准备好的双语语料,比如报道相同事件的中文和英文新闻,然后在这种双语语料基础上计算某个查淘词翻译为另外一种语言查询词的概率,选择翻译概率最高的作为查询词翻译的结果。这种方法的缺点主要是获取大规模的双语语料有较大难度。

  对于一个全球性的搜索引擎来说,具备跨语言搜索功能是必然的发展趋势,而其基本技术路线一般会采用查询翻译加上网页的机器翻译这两种技术手段。

评论区

共0条评论
  • 这篇文章还没有收到评论,赶紧来抢沙发吧~

【随机新闻】

返回顶部