Algoritmo de Vocabulario básico

Honestamente, esto es la parte más sencilla.

Inicio con 10K del más generalmente utilizó sustantivos y verbos (AKA "propuso plazos"). Generar un global núcleo' (en plazos de weighted "grados de separación") de cada Tipo (y el Tipo es otro 'significados ciertos') a cada plazo propuesto. Si unas puntuaciones de Tipo en la parte superior 50.ยบ percentile para un plazo propuesto dado, aquel plazo contiene el elemento (o el bit) que el Tipo representa.

Cuándo cada plazo propuesto ha sido 'vetted' por todo ocho Tipos, su índice básico es completamente determinó. Este proceso es "exhaustivo pero sincero", el cual lo hace una tarea ideal para un ordenador.

Las definiciones de plazos utilizaron encima:

El 'weighting' el algoritmo correría como sigue:.

  1. Cada cual el plazo propuesto sería comprobado para la primera "conexión Directa" (Tipo en frase misma) con el Tipo aplicable (Self, por ejemplo)
    1. Para bien de eficacia, frase misma, el párrafo y la página podrían ser comprobados simultáneamente, pero la frase misma única importaría al llegar a este punto
  2. El grupo más grande de plazos (encontrados o no encontrados) sería comprobado para la primera conexión con el próximo 'significado cierto' de aquel Tipo mismo (probablemente Supremacía)
    1. "trueness De significar" es todavía una llamada de juicio
    2. Un orden diferente de 'significado cierto' los controles podrían proporcionar agrupación de plazo mejor
  3. El sub-agrupar aquello contiene el quincuagésimo percentile sería comprobado con el significado cierto próximo (Propiedad quizás?)
    1. Cada iteration comprueba un número más pequeño de plazos
  4. Repite paso tres hasta el 'necesidad' y 'no necesita' los grupos son de medida igual
    1. Esto no puede requerir comprobando todas las conexiones directas o cualesquier conexiones indirectas
  5. Cuándo hecho con uno Escribe, Repite proceso con Tipo próximo
reiterative cuts


El requisito único es un repository de conectó palabras (como el internet o un propósito enorme, general Wiki) y los recursos de ordenador requirieron a esift' él. Si cualquiera sabe de cualquier organización que sería dispuesto de apoyar este proyecto, dejado me saber. Desafortunadamente mis recursos están limitados. (No tengo el espacial de *descargar* Wikipedia, mucho menos procesarlo.)

Sólo estoy especificando diez mil palabras, porque "No-las frases conversacionales descriptivas" tendrían que llenar la mayoría del restantes seis mil ranuras básicas. Frases conversacionales comunes (y otros plazos manejables) tendría que ser suministrado por usuarios para llenar su propios la mayoría de habituales o pulsando necesidades. Los vocabularios personales tendrían que ser utilizados para palabras de código, compartió referencias, interior y argot locales chistes (no que los vocabularios Personales son de hecho disponibles justo todavía, entiendes).

Yendo de allí.

Arreglando el (64) relacionó plazos en cada "División Creada" de la capa de descripción y creando variaciones adjetivales y adverbiales es la parte dura (o al menos la parte manual). Generación de plurales y formas de grado, por otro lado, es mayoritariamente trivial. Eligiendo el 'común' (#00) el plazo para la "Descripción Neutra" puede ser simplificado con count de uso.

Desafortunadamente las relaciones entre los plazos y los Tipos son mucho menos self evidentes en este nivel y colisiones de índice están atados para ocurrir. El problema es que un número grande de estas decisiones es esencialmente llamadas de juicio. Generando acción y sustantivos de entidad y determinando qué sustantivos son "No-Descriptivos" es duro de delegar a una máquina. Estos procesos pueden ser semiautomatizados por utilizar controles de diccionario, pero ningún diccionario nunca puede proporcionar cien cobertura de porcentaje.

Homonyms Necesitará ser identificado y aclarado (corteza cuando en perro o ladrar tan en árbol?). Los verbos también necesitarán ser nouned (nounified? ... Sustantivo-o-matized?). La mayoría de verbos pueden ser tratados como sustantivos sin modificación (una carrera, una mirada), pero allí siempre sospechoso transients loitering alrededor (un ver? [ Escene' {entidad} y esight' {la acción} es las sospechosas más habituales]).

Esto es donde una base de usuario implicada activa de hecho entraría manejable. "Con bastante eyeballs todo significando tiene poco fondo." La aplicación necesita una 'retroalimentación' integral botón para inarguable fija. El botón de retroalimentación automáticamente crearía una transacción que podría proponer un nuevo (o cambiado) plazo para una ubicación dada. Un "Intercambio botón de Plazos" Múltiples sería muy manejable también (ninguna idea cómo trabaje justo todavía).

Naturalmente, un botón de retroalimentación no incluso ser práctico hasta que después de un vocabulario es ordenador generado y el botón no sería disponible en la versión libre de la aplicación. Necesitamos limitar "actualizaciones fáciles" a personas que son serios sobre los resultados. Si de hecho pagas para utilizar algo eres menos probablemente para probar a tornillo él arriba para vandalistic ego abucheo.

La Capa de Especialización

Hay una lista de Specialties habiendo vocabularios Focales. Estos Specialties podría ser distribuido utilizando el mismo proceso como los plazos básicos. Esto es sólo el primer paso a de hecho creando la Capa de Especialización, pero él (hopefully) ser un sitio bueno para empezar.

Recogiendo todo del especializó los plazos no es difíciles, pero arreglándoles lógicamente podría probar para ser el trabajo de varios lifetimes.



Atrás a la página de casa.